怎么对pyspark的dataframe进行随机抽样?

  统计/机器学习 抽样方法 Python Spark    浏览次数:1356        分享
0

怎么对pyspark的dataframe进行随机抽样?比如无放回的随机选10%的行,或者1000行

 

csdncsdn   2022-06-06 17:32



   1个回答 
0

语法和pandas dataframe的随机抽样差不多

# withReplace, fraction, seed是参数,fraction是0到1之间的数
df_sample = df.sample(withReplacement, fraction, seed=None)


SofaSofa数据科学社区DS面试题库 DS面经

abuu   2022-06-09 23:31



  相关讨论

怎么在pyspark中查看一个表格的partition?

pyspark的dataframe里怎么count每一列的null的数量?

pyspark里转成整数型报错TypeError: unexpected type:

pyspark里怎么把类似‘yyyy-mm-dd‘的字符串转成星期几的形式?

pyspark里怎么查看一个dataframe的schema?

pyspark获取当月的最后一天的日期?

hive和spark sql的区别是什么?

怎么用pyspark取出hive表里的json串中某一个key的值?

pyspark里如何进行SELECT DISTINCT操作?

怎么将两个pyspark dataframe以串联的形式合并?

  随便看看

牛顿法到底是一阶优化算法还是二阶优化算法?

修正R方(adjusted R square)是什么?

pandas.DataFrame更改列名

激活函数RELU在0点的导数是多少?

概率论中的鞅是什么?