pyspark中怎么对dataframe里的行按照列去重?

  统计/机器学习 Python    浏览次数:4290        分享
0

pyspark中怎么对dataframe里的行按照列去重?有没有类似于pandas里drop_duplicates这样的函数?

 

chang   2019-10-03 22:10



   1个回答 
1


spark_df = spark_df.dropDuplicates(cols)

cols是list of column names

SofaSofa数据科学社区DS面试题库 DS面经

houherui   2019-10-05 13:16



  相关讨论

怎么将两个pyspark dataframe以串联的形式合并?

pyspark里unpersist()什么作用?

怎么对pyspark.sql.dataframe按照某一列降序排列?

如何获取pyspark DataFrame的行数和列数?

如何对pyspark dataframe删除一列

返回pyspark dataframe的行数?

怎么对pyspark dataframe更改列名

pyspark里如何进行SELECT DISTINCT操作?

怎么在pyspark里把dataframe写入csv文件?

pyspark dataframe的collect()方法是什么意思?

  随便看看

怎么对pandas dataframe的列求众数

分类特征的目标编码是什么意思?

除了PCA,还有什么降维的方法?

pip install opencv-python失败,难道非要编译安装?

KNN中K值的选择