全部问题问题热门未解答所有标签标签收藏收藏我要提问

pyspark中怎么对dataframe里的行按照列去重？

统计/机器学习 Python 浏览次数：4709 分享

二维码

手机扫描二维码

面试中常见简答题？

pyspark中怎么对dataframe里的行按照列去重？有没有类似于pandas里drop_duplicates这样的函数？

chang 2019-10-03 22:10

1个回答

spark_df = spark_df.dropDuplicates(cols)

cols是list of column names

SofaSofa数据科学社区 DS面试题库 DS面经

houherui 2019-10-05 13:16

相关讨论

怎么将两个pyspark dataframe以串联的形式合并？

pyspark里unpersist()什么作用？

怎么对pyspark.sql.dataframe按照某一列降序排列？

如何获取pyspark DataFrame的行数和列数？

如何对pyspark dataframe删除一列

返回pyspark dataframe的行数？

怎么对pyspark dataframe更改列名

pyspark里如何进行SELECT DISTINCT操作？

怎么在pyspark里把dataframe写入csv文件？

pyspark dataframe的collect()方法是什么意思？

随便看看

怎么对pandas dataframe的列求众数

分类特征的目标编码是什么意思？

除了PCA，还有什么降维的方法？

pip install opencv-python失败，难道非要编译安装？

KNN中K值的选择