pyspark中怎么对dataframe里的行按照列去重?有没有类似于pandas里drop_duplicates这样的函数?
您确定要删除本贴么?所有相关回复也会被一并删除并且无法恢复。
chang 2019-10-03 22:10
spark_df = spark_df.dropDuplicates(cols)
cols是list of column names
houherui 2019-10-05 13:16
回答问题时需要注意什么?
我们谢绝在回答前讲“生动”的故事。 我们谢绝答非所问。 我们谢绝自己不会、硬要回答。我们谢绝“这么简单,自己想”、“书上有,自己找”这类回答;如果你认为对方提问方式或者内容不妥,可以直接忽略,不作解答,甚至投反对票。我们感激每一个用户在编写答案时的努力与付出!
相关讨论
怎么将两个pyspark dataframe以串联的形式合并?
pyspark里unpersist()什么作用?
怎么对pyspark.sql.dataframe按照某一列降序排列?
如何获取pyspark DataFrame的行数和列数?
如何对pyspark dataframe删除一列
返回pyspark dataframe的行数?
怎么对pyspark dataframe更改列名
pyspark里如何进行SELECT DISTINCT操作?
怎么在pyspark里把dataframe写入csv文件?
pyspark dataframe的collect()方法是什么意思?
随便看看
怎么对pandas dataframe的列求众数
分类特征的目标编码是什么意思?
除了PCA,还有什么降维的方法?
pip install opencv-python失败,难道非要编译安装?
KNN中K值的选择