sql里可以SELECT DISTINCT col1, col2 FROM tab
怎么对pyspark的dataframe进行这样的select distinct的操作呢?
您确定要删除本贴么?所有相关回复也会被一并删除并且无法恢复。
thatdeep 2018-11-08 10:54
df.select('Col1', 'Col2').distinct()
AlphaCat 2018-11-08 19:51
回答问题时需要注意什么?
我们谢绝在回答前讲“生动”的故事。 我们谢绝答非所问。 我们谢绝自己不会、硬要回答。我们谢绝“这么简单,自己想”、“书上有,自己找”这类回答;如果你认为对方提问方式或者内容不妥,可以直接忽略,不作解答,甚至投反对票。我们感激每一个用户在编写答案时的努力与付出!
相关讨论
怎么对pyspark.sql.dataframe按照某一列降序排列?
pyspark dataframe的collect()方法是什么意思?
怎么将两个pyspark dataframe以串联的形式合并?
如何获取pyspark DataFrame的行数和列数?
如何对pyspark dataframe删除一列
怎么在pyspark里把dataframe写入csv文件?
pyspark中怎么对dataframe里的行按照列去重?
怎么对pyspark dataframe更改列名
pyspark里unpersist()什么作用?
得到一个pyspark.sql.dataframe中所有列的名称
随便看看
Random Forest可以用来做聚类?
分类变量,进行One hot编码,维度升高,如何处理?
如何重命名pandas的dataframe的列名
非方阵的逆是什么
怎么从矩母函数(mgf)推导得到概率密度函数(pdf)?