全部问题问题热门未解答所有标签标签收藏收藏我要提问

pyspark里如何进行SELECT DISTINCT操作？

统计/机器学习 Python 浏览次数：11082 分享

二维码

手机扫描二维码

机器学习面试也能刷题？

sql里可以SELECT DISTINCT col1, col2 FROM tab

怎么对pyspark的dataframe进行这样的select distinct的操作呢？

thatdeep 2018-11-08 10:54

1个回答

df.select('Col1', 'Col2').distinct()

SofaSofa数据科学社区 DS面试题库 DS面经

AlphaCat 2018-11-08 19:51

多谢 - thatdeep 2018-11-22 12:10

相关讨论

怎么对pyspark.sql.dataframe按照某一列降序排列？

pyspark dataframe的collect()方法是什么意思？

怎么将两个pyspark dataframe以串联的形式合并？

如何获取pyspark DataFrame的行数和列数？

如何对pyspark dataframe删除一列

怎么在pyspark里把dataframe写入csv文件？

pyspark中怎么对dataframe里的行按照列去重？

怎么对pyspark dataframe更改列名

pyspark里unpersist()什么作用？

得到一个pyspark.sql.dataframe中所有列的名称

随便看看

Random Forest可以用来做聚类？

分类变量，进行One hot编码，维度升高，如何处理？

如何重命名pandas的dataframe的列名

非方阵的逆是什么

怎么从矩母函数(mgf)推导得到概率密度函数(pdf)？