怎么对pyspark dataframe里的空缺值填值?

  统计/机器学习 数据预处理 Python    浏览次数:7142        分享
0

怎么对pyspark dataframe里的空缺值填值?

pandas dataframe里有df=df.fillna(0),pyspark dataframe有没有类似的方法来填充NA或者missing?


 

fkj   2019-02-22 10:14



   1个回答 
4

pyspark也有fillna,用法和pandas类似。对三列填充0,如下

df = df.fillna(0.0, subset=['col1', 'col2', 'col3'])

也可以dict的方法让fillna对不同的列填充不同的值,如下

df = df.fillna({'col1': 1.0, 'col2': 2.0, 'col3': 3.0})
SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-02-22 15:50

谢谢! - fkj   2019-02-23 09:16


  相关讨论

如何获取pyspark DataFrame的行数和列数?

怎么对pyspark.sql.dataframe按照某一列降序排列?

pyspark中怎么对dataframe里的行按照列去重?

如何对pyspark dataframe删除一列

怎么对pyspark dataframe更改列名

怎么在pyspark里把dataframe写入csv文件?

怎么将两个pyspark dataframe以串联的形式合并?

pyspark里unpersist()什么作用?

得到一个pyspark.sql.dataframe中所有列的名称

pyspark里如何进行SELECT DISTINCT操作?

  随便看看

为什么矩阵的二范数和向量的二范数的定义不同?

为什么过拟合不好?

逻辑回归的损失函数是怎么来的

cvr和ctr的区别是什么?

pandas同时返回一个dataframe的前几行(head)和后几行(tail)