1个回答
我写了个函数
def drop_col(df, col_name, cutoff=0.5):
n = len(df)
cnt = df[col_name].count()
if (float(cnt) / n) < cutoff:
df.drop(col_name, axis=1, inplace=1)
用的时候,比如说你有一个pandas的dataframe叫df,其中有一列是'col_1',如果这一列中有50%以上的缺失值,那么就从df中删除这一列
drop_col(df, 'col_1', cutoff=0.5)
如果这一列中有80%以上的缺失值,那么就从df中删除这一列
drop_col(df, 'col_1', cutoff=0.2)
多谢!
-
Robin峰
2017-11-29 22:47