如在使用spark的情况下,数据一共有2亿条。是运用collect转换成如python可处理的格式后进行操作吗?还是有更好的方法进行数据探索。
1个回答
你应该不需要直接处理到2亿条数据的吧
如果是要用2亿条数据直接建模,你可以用sparkmllib
如果你只是去做一些交叉分析然后做一些可视化,可以先在spark里进行筛选汇总操作,最后再pandas出来一个很小的dataframe
SofaSofa数据科学社区DS面试题库 DS面经
谢谢你的回答,应该说具体场景是类似于建模前需要对数据分布等进行绘图。比如说欺诈分析是需要进行绘图来查看两者分布的。我理解你的意思是比如做直方图,会先对变量值按值分组,count,接下来把这个小的部分给转换成pd.dataframe后作图,请问理解得对吗?
-
sunnymilk
2020-03-19 12:30
是的。如果你数据特别大,也可以先做随机采样再做直方图,会节约很多时间。
-
zl_pku
2020-03-20 00:11
也可以直接在spark里得到直方图的分布数据,然后再导入到本地用matplotlib画出来
-
zl_pku
2020-03-20 00:15