pyspark里怎么求百分位数?

  算法/数据结构/数据库 mysql Spark Hive    浏览次数:5546        分享
1

hive sql里有percentile_approx的函数可以近似求百分位数,pyspark里没有这个函数,怎么在pyspark里求百分位数?

 

chang   2020-02-25 09:07



   1个回答 
4

比如你要对ID进行groupby得到val这列第25和75百分位数,那么可以这么操作

percentiles = F.expr('percentile_approx(val, array(0.25, 0.75))')
new_data = data.groupby('ID').agg(percentiles)


SofaSofa数据科学社区DS面试题库 DS面经

简Cheng   2020-02-26 20:30

太牛X了,谢谢 - chang   2020-02-29 22:08


  相关讨论

hive和spark sql的区别是什么?

怎么用pyspark取出hive表里的json串中某一个key的值?

pyspark获取当月的最后一天的日期?

pyspark里怎么查看一个dataframe的schema?

pyspark的dataframe里怎么count每一列的null的数量?

怎么在pyspark中查看一个表格的partition?

pyspark里怎么把类似‘yyyy-mm-dd‘的字符串转成星期几的形式?

pyspark里转成整数型报错TypeError: unexpected type:

hive里的LEFT SEMI JOIN是什么JOIN?

怎么对pyspark的dataframe进行随机抽样?

  随便看看

怎么在已有的dataframe中插入一个新列(Pandas)

怎么在matplotlib.pyplot的plot上加上文字?

怎么把dataframe的一列转成整数类型

为什么梯度的反方向是函数下降最快的方向?

python里怎么计算曼哈顿距离?