hive sql里有percentile_approx的函数可以近似求百分位数,pyspark里没有这个函数,怎么在pyspark里求百分位数?
1个回答
比如你要对ID进行groupby得到val这列第25和75百分位数,那么可以这么操作
percentiles = F.expr('percentile_approx(val, array(0.25, 0.75))')
new_data = data.groupby('ID').agg(percentiles)
太牛X了,谢谢
-
chang
2020-02-29 22:08