如何度量一个分布长尾的程度?

  统计/机器学习 概率分布 描述性统计    浏览次数:4256        分享
3

如何度量一个长尾分布到底有多长,也就是比较两个长尾分布的长尾程度?有具体的公式可以计算吗?

 

小萌新   2020-03-04 21:29



   3个回答 
9

可以用峰度(Kurtosis)来表示长尾得程度,正态分布得峰度是3,如果一个分布的峰度大于3,你可以认为它是比正态分布更长尾的。

峰度的计算公式是根据四阶中心距和标准差得到的

$$\text{Kurtosis}=\frac{\frac{1}{n}\sum_{i=1}^n (x-\bar x)^4}{\sigma^4}$$

$\bar x$是样本中的均值

SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2020-03-22 13:11

5

用二阶矩、三阶矩、四阶矩是一个思路

我在网上还找到一篇论文,基本思想是用去除离群点的方法来定义长尾的程度,用了分位数和IQR,论文Measuring heavy-tailedness of distributions

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2020-03-22 17:15

谢谢大佬分享 - 小萌新   2020-04-02 09:12
2

也可以用大于3倍标准差的概率来衡量长尾的程度。

$$T=Pr(|x-\bar {x}|> 3\sigma)$$

正态分布的$T$是0.27%,其他分布也能算出这样的值,这个值越大,就越长尾

SofaSofa数据科学社区DS面试题库 DS面经

壬金   2022-04-30 16:47



  相关讨论

KL divergence为什么不是对称的?

样本中心矩和样本原点矩的定义分别是什么?

顺序统计量(order statistics)是什么?

怎么理解指数分布里的参数lambda?

python中计算KL divergence

boxplot里的横线是什么意思?

QQ-plot图里的x轴y轴是什么意思

两个独立的正态随机变量的乘积服从什么分布?

Weibull分布是什么分布?现实中有什么例子?

log-normal分布实际有什么用?

  随便看看

二元分类问题中经常提到的TP,TN,FN,FP都是什么意思?

deep learning中的pooling是什么意思?

如何获取pyspark DataFrame的行数和列数?

matplotlib.pyplot做折线图的时候,显示为虚线,或者点划线?

怎么计算(估计)ROC AUC的置信区间?