如何度量一个长尾分布到底有多长,也就是比较两个长尾分布的长尾程度?有具体的公式可以计算吗?
3个回答
可以用峰度(Kurtosis)来表示长尾得程度,正态分布得峰度是3,如果一个分布的峰度大于3,你可以认为它是比正态分布更长尾的。
峰度的计算公式是根据四阶中心距和标准差得到的
$$\text{Kurtosis}=\frac{\frac{1}{n}\sum_{i=1}^n (x-\bar x)^4}{\sigma^4}$$
$\bar x$是样本中的均值
SofaSofa数据科学社区DS面试题库 DS面经用二阶矩、三阶矩、四阶矩是一个思路
我在网上还找到一篇论文,基本思想是用去除离群点的方法来定义长尾的程度,用了分位数和IQR,论文Measuring heavy-tailedness of distributions
SofaSofa数据科学社区DS面试题库 DS面经
谢谢大佬分享
-
小萌新
2020-04-02 09:12
也可以用大于3倍标准差的概率来衡量长尾的程度。
$$T=Pr(|x-\bar {x}|> 3\sigma)$$
正态分布的$T$是0.27%,其他分布也能算出这样的值,这个值越大,就越长尾
SofaSofa数据科学社区DS面试题库 DS面经