boxplot里的横线是什么意思?

  统计/机器学习 概率分布 描述性统计 数据可视化    浏览次数:6683        分享
1

统计学得不好,请教大家,boxplot里的这些横线,还有box的大小都是什么意思?

第3个boxplot的外面还有一个点,这个又是什么意思呢?


 

一棵海草   2018-07-18 05:38



   1个回答 
10

我就用题主的图举例了

box plot的中间是个box

box的上边缘是Q3,也就是第三四分位数,或者说第75百分位数。

box的下边缘是Q1,也就是第一四分位数,或者说第25百分位数。

box的中间的线是中位数。所以整个box是占据了整个数据集的一半。

boxplot其实有很多种,不同的box对box外的那两个横线的定义不大一样。

Tukey Boxplot是比较常见的一种,它的最上面的线是Q3+1.5IQR,最下面的线是Q1-1.5IQR。

IQR是四分位距,IQR=Q3-Q1。

任何在最下限或者最上限之外的点都会被标出(比如题主的例子),被标出的点称为离群点(outlier)


SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2018-07-18 08:23

谢谢! - 一棵海草   2018-07-25 12:09


  相关讨论

QQ-plot图里的x轴y轴是什么意思

顺序统计量(order statistics)是什么?

如何度量一个分布长尾的程度?

KL divergence为什么不是对称的?

样本中心矩和样本原点矩的定义分别是什么?

怎么理解指数分布里的参数lambda?

python中计算KL divergence

如何修改hist()直方图纵轴的取值范围(表示的概率)?

seaborn.distplot直方图的y轴的数值是什么意思?

Python里画直方图

  随便看看

dropout rate一般设置多大?

PCA降维之前为什么要先标准化?

怎么对pandas dataframe的列求众数

如何获取pyspark DataFrame的行数和列数?

pandas报错ValueError: Cannot convert non-finite values (NA or inf) to integer