为什么说皮尔逊相关系数是刻画了线性相关性?

  统计/机器学习 概率分布 回归分析 描述性统计    浏览次数:7249        分享
0

为什么说皮尔逊相关系数是刻画了线性相关性?如果两个变量相关,但是不一定是线性关系,那么用皮尔逊相关系数会怎么样?

 

烙神经   2018-10-25 11:43



   2个回答 
5

如果有两个变量$X$和$Y$,并且它们的尺度都是-1到1的,那么$X$和$Y$的皮尔逊相关系数就是$X$和$Y$做一元线性回归的回归系数解释),从这点我们可以看明显的看出,皮尔逊相关系数就是描述的线性关系。

另外一个反例是,如果$Y=X^2$,并且$X$的范围是-1到1,尽管它们是有关联的,但是它们的皮尔逊系数为0,因为它们并没有任何线性关系。

SofaSofa数据科学社区DS面试题库 DS面经

zl_pku   2018-11-12 15:57

4

"If a relationship between two variables is not linear, the rate of increase or decrease can change as one variable changes, causing a "curved pattern" in the data. This curved trend might be better modeled by a nonlinear function, such as a quadratic or cubic function, or be transformed to make it linear. Plot 4 shows a strong relationship between two variables. However, because the relationship is not linear, the Pearson correlation coefficient is only +0.244."


source: https://support.minitab.com/en-us/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/

SofaSofa数据科学社区DS面试题库 DS面经

Ethan16   2018-11-12 11:29



  相关讨论

两个变量不相关但是也不独立

为啥计算pearson相关系数和线性回归的coef不同呢

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?

一个连续变量和一个二元变量的相关系数怎么求?

相关系数中的效率指啥?

有序分类变量的相关系数

超几何分布几何分布的关联?

如果x是等级变量, y是连续变量 相关分析是不是用speaman

Python计算两个数组的相关系数

相关系数的p值是怎么算的?

  随便看看

spark里怎么refresh表?

yolo v4和yolo v3的主要区别是什么?

什么是混淆矩阵(confusion matrix)

怎么把pandas.DataFrame转成torch.tensor的格式?

python里清除已经定义过的变量