比如说网上的这个例子,计算a和b的相关系数
最后得到相关系数0.99,p value是0.068。这个p值是怎么计算的?
>> import scipy.stats as stats
>> a = [1.2, 1.5, 1.9]; b = [2.2, 2.5, 3.1]
>> stats.pearsonr(a,b)
(0.99419162560192009, 0.068648785502029797)
2个回答
这个p value对应的null hypothesis是数组a和b的相关系数为0。
p value服从$n-2$的t分布,$n$是数组a的样本个数,$r$是a和b的相关系数,p value对应的t-score的计算公式
$$t=r\sqrt{\frac{n-2}{1-r^2}}$$
然后查t分布的表就可以得到p value了。
有兴趣的话可以阅读http://janda.org/c10/Lectures/topic06/L24-significanceR.htm
SofaSofa数据科学社区DS面试题库 DS面经