数值变量的相关系数是皮尔逊相关系数,那如果是有序分类变量呢,也可以用皮尔逊相关系数吗?
2个回答
当然也可以用Pearson $\rho$。
但是针对于有序分类变量,另外一个很适用的叫做Kendall $\tau$,也叫做肯达尔秩相关系数。与皮尔逊系数类似,肯达尔秩相关系数的范围也是-1到1。-1表示完全负相关,1表示完全正相关。公式为
$$\tau=2\frac{有序对的个数-逆序对的个数}{n(n-1)}$$
对于样本$A=\{a_1,a_2,\cdots, a_n\}$与样本$B=\{b_1,b_2,\cdots,b_n\}$。如果存在一对$(i,j)$,当$a_ i \lt a_j $时,$b_i \lt b_j$;或者当$a_i>a_j$时,$b_i\gt b_j$;这样的一对就称作有序对。反过来就是一个逆序对。
比如样本$A=\{1, 3, 5\}$,$B=\{4 , 6, 3\}$
有序对为
$a_1 < a_2$,$b_1 < b_2$
逆序对为
$a_1 < a_3$,$b_1 > b_3$
$a_2 < a_3$,$b_2 > b_3$
所以上面两个数列的Kendall $\tau$为
$$\tau=2\frac{1-2}{3\times2}=-\frac{1}{3}$$
PS,感谢s3040608090发现笔误,现在已经更正。
除了弼码温提到的Kendall $\tau$,另一个也许更常用的是Spearman秩相关系数,也称为Spearman $\rho$。
对于两组样本,先对它们取序。
$A=(1, 2, 5, 3, 7)$,$B=(2, 10, 50, 11, 20)$这两组数,取序之后的结果为
$A'=(1, 2, 4, 3, 5)$,$B'=(1, 2, 5, 3, 4)$,然后再对$A'$和$B'$求正常的皮尔逊相关系数
$$\frac{\text{Cov}(A', B')}{\sigma_{A'}\sigma_{B'}}$$
$A'$和$B'$的皮尔逊相关系数就是$A$和$B$的Spearman秩相关系数。