Jaccard相似或者Jaccard距离是怎么计算的?
1个回答
不同于余弦相似,Jaccard相似是用来度量两个集合的相似的程度的。对于集合$A$和$B$,它们的Jaccard相似是
$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}.$$
$|S|$表示集合$S$中元素的个数。Jaccard距离就是$1-J_{A,B}$。
比如集合$A=\{a,b,c,d,e\}$,$B=\{b,c,f\}$,
$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{2}{6}=0.3333$$
当然也可以用在无限的集合上面,用长度或者面积表示集合大小。比如有两个0.95置信区间$A=(0.8,2.5)$和$B=(1.5,4)$,
$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{1}{3.2}=0.3125$$
也可以用在两个二进制向量上,第$k$个分量是$1$就表示这个集合中含有元素$k$。比如$A=(1,0,0,1,1,1,1)$和$B=(1,1,0,0,0,1,1)$,
$$J_{A,B}=\frac{|A\cap B|}{|A\cup B|}=\frac{3}{6}=0.5$$