我们知道余弦相似实际上就是归一化的内积。那归一化的意义在这里是什么意思?如果不归一的话,这个内积的意义又是什么呢?
1个回答
它们表达的意思不一样,不能简单的一概而论。
余弦距离只考虑了角度差,内积综合考虑了角度差和长度差。
比如有两个对象A和B,它们的向量表示为$A(1,1,0)$和$B(0,1,1)$,那么它们余弦相似就是$\frac{1}{\sqrt{2}\sqrt{2}}=\frac{1}{2}$。余弦相似不考虑向量的长度,所以$A(1,1,0)$和$C(0,3,3)$的相似程度和$A$与$B$的相同。
但是,如果如果向量的长度本身对相似有真实的影响(在理解含义的情况下),推荐使用内积。比如对商品的几个属性打分,1表示不确定,依次到,5表示很确定,那么$A(1,1,1)$,$B(4,4,4)$,$C(5,5,5)$三个商品,根据内积,$B$与$C$更相似。但是余弦相似在这里就无法区分$A,B,C$的相似性。