3个回答
KL divergence又可以叫相对熵
从它的计算过程:
$$KL(p||q)=-\int p(x)\ln q(x)\mathrm{d}x-\left ( -\int p(x)\ln p(x)\mathrm{d}x \right )$$
可以看到不满足对称。
信息论里可以理解右边一项是x分布为p(x)时,传输x信息的最小编码长度。左边一项是x的分布为p(x),却被误认为分布是q(x)情况下的实际编码长度。所以非负性也可以理解。
从信息论的角度来说,$KL(P||Q)$是指当我们用$Q$去逼近$P$的信息损失量。
从统计角度来说可能更好理解一点。两个概率分布$P$和$Q$,概率密度函数分别为$p(x)$和$q(x)$。
我们根据概率分布$P$去生成一个随机点$x$,那么这个$x$有多大的可能性是属于概率分布$Q$的呢?它们的似然函数分别为$p(x)$和$q(x)$。因为$P$是所谓的原分布,那么$q(x)$越接近$p(x)$,所以$\frac{q(x)}{p(x)}$就该接近1。
顺理成章,就很好理解$KL$为什么不对称了。$KL(P||Q)$指的是$P$为原分布,$KL(Q||P)$指的是$Q$为原分布。
$$KL(P||Q)=\lim_{n\rightarrow\infty} \frac{1}{n}\sum_{i=1}^n\log\frac{{q(x_i)}}{p(x_i)}$$
此外英文好得可以看看这篇文章,写得更具体。
如果题主需要一个具有对称性的度量的话,推荐Jensen–Shannon divergence,它可以看作是对称版的Kullback–Leibler divergence。
相关讨论
随便看看