交叉熵

在信息论中,基于相同事件测度的两个概率分布ppqq的交叉熵是指,当基于一个“非自然”(相对于“真实”分布pp而言)的概率分布qq进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。

基于概率分布ppqq的交叉熵定义为:

H(p,q)=Ep[logq] H(p,q)=E_p[-\mathrm{log}q]

对于离散分布ppqq

H(p,q)=xXp(x)logq(x) H(p,q)=-\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)

或:

H(p,q)=xXp(x)log1q(x) H(p,q)=\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}\frac{1}{q(x)}

特别地,当随机变量只取两个值时,P(X=1)=pP(X=1)=pP(X=0)=1pP(X=0)=1-p0p10\leqslant p \leqslant 1,则

H(p,q)=xXp(x)logq(x) H(p,q)=-\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)

=[Pp(x=1)logPq(x=1)+Pp(x=0)logPq(x=0)] = -[P_p(x=1)\mathrm{log}P_q(x=1) + P_p(x=0)\mathrm{log}P_q(x=0)]

=[plogq+(1p)logq] = -[p\mathrm{log}q + (1-p)\mathrm{log}q]

相对熵

相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量,记为DKL(pq)D_{KL}(p||q)。它度量当真实分布为pp时,假设分布qq的无效性。

DKL(pq)=Ep[logp(x)q(x)]=xXp(x)logp(x)q(x) D_{KL}(p||q)=E_p[\mathrm{log}\frac{p(x)}{q(x)}]=\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}\frac{p(x)}{q(x)}

=xX[p(x)logp(x)p(x)logq(x)] =\displaystyle\sum_{x\in \mathcal{X}}[p(x)\mathrm{log}p(x)-p(x)\mathrm{log}q(x)]

=xXp(x)logp(x)xXp(x)logq(x) =\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}p(x)-\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)

=H(p)xXp(x)logq(x) = -H(p)--\displaystyle\sum_{x\in \mathcal{X}}p(x)\mathrm{log}q(x)

=H(p)Ep[logq(x)] =-H(p)-E_p[\mathrm{log}q(x)]

=Hp(q)H(p) =H_p(q)-H(p)

其中Hp(q)H_p(q)即是交叉熵。

p=qp=q时,两者之间的相对熵DKL(pq)=0D_{KL}(p||q)=0

因此DKL(pq)D_{KL}(p||q)的含义就是:真实分布为pp的前提下,使用qq分布进行编码相对于使用真实分布pp进行编码所多出来的比特数。

results matching ""

    No results matching ""