交叉熵
在信息论中,基于相同事件测度的两个概率分布p和q的交叉熵是指,当基于一个“非自然”(相对于“真实”分布p而言)的概率分布q进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。
基于概率分布p和q的交叉熵定义为:
H(p,q)=Ep[−logq]
对于离散分布p和q:
H(p,q)=−x∈X∑p(x)logq(x)
或:
H(p,q)=x∈X∑p(x)logq(x)1
特别地,当随机变量只取两个值时,P(X=1)=p,P(X=0)=1−p,0⩽p⩽1,则
H(p,q)=−x∈X∑p(x)logq(x)
=−[Pp(x=1)logPq(x=1)+Pp(x=0)logPq(x=0)]
=−[plogq+(1−p)logq]
相对熵
相对熵(relative entropy)又称KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量,记为DKL(p∣∣q)。它度量当真实分布为p时,假设分布q的无效性。
DKL(p∣∣q)=Ep[logq(x)p(x)]=x∈X∑p(x)logq(x)p(x)
=x∈X∑[p(x)logp(x)−p(x)logq(x)]
=x∈X∑p(x)logp(x)−x∈X∑p(x)logq(x)
=−H(p)−−x∈X∑p(x)logq(x)
=−H(p)−Ep[logq(x)]
=Hp(q)−H(p)
其中Hp(q)即是交叉熵。
当p=q时,两者之间的相对熵DKL(p∣∣q)=0。
因此DKL(p∣∣q)的含义就是:真实分布为p的前提下,使用q分布进行编码相对于使用真实分布p进行编码所多出来的比特数。