条件熵
参考 https://zh.wikipedia.org/wiki/条件熵
假设有随机变量(X,Y),其联合概率分布为:P(X=xi,Y=yi)=pij
P(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,m
条件熵描述了在已知随机变量X的值的前提下,随机变量Y 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于X 条件的Y 的信息熵,用H(Y∣X)表示。
H(Y∣X=x)为随机变量Y在X取特定值x下的熵,那么H(Y∣X)就是H(Y∣X=x)在X取遍所有可能x后取平均期望的结果。
给定随机变量X∈X,Y∈Y,在给定X条件下Y的条件熵定义为:
H(Y∣X)=x∈X∑p(x)H(Y∣X=x)
=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)
=−x∈X∑y∈Y∑p(x,y)logp(y∣x)
=−x∈X,y∈Y∑p(x,y)logp(x)p(x,y)
=−x∈X,y∈Y∑p(x,y)logp(x)p(x,y)
=x∈X,y∈Y∑−p(x,y)logp(x,y)−x∈X∑−p(x)logp(x)
=H(X,Y)−H(X)
即H(Y∣X)=H(X,Y)−H(X),同样H(X∣Y)=H(X,Y)−H(Y)