参考:https://zh.wikipedia.org/wiki/熵_(信息论\

在信息论中(entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵信源熵平均自信息量

熵也可以理解为不确定性的量度,因为越随机的信源的熵越大。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。

如果有一个系统SS内存在多个事件S={E1,E2,...,En}S = \{E_1,E_2,...,E_n\},每个事件的概率分布P={p1,p2,...,pn}P = \{p_1,p_2, ..., p_n\},则每个事件本身的讯息(自信息)为:

Ie=log2piI_e=- \mathrm{log}_2 {p_i}(对数以2为底,单位是比特(bit))

Ie=lnpiI_e=- \mathrm{ln} {p_i}(对数以ee为底,单位是纳特/nats)

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为:

Ie=log2126=4.7I_e=- \mathrm{log}_2 {\dfrac{1}{26}}=4.7

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:

Ie=log212500=11.3I_e=- \mathrm{log}_2 {\dfrac{1}{2500}}=11.3

实际上每个字母和每个汉字在文章中出现的次数并不平均,比方说较少见字母(如z)和罕用汉字就具有相对高的信息量。但上述计算提供了以下概念:使用书写单元越多的文字,每个单元所包含的讯息量越大。

熵是整个系统的平均信息量:

Hs=i=1npilog2pi H_s=\displaystyle-\sum_{i=1}^np_i\mathrm{log}_2p_i

pi=0p_i=0,则定义0log0=00log0=0。通常对数以2为底或以ee为底,这时熵的单位分别作为比特(bit)或奈特(nat)。

熵越大,随机变量的不确定性越大。

极值性

当所有事件有相同机会出现的情况下,熵达到最大值(所有可能的事件同等概率时不确定性最高)

0Hn(p1,p2,...,pn)Hn(1n,1n,...,1n)=logn 0\leqslant H_n(p_1,p_2,...,p_n)\leqslant H_n(\dfrac{1}{n},\dfrac{1}{n},...,\dfrac{1}{n})=\mathrm{log}n

举例来说,当随机变量只取两个值时,例如1和0,则随机变量XX的分布为

P(X=1)=pP(X=1)=pP(X=0)=1pP(X=0)=1-p0p10\leqslant p \leqslant 1

熵为H(p)=plog2p(1p)log2(1p)H(p)=-p\mathrm{log}_2p-(1-p)\mathrm{log}_2(1-p)

这时熵随着概率pp变化的曲线如图,当p=0.5p=0.5时熵取值最大,系统的不确定性最大。

results matching ""

    No results matching ""