第二章 信息量和熵

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章信息量和熵

一、离散变量的非平均信息量

1、离散变量的非平均自信息量

集合{X;p(x)}中某个事件x的自信息量定义为:

=—log p(x) ——表达式是唯一的;

I(x)=log1

()

p x

其中,p(x)为事件x发生的概率。

含义:完全确定事件x所必需的信息量;

事件x中固有(包含)的信息量;

事件x出现的先验不确定性大小。

2、联合概率事件的非平均自信息量

联合空间{XY,p(xy)}中任一事件xy,x∈X和y∈Y的联合自信息量定义为:

I(xy)=—log p(xy)

同理:I(xyz)=—log p(xyz) 。

3、离散变量的非平均条件信息量

联合空间{XY,p(xy)}中,事件x∈X和y∈Y,事件x在事件y 给定(已知)时的条件信息量定义为:

I(x/y)=—log(/)

p x y

含义:已知y时事件x所具有的不确定性;

给定y时事件x中还剩余的信息量;

给定y条件下完全确定事件x所必需的信息量。

4、离散事件的非平均互信息量

两个离散事件集{X ,p(x)}和{Y ,p(y)}中,事件y ∈Y 的出现给出关于事件x ∈X 的信息量定义为: I (x ;y )=log

(/)

()

p x y p x 含义:事件x 和y 之间的互信息量;

从事件y 中可获得关于事件x 的信息量。 5、离散事件的非平均条件互信息量

对于三个离散事件集的联合概率空间{XYZ ,p(xyz )},给定事件

z Z ∈条件下,事件x X ∈和事件y Y ∈之间的条件互信息量定义为:

I (x ;y /z )=log

(/)(/)p x yz p x z =log (/)

(/)(/)

p xy z p x z p y z 注:I (x ;y /z )应理解为:I{(x ;y )/z}

含义:已知事件z 的条件下,从事件y 中可获得关于事件x 的信息量。

6、离散事件非平均信息量的性质 ● 非平均自信息量非负; I (x )=—log p(x)≥0; I (x/y )=—log (/)p x y ≥0 。 ● 非平均互信息量具有对称性; I (x ;y )= I (y ;x ); I (x ;y /z )= I (y ;x /z )。

注:非平均互信息量有可能为负值,如何理解?

x 和y 相互独立时,I (x ;y )=0;P(xy)=P(x)P(y),P(x/y)=p(x) 事件y 出现有益于事件x 的出现时,I (x ;y )≥0; 事件y 出现使事件x 出现的可能性减小时,I (x ;y )≤0。 ● 互信息量和条件自信息量不大于非条件自信息量: I (x ;y )≤I (x ) I (x ;y )≤I (y ) I (x/y )≤I (x ) ● 可加性:

I (xy )= I (x )+I (x/y ) = I (y )+I (y/x )

= I (x )+ I (y )—I (x ;y )

I (xyz )=I (x )+I (y/x )+I (z/xy ) I (x ;yz )=I (x ;y )+I (x ;z/y )

I{(u 1;u 2);u 3}=I (u 1)+ I (u 2)+ I (u 3)—I (u 1 u 2) —I (u 2 u 3)—I (u 1 u 3)+ I (u 1 u 2 u 3) I (u 1;u 2;u 3;…;u N )

=()i I u ∑—()i j I uu ∑+()i j k I uuu ∑—…+

(-1)N-1

I (u 1 u 2… u N ) 可加性几何解释:

I(x ;y)=0

二、熵——离散集的平均自信息量 1、熵的定义

集{X;q(x)}的平均自信息量定义为: H (X )=∑∈X

x q(x)I (x )=-∑∈X

x q(x)log q(x)

(1) 确定事件的信息量为0;

(2) 不可能事件的信息量为∞;但根据lim 0

→z z logz =0,它对熵的贡献为

0;

(3) 熵为集X 中一个事件出现的平均不确定性,既确定集X 中一个

事件出现平均所需的信息量。

(4) 例子:X{x1,x2}中,q(x1)=P, q(x2)=1-P ,则 H(X)=-PlogP-(1-P)log(1-P)

2. 条件熵

(1)H(X/y)=∑x

P(x/y)I(x/y)=-∑x

P(x/y)log P(x/y)

(2) 在集{Y ,ω(y )}上对H(X/y)求均值,有 H(X/Y)= ∑y

ω(y )H(X/y)=-∑x

∑y

P(xy) log P(x/y)

注:集X 和集Y 统计独立时,P(xy)=p(x)P(y),即P(x/y)=P(x) 有:H(X/Y)=H(X) 3. 集X 和集Y 的联合熵

P

H(XY)= -∑x

∑y

P(xy) log P(xy)

4. 熵的性质

(1)对称性:熵值与概率矢量P=(P 1,P 2,…,P k )的次序无关,仅与概率分布有关; (2)非负;

(3)确定性: 概率空间中又确定事件时,其它事件为不可能事件,则熵为0;

(4)扩展性:lim 0

→εH k (P 1,P 2,…,P k ,ε)= H k (P 1,P 2,…,P k )

(5)可加性:H M (p 1q 11, p 1q 21,…,p 1q m 1,1, p 2q 12, p 2q 22,…,p 2q m 2,2, …, p K q 1K ,p K q 2K , …,p K q mK,K )

=H K (p 1, p 2,…, p K )+∑=K

k 1p k H mk (q 1k , q 2k , …,q mK,K )

其中∑=K k 1

p k =1, p k ≥0; ∑=K

j 1

q jk =1, q jk ≥0;M=∑=K

k 1

m k

(5) 极值性:最大离散熵定理 H K (p 1, p 2,…, p K )≤H K (

K 1,K 1 ,…, K

1

)=logK (6) H K (P )是概率矢量P=( p 1, p 2,…, p K )的上凸函数,即对于θ,

0≤θ≤1,和矢量P 1、P 2有:

H(θP 1+(1-θ) P 2)>θH (P 1)+(1-θ) H (P 2)

(7) 熵的唯一性定理:熵函数的定义表达式是唯一的,不可能有其

它形式的函数来表示熵。

(8)条件熵不大于无条件熵:H(X/Y) ≤H(X)

相关文档
最新文档