熵的可加性与有根概率树

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
熵的可加性与有根概率树
例1 解
计算 H (1/ 2,1/ 4,1/ 8,1/ 8) 。 用概率树求熵: H (1 / 2,1 / 4,1 / 8,1 / 8) = (1 + 1 / 2 + 1 / 4) H (1 / 2) = 7 / 4 比特 用熵的可加性求熵: H (1/ 2,1/ 4,1/ 8,1/ 8) = H (1/ 2,1/ 4,1/ 4) + (1/ 4) H (1/ 2,1/ 2) = H (1/ 2,1/ 2) + (1/ 2) H (1/ 2,1/ 2) + (1/ 4) H (1/ 2,1/ 2) = (1 + 1/ 2 + 1/ 4) H (1/ 2) = 7 / 4比特
(2.2.3) 其中,q(ui)为节点 ui 的概率,H(ui)为节点 ui 的分支熵。 有根概率树计算熵的公式(2.2.3)实际上就是反复利用熵的可加性的结果。设一信源含 r
2
熵的可加性与有根概率树
个符号, 符号集 A = {a1 ,L, ar } , 概率分别为 p1 ,L, pr , 对应的有根概率树包含 k 个内部节点, r 片树叶,每片树叶对应一个信源符号。 式(2.2.3)可写成如下形式:
H ( p1 ,L , pr ) = q(u0 ) + ∑ q (ui ) H (ui )
i =1
k
(7)
其中, ,H(u0)为根节点 u0 的分支熵,而根节点 u0 的概率 q(u0)=1。 定理的证明 现利用数学归纳法证明,对任何非负整数 k,式(7)成立。 当 k=0 时,所有树叶都直接与根相连,根的各分支的概率就是对应信源符号的概率, 信源的熵就等于根的分支熵,等式成立。 当 k=1 时,树中的唯一一个内部节点(设为 u1 ) 由若干片树叶作为其子节点,由于熵的值与符号顺序无关,不妨设 u1 的子节点为后 m 个符 号,所对应的概率分别为 pr − m +1 ,L , pr ,那么节点 u1 的概率为 q(u1 ) = pr − m +1 + L + pr ,分支熵 ,信源的熵 为 H (u1 ) = H ( pr − m +1 / q(u1 ),L, pr / q(u1 )) 。根据熵的可加性(5) H ( p1 ,L , pr −m , pr −m +1 ,,L pr ) = H ( p1 ,L pr − m , q (u1 )) + q(u1 ) H ( pr − m +1 / q(u1 ),L , pr / q(u1 )) = H ( p1 ,L pr − m , q (u1 )) + q(u1 ) H (u1 ) 由于符号 a1 ,L , ar −m 和节点 u1 直接与根相连,所以 H ( p1 ,L pr − m , q(u1 )) 就是根节点的熵,故当 当 k=1 时,式(7)成立。假设 k=n 时,(7)式成立。现考虑 k=n+1 的情况。设概率树中阶数 最高的一个内部节点为 un +1 , 那么其子节点由若干片 ( 设为 s 片) 树叶构成, 设为 ar1 ,L, ars , 所对应的概率分别为 pr1 ,L, prs ,节点 un +1 的概率为 q(un +1 ) = pr1 + L + prs ,分支熵为 H (un +1 ) = H ( pr1 / q(un +1 ),L, prs / q (un +1 )) 。根据熵的可加性(5)式,信源的熵 H ( p1 ,L , pr1 ,L , prs ,L , pr ) = H ( p1 ,L pr1 −1 , p (un +1 ), prs +1 ,L, pr ) + q(un +1 ) H ( pr1 / q(un +1 ),L , prs / q(un +1 )) = H ( p1 ,L pr1 −1 , p(un +1 ), prs +1 ,L, pr ) + q(un +1 ) H (un +1 ) = H (u0 ) + ∑ p(ui ) H (ui ) + q(un +1 ) H (un +1 ) = H (u0 ) + ∑ p (ui ) H (ui )
i =1 i =1 b n n +1 a
(8)
(9)
其中,a:熵的可加性;b: H ( p1 ,L pr1 −1 , p(u2 ), prs +1 ,L , pr ) 是含有 n 个内部节点的熵 ,根 据假设,(7)成立。这就证明了,当 k=n+1 时, (7)式也成立。#
3.举例
用有根概率树和熵的可加性计算信息熵,有时可以简化运算。
1
熵的可加性与有根概率树
H ( p1 ,L pi −1 , pi pi1 ,,L , pi pim , pi +1, L,L pn ) = H ( p1 ,L, pi −1 , pi , pi +1 ,L, pn ) + pi H ( pi1 ,L , pim )
(5)
式(5)也是熵的可加性的一种描述方式,而(5)是(4)的特例,而(1)是(5)的特例。 l 熵的可加性另一种形式 教材[5]第 25 页中对熵的可加性做了如下描述:
熵的可加性与有根概率树
信息论课程讲座之 2
熵的可加性与有根概率树
田宝玉
1.熵的可加性
l Shannon 首先提出熵的可加性含义如下:如果一种选择可以分成两步连续的选择实现,
[1
那么原来的熵 H 应为 H 的单独值的加权和 ]。 “单独值”实际上是每次选择的熵值, “权值” 就是每次选择的概率。 例如, 某随机事件集合有 3 个事件, 概率分别为:p1 = 1 / 2 ,p2 = 1/ 3 , p3 = 1/ 6 ;这 3 个事件可以直接产生,也可分两次产生,即先以 1/2 的概率产生两事件中的 一个,然后在其中某一事件发生条件下再以 2/3 和 1/3 的概率产生两事件中的一个。熵的可 加性意味着: H (1 / 2,1 / 3,1 / 6) = H (1 / 2,1 / 2) + (1 / 2) H (1 / 3, 2 / 3) (1)
设两个随机变量集合 X、Y 与的它们的联合集 XY 的熵分别为 H(X) ,H(Y) , H(XY),则 H(XY)= H(X) + H(Y|X ) (2.2.16)
实际上(2.2.16)与(3)式是一致的,只要设 X 集合中事件的概率分布为 p1 ,L, pn ,X 与 Y 之 间的条件概率矩阵为:
p11 p P = 21 M pn1
p12 M
L
p22 L pn 2 L
p1m p2 m M pnm
即可。 l 熵的可加性可以推广到多维随机变量联合集的情况(教材[5]第 25 页) 。
设 N 维随机变量集 X1X2…Xn,则有 H(X1X2…Xn)= H(X1)+ H(X2|X1)+ … + H(XN| X1…Xn-1) (2.2.17)
000…01 二元序列 1 01 001 …… (n-1 个“0”,1 个“1”) 新信源符号 (n 个“0”) 000…0
s1
s2
s3
……
sn
sn +1
(1) 求新信源的熵 H ( Sn ) ; (2) 求 H ( S ) = lim H ( Sn ) 。
n →∞
解:由题意可得新信源各符号的概率分布为: pi (1 − p ) , 0 ≤ i ≤ n − 1 p ( si +1 ) = i i=n p , (1) 根据熵的可加性,有 H ( Sn ) H n = H (1 − p,(1 − p) p,L,(1 − p) p n −1 , p n ) = H (1 − p, p) + pH (1 − p,(1 − p) p,L ,(1 − p) p n −2 , p n −1 ) = H ( p ) + pH n −1 (后面 n 个符号合并成一组) 因此得到递推公式: H n = H ( p ) + pH n −1 其中, 反复利用(1) ,有 pH n −1 = pH ( p) + p 2 H n − 2 p 2 H n − 2 = p 2 H ( p) + p3 H n −3 H1 = H ( p ) (10) (11)
当 X1X2…Xn,统计独立(即 Xi 独立于 X1X2…Xi-1)时,有 H(X1X2…Xn)= H(X1)+ H(X2)+ … + H(XN) (6) 称为熵的强可加性。 l 熵的可加性可以从多种角度来理解: (1)复合事件集合的不确定性为组成该复合事件的各简单事件集合不确定性的和。 (2)对信源输出直接测量所得信息量等于分成若干步测量所得信息量的和。 (3)信源的平均不确定性可以分步解除,每步解除的不确定性的和等于信源的熵。
4
熵的可加性与有根概率树
…… p n −2 H 2 = p n − 2 H ( p) + p n −1 H1 上面各式(不包括(11) )相加,得 H n = (1 + p + L + p n −1 ) H ( p) = 1 − pn H ( p) 1− p H ( p) 1− p
(2)当 n → ∞ 时, lim H n −1 = lim H n ,由(9)得, H ( S ) =
2. 用有根概率树计算熵
有根概率树的概念首先见于 Massey 的著作[6],利用有根概率树计算信源熵,有如下定 理(教材[5]第 20 页) 。 定理 2.2.1 离散信源的熵等于所对应的有根概率树上所有节点(包括根节点,不包括叶)的 分支熵用该节点概率加权的和,即
H ( X ) = ∑iq(ui ) H (ui )
i =1 n
(3)
其中,
∑ pij = ∑ pi1 + L + pim , i = 1,L , n
j =1 j =1
m
m
(4)
(2)与(3)实质是一样的,可用于熵函数唯百度文库性的证明[3][4]。 如果 pik = 1, pij = 0( j ≠ k ) ,对 i = 1,L , i − 1, i + 1,L , n − 1 ,那么(3)变为
上面等号右边的第 1 项是第 1 次选择的熵;由于第 2 次选择只有 1/2 的概率发生,所以第 2 项是第 2 次选择的熵与权值 1/2 的乘积。多步产生的事件也称复合事件。 l 最大熵原理的提出者 Jaynes 描述熵的可加性如下[2]: 设事件集合概率分别为 ( p1 ,L, pn ) ,
我们不 直接 给 出这 些 概率, 而 是先 将前 k 个事件 组 合 成 一 组看成 一个事件,概率为 w1 = p1 + L + pk ,第 2 组有 m 个可能性,组合后分配的概率为 w2 = pk +1 + L + pk + m ,……。 组合事件的不确定性为 H ( w1 ,L , wr ) ,给定第 1 个组合事件发生条件下,第 2 个事件发生的 概率为 ( p1 / w1 ,L , pk / w1 ) ……。熵的可加性意味着: H ( p1 ,L , pn ) = H ( w1 ,L , wr ) + w1 H ( p1 / w1 ,L , pk / w1 ) + w2 H ( pk +1 / w2 ,L, pk + m / w2 ) + L (2) 通常,熵的可加性的一般形式写成: H ( p1 p11 ,L , p1 p1m , p2 p21 ,L, p2 p1m ,L, pn pn1 ,L, pn pnm ) = H ( p1 ,L, pn ) + ∑ pi H ( pi1 ,L, pim )
n →∞ n →∞
参考文献:
[1]. Shannon. A Mathematical Theory of Communication,1948 [2}. Jaynes.Information Theory and Statistical Mechanics,1957 [3]. 周炯磐. 信息理论基础,1986 [4]. 吴伟陵. 信息处理与编码,1999 [5]. 田宝玉,杨洁,贺志强,王晓湘。信息论基础,2008 [6]. Massey Applied Digital Information Theory I
注: 用有根概率树和熵的可加性计算信息熵没有本质的不同,只是过程有些不同。 例 2: (教材[5]第 60 页)
3.2 有 一 个 二 元 无 记 忆 信 源 , 发 “0” 的 概 率 为 p , 且 p ≈ 1 , 对 信 源 进 行 编 码 得 到 一 个 新 信 源
Sn = {s1 , s2 , s3 ,L , sn +1 } ,编码符号与原始序列的对应关系为:
相关文档
最新文档