第二章-信息量和熵
信息论与编码理论习题答案

信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。
解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。
问各得到多少信息量。
解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。
解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。
第二章-信息量和熵

H XY EX ,Y I (xi , y j )
EY EX I (xi , y j )
2.平均自信息量--熵 联合熵H(XY)与熵H(X)及条件熵H
(X/Y)之间存在下列关系 :
H(XY)=H(X)+H(Y/X) H(XY)=H(Y)+H(X/Y)
三维联合符号集合XYZ上的共熵H(XYZ):
I(xi; yj ) [lbp(xi )][lbp(xi | yj )] I(xi ) I(xi | yj )
1.互信息量
即互信息量为后验概率与先验概率比值的对数 :
I ( xi; y j )
lb
p ( xi / y j ) p ( xi )
p(xi) ——先验概率:信源发xi的概率 p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率
2.平均自信息量--熵
熵的性质
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。从直 观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。同样,对Y的了解也会减少X的不确定性。
(1) yj对xi的互信息 I(xi;yj)
I(xi;yj)= I(xi)- I(xi/yj) [含义] 互信息I(xi;yj) =自信息I(xi) - 条件自信息I(xi/yj)
*I(xi) -----信宿收到yj之前,对信源发xi的不确定度 * I(xi/yj) -----信宿收到yj之后,对信源发xi的不确定度 * I(xi;yj) -----收到yj而得到(关于xi )的互信息
相应地,在给定随机变量X的条件下,Y集合的条件
信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理,通 过去除数据中的冗余信息,实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用,如利用信息论中的 混淆和扩散原则设计加密算法,保护信息的机密性和完整性。
机器学习
在机器学习中,信息论用于特征选择、模型评估等方面。例如 ,利用互信息来衡量特征与目标变量之间的相关性,从而进行
熵的性质
非负性
熵的值总是非负的,表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统,其熵的和等于各事件或系统熵的和, 表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时,该系统的熵达到最大值,表 示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y,其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4],边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式,可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y,其联合概率密度函数为 f(x,y),边缘概率密度函数为 fX(x) 和 fY(y)。可以通过 数值积分的方法计算出互信息量。例如,对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y,其互信息量 为 I(X;Y)=0.5×log2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念,使读者更好 地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念,对于理解 和应用信息论具有重要意义。通过本次讲解,读者可以更 加深入地了解这些概念,并能够在实际问题中加以应用。 同时,这些概念在其他领域也有广泛的应用,如计算机科 学、控制论、统计学等,因此本次讲解也有助于读者在其 他领域中更好地应用信息论的知识。
信息论与编码理论习题答案全解

信息论与编码理论习题答案全解第二章 信息量和熵2.2 八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。
解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s2.3 掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。
问各得到多少信息量。
解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log =2.585 bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log =5.17 bit2.4 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log =225.58 bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C =13.208 bit即)0;(1u I ,)00;(1u I ,)000;(1u I ,)0000;(1u I)0(p =4)1(81⨯-p +481⨯p =21)0;(1u I =)0()|0(log1p u p =211log p-=1+)1log(p - bit)00(p =]2)1(4)1(2[8122p p p p +-+-=41)00;(1u I =)00()|00(log 1p u p =4/1)1(log 2p -=)]1log(1[2p -+ bit)000(p =])1(3)1(3)1[(813223p p p p p p +-+-+-=81)000;(1u I =3[1+)1log(p -] bit)0000(p =])1(6)1[(814224p p p p +-+- )0000;(1u I =42244)1(6)1()1(8logp p p p p +-+-- bit2.12 计算习题2.9中);(Z Y I 、);(Z X I 、);,(Z Y X I 、)|;(X Z Y I 、)|;(Y Z X I 。
熵,信息量

熵,信息量
熵是一个物理学概念,它是描述一个系统的无序程度的量。
在信息论中,熵被用来衡量信息的不确定性和信息量的大小。
熵的大小和系统的状态有关,一个有序的系统熵比较小,一个无序的系统熵比较大。
在信息论中,信息量和熵的大小是反比关系,即信息量越大,熵越小。
例如,一个硬币的正反面出现的概率是50%,那么它的熵是1比特。
如果硬币出现的概率变为75%,那么它的熵就变成了0.81比特,信息量也就减少了。
熵和信息量的概念在通信领域中得到了广泛的应用,例如在数据压缩、加密和纠错等方面。
在现代信息时代,熵和信息量的研究变得越来越重要。
- 1 -。
《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。
2-2 第2章 信源熵及其基本性质和定理

2.1.3 2.1.4 2.1.5 2.1.6
信源熵的基本性质和定理 加权熵的概念及基本性质 平均互信息量 各种熵之间的关系
1
自信息量不能作为信源的信息测度
自信息量 I ( xi ), i = 1,2,... 是指某一信源X发出某一信 息符号 x i 所含有的信息量。发出的信息符号不同, 它们所含有的信息量就不同。
晴 地域A 1/2 地域B 1/2 多云 1/4 1/8 雨 1/8 1/8 冰雹 1/8 1/4
H(A) = H(B) =1.75bit 1 1 2 = log 2 + log 4 + log 8 2 4 8
17
熵函数的性质—— 2. 非负性 熵函数的性质
非负性
H(X ) = H[ p(x1), p(x2 ),L, p(xn )] H(X ) = −∑p(xi ) log p(xi ) ≥ 0
信源熵与平均自信息量数值相等,含义不同
信源熵表征信源的平均不确定度; 平均自信息量是消除信源不确定度所需要的信 息的度量;
信源熵H(X)的三种物理含义:
表示信源输出后,每个离散消息所提供的平均 信息量; 表示信源输出前,信源的平均不确定度; 反映了变量X的随机性。
9
条件熵
定义 2.1.7 联合集XY上,条件自信息量I(x|y)的 概率加权平均值定义为条件熵。其定义式为
f α X 1 + (1 − α ) X 2 < α f ( X 1) + (1 − α ) f ( X 2) ( X 1 ≠ X 2)
则称f(X)为定义域上的下凸函数(Cup型函数)或严格下凸函数。 f(x)是上凸函数 是上凸函数, f(x)便是下凸函数 反过来也成立。 便是下凸函数, 若f(x)是上凸函数,则-f(x)便是下凸函数,反过来也成立。故, 通常只需研究上凸函数
第2章 信源熵 第1讲 自信息量 与 互信息量

余 映 云南大学
17/38
计算举例
• 对于 2n 进制的数字序列, 假设每一符号的出现完 全随机且概率相等,求任一符号的自信息量。 解:设任一码元 xi 出现概率为 p(xi),根据题意, p(xi) = 1/ 2n I (xi) = –log(1/ 2n) = n (bit) • 事件的自信息量只与其概率有关,而与它的取值 无关。
余 映 云南大学
18/38
信息量与不确定性的关系
• 信源中某一消息发生的不确定性越大,一旦它发生,并为 收信者收到后,消除的不确定性就越大,获得的信息也就 越大。 • 由于各种原因(例如噪声太大),收信者接收到受干扰的 消息后,对某信息发生的不确定性依然存在或者一点也未 消除时,则收信者获得较少的信息或者说一点也没有获得 信息。
余 映 云南大学 21/38
信息量与不确定性的关系
• 自信息量和不确定度的含义又有区别
– 不确定度只与事件的概率有关,是一个统计量,在静 态状态下也存在; – 自信息量只有该随机事件出现时才给出,不出现时不 给出,因此它是一个动态的概念。
余 映 云南大学
22/38
自信息的含义
• 在事件 xi 发生前:表示事件 xi 发生的不确定性。 • 在事件 xi 发生后:表示事件 xi 所提供的信息量。
余 映 云南大学
19/38
信息量与不确定性的关系
• 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性) • 在无噪声时,通过信道传输,可以完全不失真地收到消息, 收到此消息后关于某事件发生的不确定性完全消除,此项 为零。因此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章信息量和熵
1.互信息量
2.平均自信息量-熵
3.平均互信息量
4.相对熵、熵、和互信息量的凸性
5.连续随机变量的熵
6.有记忆马尔可夫信源
X,Y的联合空间
2.平均自信息量--熵
信源的平均自信息量:又称为信源X的熵,信源熵是在平均意义上来表征信源的总体特征。
定义式:信源中各个符号自信息量的数学期望,即:
H(X)=E(I(X))=∑p(x i)I(x i)=-∑p(x i) log p(x i)
由上式可以看出,不同的信源因概率空间不同熵值就不同
规定:当符号概率为0时,规定p(x
) log p(x i)也为0
i
信息熵表示了信源输出前,信源的平均不确定度
信息熵表示了信源输出后,每个符号所提供的平均信息量信息熵H(X)反映了随机变量X的随机性
信息熵的唯一性定理
香农给出了信息熵函数满足的三个条件(公理化定义)–连续性:
–等概时单调增:
–可加性:
要寻找我校二年级的一位学生,设a是该系二年级学生总数,k是该系二年级的班级数,而bi是该系全体二年级第i班的学生人数。
二年级全体学生的不确定定性=班级的不确定性+每个班学生的平均不确定性。
信息熵的唯一性定理
证明思路流程
•必要性:容易验证满足性质(1~3),•充分性
等概情况下熵函数的形式
由等概走向有理数非等概的情况
由有理数走向无理数
Khinchin条件
连续性
可加性
极值条件
零概率事件不影响不确定性
Khinchin条件与香农条件等价
(2)联合熵(共熵)
定义:联合熵是联合符号集合XY 上的每个元素对x i y j 的联合自信息量的联合概率加权统计平均值。
定义为:
H (XY )=
【说明】表示X 和Y 同时发生的平均不确定度。
,,(,)(,)(,)log (,)
=-∑∑i
j
i
j
i
j
i
j
i j
i j
p x y I x y p x y p x y ()()
()
()
,(,)(,)==X Y i j Y X i j H XY E I x y E E I x y
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。
从直观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。
同样,对Y的了解也会减少X的不确定性。
推广1:两个条件下的条件熵与一个条件下的条件熵之间存在关系
H(Z|XY)≤H(Z|Y)
当且仅当P(z|xy)=P(z|y)时,式取等
强调指出:条件熵的条件越多,其条件熵的值就越小
H(Z|XY)≤H(Z|Y )≤H(Z)
推广2:共熵与两个集合的信源熵存在关系
H(XY)≤H(X) +H(Y)
当且仅当两个集合相互独立时,式取等号
(5). 扩展性:信源含有的新增消息为小概率时,熵不变
(6). 确定性:
2
3平均互信息物理意义
A. I(X;Y)= H(X) –H(X/Y)(可由定义直接推导!)
(1) H(X)——信源熵:X的不确定度
H(X/Y)——已知Y时,对X仍剩的不确定度(疑义度)[结论] I(X;Y) ——“Y已知”,X的不确定度的减少了,即获得了I(X;Y)的信息量
(2) H(X)——信源含有的平均信息量(总,有用)
I(X;Y)——信宿收到的平均信息量(有用部分)
[结论]H(X/Y)—因信道有扰而丢失的平均信息量,也称损失熵
3平均互信息物理意义
B.I(Y;X)= H(Y) –H(Y/X)= I(X;Y)
(1) H(Y)——信宿收到的平均信息量
I(X;Y)——信道传输的平均信息量
[结论] H(Y/X)——因信道有扰而产生的假平均信息量,称噪声熵、散布度、扩散度
(2)H(Y)——Y的先验不定度
H(Y/X)——发出X后,关于Y的后验不定度
[结论] I(Y;X)——发X前后,Y不定度的减少量
例已知一个二元信源连接一个二元信道,如图给出。
求I(X ;Y),H(XY),H(X/Y)和H(Y/X)。
12
12()1/2()1/2x x X p x p x P ⎡⎤⎡⎤=⎢⎥⎢⎥==⎣⎦⎣
⎦I (X ;Y ) = H (X ) + H (Y ) –H (XY )
I (X ;Y )= H (X ) –H (X /Y )
I (Y ;X )= H (Y ) –H (Y /X )
信源熵:H(X)=1 bit/符号
(1)
求联合概率p (x i ,y j )=p (x i )p (y j /x i )=p (y j )p (x i /y j )
共熵:H(XY)=1.43 bit/符号
11122122(,)0.50.980.49
(,)0.50.020.01
(,)0.50.800.40
(,)0.50.200.10
p x y p x y p x y p x y =⨯==⨯==⨯==⨯=
(3)求熵
H(X)=1 bit/符号
H(Y)=0.98 bit/符号
H(XY)=1.43 bit/符号
I(X;Y)=H(X)+H(Y)-H(X Y)=0.55bit/符号H(X/Y)=0.45 bit/符号
H(Y/X)=0.43 bit/符号
(1).非负性——I (X ;Y ) ≥0,尽管I (x i ;y j ) 的某些元素可为负(利用KL 距离大于0证明)
(2).对称性——I (X ;Y ) = I (Y ;X ) :“互信息”中的“互(Mutual )”字蕴涵着对称性
(3).极值性——I (X ;Y ) ≤ H (X )
I (X ;Y ) ≤ H (Y )
[特例] I (X ;Y )= H (X ) –H (X /Y )
两个随机变量的互信息不可能比自身还大
*当H (X /Y ) = 0 时,I (X ;Y )= H (X )
——信道无噪(X 、Y 一一对应)
*当I (X ;Y ) = 0 时,H (X /Y ) = H (X )
——信道中断(X 、Y 独立)
(4).可加性
互信息可以分步获得
3平均互信息的性质
多变量互信息量设有随机变量X,Y,Z,则定义
或直接定义
多变量条件互信息量
设有随机变量X,Y,Z,则定义
也可以直接定义条件互信息为
条件互信息非负
(1).基础不等式(2).Jensen 不等式
如果f(x)为一个凸函数,X 为一随机变量,则有
其中(3).信息散度不等式()
ln 10x x x ≤->()()
Ef x f EX ≥()x X
EX p x x
∈=∑()||0
D P Q ≥4.相对熵、熵、和互信息量的凸性
信息不等式
Fano 不等式的应用
1仅当条件熵H(X|Y)较小时,能以较低的误差概率估计X, Fano 不等式正好量化了思想。
2香农信道容量定理的逆定理证明过程中应用
3推论1:设X 和X’为两个独立同分布的随机变量,有相同的熵H(X),那么X=X'的概率为
4推论2:误差估计与熵的关系()()2
'i i i Pr X X p x ==∑()()
2 'H X Pr X X -==
相对熵是概率分布对(p,q)的下凸函数,即对于(p 1,q 1),(p 2,q 2)是两个概率分布对,有下式熵:设概率分布为p ,熵H(p)为上凸函数。
设为等概分布,则熵可写为
()||D p q ()()()()()()121211221||1||1||D p p q q D p q D p q λλλλλλ+-+-≤+-()12,,...,K u u u u =()()
log ||H p K D p u =-相对熵、熵的凸性
平均互信息量的凸性
(1) 当信道转移概率P(Y/X) 给定时I(X;Y) 是信源概率分布P(X) 的上凸函数。
最大值)——信道容量的基础(2) 当信源概率分布P(X)给定时I(X;Y) 是信道转移概率P(Y/X) 的下凸函数(最小值)——失真函数的基础
4.相对熵、熵、和互信息量的凸性
数据处理定理
给定Y条件下,X,Z独立。