最新二章信息量和熵

合集下载

信息论与编码理论习题答案

信息论与编码理论习题答案

信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。

解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。

信息论与编码 第二章 信源与信息熵

信息论与编码 第二章 信源与信息熵

现概率是它自身的先验概率。
无记忆信源
{发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
2.1.1 无记忆信源
发出单个符号的离散无记忆信源
——指信源每次只发出一个符号代表一个消息, 且消息的取值个数是有限的(或可列无限多个)。 例如扔骰子,每次实验结果必然是1~6点中的某一 个面朝上。每次实验的结果不随实验次数变化,也 不与先前的实验结果相关,因而该信源是单符号离
p( X1 , X 2 , X l , X L ) p( X l ) [ p( X )]L
l 1
L
2.1.2 有记忆信源
有记忆信源——在不同时刻发出的符号是相互依赖的。 发出符号序列的有记忆信源 ——每次发出1组含2个以上符号的符号序列来代表一 个消息的信源,且各符号之间是相互依赖的。
I=-log2(1/2m)=m bit
2.2.1 自信息量
自信息量I (xi)的特性:
⑴ I (xi)是非负值
⑵ 当p(xi) = 1时, I (xi) = 0
⑶ 当p (xi) = 0时, I (xi) =∞
⑷ I (xi)是先验概率p (xi)的单调递减函数,即 当p (x1)>p (x2)时, I (x1) < I (x2) ⑸可加性 : 两个独立事件的联合信息量等于它们分别的信 息量之和。
发出符号序列的无记忆信源
——每次发出1组含2个以上符号的符号序列来代表一 个消息的信源,且各符号之间没有统计关联性。
需要用随机序列(或随机矢量) X =(X1, X2,…, Xl, …, XL)来描 述信源输出的消息,用联合概率分布p(X1, X2,…, Xl, …, XL)来表 示信源特性。 p (X 1 ) p (X 2 ) … p (X l ) … p (X L ) 若离散信源输出的每个符号是统计独立的,且具有相同的概 率空间,则该信源是离散平稳无记忆信源,亦称为独立同分布 (independently identical distribution,i. i. d.)信源。

第二章-信息量和熵

第二章-信息量和熵

H XY EX ,Y I (xi , y j )
EY EX I (xi , y j )
2.平均自信息量--熵 联合熵H(XY)与熵H(X)及条件熵H
(X/Y)之间存在下列关系 :
H(XY)=H(X)+H(Y/X) H(XY)=H(Y)+H(X/Y)
三维联合符号集合XYZ上的共熵H(XYZ):
I(xi; yj ) [lbp(xi )][lbp(xi | yj )] I(xi ) I(xi | yj )
1.互信息量
即互信息量为后验概率与先验概率比值的对数 :
I ( xi; y j )
lb
p ( xi / y j ) p ( xi )
p(xi) ——先验概率:信源发xi的概率 p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率
2.平均自信息量--熵
熵的性质
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。从直 观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。同样,对Y的了解也会减少X的不确定性。
(1) yj对xi的互信息 I(xi;yj)
I(xi;yj)= I(xi)- I(xi/yj) [含义] 互信息I(xi;yj) =自信息I(xi) - 条件自信息I(xi/yj)
*I(xi) -----信宿收到yj之前,对信源发xi的不确定度 * I(xi/yj) -----信宿收到yj之后,对信源发xi的不确定度 * I(xi;yj) -----收到yj而得到(关于xi )的互信息
相应地,在给定随机变量X的条件下,Y集合的条件

信息论举例讲解信息量熵及互信息量

信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理,通 过去除数据中的冗余信息,实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用,如利用信息论中的 混淆和扩散原则设计加密算法,保护信息的机密性和完整性。
机器学习
在机器学习中,信息论用于特征选择、模型评估等方面。例如 ,利用互信息来衡量特征与目标变量之间的相关性,从而进行
熵的性质
非负性
熵的值总是非负的,表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统,其熵的和等于各事件或系统熵的和, 表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时,该系统的熵达到最大值,表 示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y,其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4],边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式,可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y,其联合概率密度函数为 f(x,y),边缘概率密度函数为 fX(x) 和 fY(y)。可以通过 数值积分的方法计算出互信息量。例如,对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y,其互信息量 为 I(X;Y)=0.5×log⁡2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念,使读者更好 地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念,对于理解 和应用信息论具有重要意义。通过本次讲解,读者可以更 加深入地了解这些概念,并能够在实际问题中加以应用。 同时,这些概念在其他领域也有广泛的应用,如计算机科 学、控制论、统计学等,因此本次讲解也有助于读者在其 他领域中更好地应用信息论的知识。

第二章 基本信息论

第二章 基本信息论

信息的度量
3.自信息(量) 3.自信息( 自信息 1)定义自信息量:I(xi)=log1/p(xi)=-logp(xi) 1)定义自信息量:I(xi)=log1/p(xi)=2)含义:描述信源的微观特性,是指消息集中某一消息 2)含义:描述信源的微观特性,是指消息集中某一消息 所含有的信息量。 在xi发生前---描述xi发生的不确定性大小。 发生前---描述xi发生的不确定性大小。 在xi发生后---描述xi所含有的(提供的)信 发生后---描述xi所含有的(提供的)信 息量。 3)采用对数定义的合理性 3)采用对数定义的合理性 对数函数能够同时满足条件,因此定义是合理的。 4)单位: 4)单位: 对数底(>1) 对数底(>1) 单位 2 bit e nat 10 Hart 1 nat=1.44 bit 1 Hart=3.32 bit 5)等概率分布离散信源的平均信息量H(X)=1/q∑logq 5)等概率分布离散信源的平均信息量H(X)=1/q∑logq =logq
信源熵
1. 定义: 定义: 2. 单位:与I(xi)相同。 单位: I(xi)相同。 3.物理意义: 物理意义: 等概率分布情况:一个符号含有的信息量。 非等概率分布情况:一个符号所含有的统计平均信息量, 是对信源宏观特性的描述。 结论: 结论: H(X)表征信源的总体特性----提供的统计平均信息量/ H(X)表征信源的总体特性----提供的统计平均信息量/符号 信源输出前的平均不确定性。 H(X)表征了信源的随机性。 H(X)表征了信源的随机性。
二元联合信源的共熵与条件熵
四.消息的剩余度 1.剩余: 剩余: 由于不等概或相关性使信源熵值减小,欲 输出相同信息量,必须增加位数,此为剩 余。
二元联合信源的共熵与条件熵

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。

2-2 第2章 信源熵及其基本性质和定理

2-2 第2章 信源熵及其基本性质和定理
1、信源熵;2、条件熵;3、联合熵 信源熵; 条件熵;
2.1.3 2.1.4 2.1.5 2.1.6
信源熵的基本性质和定理 加权熵的概念及基本性质 平均互信息量 各种熵之间的关系
1
自信息量不能作为信源的信息测度
自信息量 I ( xi ), i = 1,2,... 是指某一信源X发出某一信 息符号 x i 所含有的信息量。发出的信息符号不同, 它们所含有的信息量就不同。
晴 地域A 1/2 地域B 1/2 多云 1/4 1/8 雨 1/8 1/8 冰雹 1/8 1/4
H(A) = H(B) =1.75bit 1 1 2 = log 2 + log 4 + log 8 2 4 8
17
熵函数的性质—— 2. 非负性 熵函数的性质
非负性
H(X ) = H[ p(x1), p(x2 ),L, p(xn )] H(X ) = −∑p(xi ) log p(xi ) ≥ 0
信源熵与平均自信息量数值相等,含义不同
信源熵表征信源的平均不确定度; 平均自信息量是消除信源不确定度所需要的信 息的度量;
信源熵H(X)的三种物理含义:
表示信源输出后,每个离散消息所提供的平均 信息量; 表示信源输出前,信源的平均不确定度; 反映了变量X的随机性。
9
条件熵
定义 2.1.7 联合集XY上,条件自信息量I(x|y)的 概率加权平均值定义为条件熵。其定义式为
f α X 1 + (1 − α ) X 2 < α f ( X 1) + (1 − α ) f ( X 2) ( X 1 ≠ X 2)
则称f(X)为定义域上的下凸函数(Cup型函数)或严格下凸函数。 f(x)是上凸函数 是上凸函数, f(x)便是下凸函数 反过来也成立。 便是下凸函数, 若f(x)是上凸函数,则-f(x)便是下凸函数,反过来也成立。故, 通常只需研究上凸函数

第2章 信源熵 第1讲 自信息量 与 互信息量

第2章 信源熵 第1讲 自信息量 与 互信息量

余 映 云南大学
17/38
计算举例
• 对于 2n 进制的数字序列, 假设每一符号的出现完 全随机且概率相等,求任一符号的自信息量。 解:设任一码元 xi 出现概率为 p(xi),根据题意, p(xi) = 1/ 2n I (xi) = –log(1/ 2n) = n (bit) • 事件的自信息量只与其概率有关,而与它的取值 无关。
余 映 云南大学
18/38
信息量与不确定性的关系
• 信源中某一消息发生的不确定性越大,一旦它发生,并为 收信者收到后,消除的不确定性就越大,获得的信息也就 越大。 • 由于各种原因(例如噪声太大),收信者接收到受干扰的 消息后,对某信息发生的不确定性依然存在或者一点也未 消除时,则收信者获得较少的信息或者说一点也没有获得 信息。
余 映 云南大学 21/38
信息量与不确定性的关系
• 自信息量和不确定度的含义又有区别
– 不确定度只与事件的概率有关,是一个统计量,在静 态状态下也存在; – 自信息量只有该随机事件出现时才给出,不出现时不 给出,因此它是一个动态的概念。
余 映 云南大学
22/38
自信息的含义
• 在事件 xi 发生前:表示事件 xi 发生的不确定性。 • 在事件 xi 发生后:表示事件 xi 所提供的信息量。
余 映 云南大学
19/38
信息量与不确定性的关系
• 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性) • 在无噪声时,通过信道传输,可以完全不失真地收到消息, 收到此消息后关于某事件发生的不确定性完全消除,此项 为零。因此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的某消息中所含有的信息量
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘
考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的, 因为
lim
q0
qloga
1 q
0

例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。
K
HK(p1,p2,...,pK) pklogpk k1
P当=K(pp1k,
p2,
1,
…,
pk
1p,k常)可称以作看是作概是率K矢维量矢;量,
k 1
故的H函K数(P)=HK(p1, p2, …, pk)是概率矢量P
熵的性质-对称性
矢量的各分量p1,p2,…pk的次序任意改变 时,熵值不变
则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具 有某种对称性),有
当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0 )
当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的 随机变量时,总有正的熵。随机性越大,熵越大)
1
P(Xxk |Yyj)
J
wjH(X|Yyj) j1
XY独立时有H(X|Y)=H(X)
联合熵
H(XY) p(xy)logp(xy)
xy
H(XY)H(X)H(Y| X) H(Y)H(X|Y)
熵的性质
对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数
熵是概率矢量的函数
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
(当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)。
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时, 熵最大。特别如果底数a=2,则H(X)=1比特)
条件熵(定义2.2.2)
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解:
J
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
og
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵

(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量(又称为熵) 定义为如下的H(X),其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性

注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机
熵的性质-扩展性
l i m 0 H K 1 ( p 1 ,p 2 ,...,p K ,) H K ( p 1 ,p 2 ,...,p K )
熵的性质-可加性
HM(p1q11, p1q21,..., p1qm11, p2q12, p2q22,...,
熵函数的值只与概率分布或将1分割成的 K个实数的取值有关,而与这K个实数和 K个事件采取何种一一对应方式无关
熵的性质-非负性
HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到
熵的性质-确定性
若事件集X中有一个事件为必然事件,其余事 件为不可能事件,则此集合的熵值为0
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
二章信息量和熵
信息量和熵
2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量-熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量
ifp(xk | yj)1
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
ቤተ መጻሕፍቲ ባይዱ
logq(xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性 体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
可以推广到任意有限多个空间情况
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性:
对称性
可加性
互信息量的值域: -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量
相关文档
最新文档