信息量和熵

合集下载

信息论与编码理论习题答案

信息论与编码理论习题答案

信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。

解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。

信息量,信息熵

信息量,信息熵

信息量,信息熵1. 信息量的多与少任何事都会承载⼀定的信息量,包括已发⽣和未发⽣的事,只是它们承载的信息量有所不同。

如昨天下⾬这个已知事件,因为已经发⽣,你我都知道这件事,故它的信息量为0。

但明天会下⾬这件事,因为未发⽣,所以这事的信息量就⼤。

从上⾯例⼦可以看出信息量是⼀个与事件发⽣概率相关的概念,⼀条信息的信息量跟这个信息能解答的问题的不确定性有关。

⼀条信息能解答的问题越不确定,那它包含的信息量就越⼤。

如猜⼀个骰⼦最后向上的那⾯是多少点的游戏,这个游戏可能的情况有6种,但是猜32⽀球队中谁获得世界杯冠军的游戏则有32种可能。

所以“哪⽀球队最终获得世界杯冠军”的信息量⽐“骰⼦最后向上那⾯是多少点”的信息量⼤,因为前者是从32种可能中确定答案,⽽后者是从6种可能中确定答案。

2. 信息量的计算假设我错过了某年世界杯⽐赛,现在要去问⼀个知道⽐赛结果的朋友“哪⽀球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜⼀次就要给他⼀块钱。

那么我需要付给他多少钱才能知道谁是冠军?解:我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。

假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。

如果他告诉我不对,我就⾃然就知道冠军队在9-16号中。

这样我只需要猜5次就可以知道哪⽀球队是冠军了(思路类似于折半查找)所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。

⾹农⽤“⽐特”(bit)来作为信息量的单位。

像上边“谁是世界杯冠军”这个问题的答案的信息量是5⽐特。

如果是64⽀球队,“谁是世界杯冠军”这个问题的答案的信息量就是6⽐特,因为要多猜⼀次。

对⾜球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。

因为他知道巴西,西班⽛,德国等这些强队夺冠的可能性⽐⽇本,韩国等球队⼤的多。

所以他可以先把强队分成⼀组,剩下的其它队伍⼀组。

然后问冠军是否在夺冠热门组⾥边。

重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直⾄找到冠军队,这样也许三次或四次就猜出结果了。

信息论举例讲解信息量熵及互信息量

信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理,通 过去除数据中的冗余信息,实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用,如利用信息论中的 混淆和扩散原则设计加密算法,保护信息的机密性和完整性。
机器学习
在机器学习中,信息论用于特征选择、模型评估等方面。例如 ,利用互信息来衡量特征与目标变量之间的相关性,从而进行
熵的性质
非负性
熵的值总是非负的,表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统,其熵的和等于各事件或系统熵的和, 表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时,该系统的熵达到最大值,表 示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y,其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4],边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式,可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y,其联合概率密度函数为 f(x,y),边缘概率密度函数为 fX(x) 和 fY(y)。可以通过 数值积分的方法计算出互信息量。例如,对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y,其互信息量 为 I(X;Y)=0.5×log⁡2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念,使读者更好 地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念,对于理解 和应用信息论具有重要意义。通过本次讲解,读者可以更 加深入地了解这些概念,并能够在实际问题中加以应用。 同时,这些概念在其他领域也有广泛的应用,如计算机科 学、控制论、统计学等,因此本次讲解也有助于读者在其 他领域中更好地应用信息论的知识。

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。

信息熵越大

信息熵越大

信息熵越大我们说换位思考是成功者的必备品质之一,但是,换位一定要完整地换位,也就是不能在一个思考过程中,前面部分的主语是你,后面部分的主语又变成了他。

用一句简单的话来总结——不能搞精神分裂,否则你得到的只是精神病似的混乱,离成功越来越远。

——坤鹏论在坤鹏论看来,许多人对于信息熵的不理解,主要是因为:第一,概率,概率是信息熵的核心,偏偏大多数人不懂、不理解概率。

第二,有数学公式,尽管只是中学时学的数学公式,但我们早把它们还给了老师。

第三,概率和信息熵是反比关系,概率越高,信息熵越低;概率越低,信息熵越高,理解它需要在脑子里面先转个弯。

第四,讨论信息熵的人多、文章更多,但是人们理解的层次不同,于是正错纠缠,让人难以分辨。

今天和明天,坤鹏论根据自身学习过程中的从疑惑到解惑,讲几个信息熵学习中最常见的迷惑。

今天先讲最经典的——到底是信息熵越大,信息量越多?还是信息熵越大,信息量越少?很多人很难理解的是——信息熵越大,信息量越多。

坤鹏论发现,网上对此有相当多的错误说法。

今天就来细细掰饬一下它。

理解了它,对信息熵的科普级学习也基本算是圆满了。

第一,信息、信息熵、信息量都是针对接收者而言。

有个词叫:立场坚定。

坤鹏论觉得“立场”这个词很好,我们在分析问题,看待事物时,一定要分清立场,也就是你此时此刻是站立在谁的位置上的。

我们经常犯晕乎,或者是被别人说晕乎,其中关键之一就是其中掺杂了立场变化,我们却没有意识到。

这就是《官场现形记》中的那句名言:见人说人话,见鬼说鬼话,见了官场说官场上的话,见了生意人说生意场中的话。

这就是讲话者的立场不断随着他的谈话对象而改变,见风使舵,左右逢源,应变能力极强。

但是,要相信的是,人只要一开口,背后都带着利益诉求。

所以,看待事物以及听别人对它的评论,一定要先找到主语(立场)是谁。

这很重要,就像坤鹏论之前所说的,看评论听建议,一定多长个心眼,要思考判断如果实施下来,谁是最大受益者,这样才能透过语言的迷雾看透背后的利益纠葛,最大限度保你不会“被别人卖,还替人家数钱”。

二章信息量和熵

二章信息量和熵

pK
)
熵的性质-可加性
HM ( p1q11, p1q21,..., p1qm11, p2q12 , p2q22 ,...,
p2qm2 2 ,..., pK q1K , pK q2K ,..., pK qmK K )
K
HK ( p1, p2 ,..., pK ) pk Hmk (q1k , q2k ,..., qmkk ) k 1
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I (xk ; y j ) f (q(xk ), p(xk | y j ))
I (xk ; y j ) I (xk ; y j1) I (xk ; y j2 | y j1) I (xk ; y j3 | y j1 y j2 )
if p(xk | y j ) 1
I (xk ;
yj)
log
p(xk | y j ) q(xk )
log
1 q( xk
)
log
q( xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I
( xk
)
log
1 q( xk
)
log
q( xk
)
非平均自信息的性质
非负性 体现先验不确定性大小
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。

信息为什么还有单位,熵为什么用log来计算?

信息为什么还有单位,熵为什么用log来计算?

信息为什么还有单位,熵为什么用log来计算?前言学习观10里大家一定会有不少疑惑,其中之一就是那些信息到底是怎么计算出来的。

在该视频中得以解答。

不过最少还仍然有两个问题:•为什么网上有那么多说”熵是描述混乱或无序的?•为什么做题消耗了那么多能量,小明最后只获得了2 bits 的信息?第一个问题:牵扯到热力学熵的一种应用,然而不管考虑的是不是热力学熵,这种描述都是非常具有误导性的。

因为热力学熵就是信息熵的特例,如果不能想明白二者的关系,意味着还没搞明白。

接下来的视频会详细解释。

题外话,很多人会觉得这个概念非常难的原因是因为它们反常识,违背你日常生活经验所构建出的模型。

多数人都会根据自己已有的经验进行判断,从而产生抵触。

但是不要认为自己很笨,因为信息和热力学熵的关系困扰科学家们都足足一百年之久。

第二个问题:牵扯到信息与知识的关系。

是最主要想讲的内容。

视频正文01—“不科学啊”上个视频学习了如何定性的判断什么是熵和信息,其中有个例子:当小明不知道选择题是 ABCD 哪个选项时:•小红告小明“D 选项是错的”,提供了 0.415 bits 的信息•再告诉小明“A选项是错的”,提供了 0.585 bits 的信息•再告诉小明“B选项是错的”,提供了 1 bit 的信息可明明每次都是告诉他一个错误选项,为什么三次提供给小明的信息量却都不相同?信息量到底是怎么计算的?信息为什么还有单位?02—“以此类推”回想一下,什么东西有单位?质量,温度等物理量。

没错,信息也是一个物理量。

要测量这个物理量,不妨回想一下我们是怎么测量质量的,“千克”最初又是怎么被定义出来的?其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。

当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。

这里的”多少个“便是千克。

如果换另一个参照物体,那么单位就会变化,比如斤。

测量信息是也是一样,既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。

第二章 信息量和熵

第二章 信息量和熵

第二章信息量和熵一、离散变量的非平均信息量1、离散变量的非平均自信息量集合{X;p(x)}中某个事件x的自信息量定义为:=—log p(x) ——表达式是唯一的;I(x)=log1()p x其中,p(x)为事件x发生的概率。

含义:完全确定事件x所必需的信息量;事件x中固有(包含)的信息量;事件x出现的先验不确定性大小。

2、联合概率事件的非平均自信息量联合空间{XY,p(xy)}中任一事件xy,x∈X和y∈Y的联合自信息量定义为:I(xy)=—log p(xy)同理:I(xyz)=—log p(xyz) 。

3、离散变量的非平均条件信息量联合空间{XY,p(xy)}中,事件x∈X和y∈Y,事件x在事件y 给定(已知)时的条件信息量定义为:I(x/y)=—log(/)p x y含义:已知y时事件x所具有的不确定性;给定y时事件x中还剩余的信息量;给定y条件下完全确定事件x所必需的信息量。

4、离散事件的非平均互信息量两个离散事件集{X ,p(x)}和{Y ,p(y)}中,事件y ∈Y 的出现给出关于事件x ∈X 的信息量定义为: I (x ;y )=log(/)()p x y p x 含义:事件x 和y 之间的互信息量;从事件y 中可获得关于事件x 的信息量。

5、离散事件的非平均条件互信息量对于三个离散事件集的联合概率空间{XYZ ,p(xyz )},给定事件z Z ∈条件下,事件x X ∈和事件y Y ∈之间的条件互信息量定义为:I (x ;y /z )=log(/)(/)p x yz p x z =log (/)(/)(/)p xy z p x z p y z 注:I (x ;y /z )应理解为:I{(x ;y )/z}含义:已知事件z 的条件下,从事件y 中可获得关于事件x 的信息量。

6、离散事件非平均信息量的性质 ● 非平均自信息量非负; I (x )=—log p(x)≥0; I (x/y )=—log (/)p x y ≥0 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非平均互信息量
例2.1.1码字输入消息p(xk)
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
收到0
收到01
收到011
X1 X2 X3 X4 X5 X6 X7 x8
000 001 010 011 100 101 110 111
1/4 1/4 1/4 1/4 0 0 0 0
0 0 1/2 1/2 0 0 0 0


对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数
熵是概率矢量的函数
H K ( p1 , p2 ,..., pK ) pk log pk
k 1 K

P=K (p1, p2, …, pk)可以看作是K维矢量, 当 pk 1, pk 1 ,常称作是概率矢量;
H ( X | Y ) p( xy) log p( x | y)
x y
XY独立时有H(X|Y)=H(X)
H ( XY ) p ( xy) log p ( xy)
x y
H ( XY ) H ( X ) H (Y | X ) H (Y ) H ( X | Y )
熵的性质
I ( xk ; y j 3 | y j1 y j 2 )
I ( xk ; y j ) loga loga p ( xk | y j ) q ( xk ) p ( y j | xk ) I ( y j ; xk )
( y j )
条件互信息和联合事件互信息

三个事件集的条件互信息定义为
k 1

故HK(P)=HK(p1, p2, …, pk)是概率矢量P 的函数
熵的性质-对称性

矢量的各分量p1,p2,…pk的次序任意改变 时,熵值不变

熵函数的值只与概率分布或将1分割成的 K个实数的取值有关,而与这K个实数和 K个事件采取何种一一对应方式无关
熵的性质-非负性

HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到
p(u1 | u2u3 ) p(u1u2 | u3 ) I (u1; u2 | u3 ) log log p(u1 | u3 ) p(u1 | u3 ) p(u2 | u3 )

可以推广到任意有限多个空间情况
互信息的可加性
u1
系统 u2 u3 u1 系统 u3
u2
I (u1; u2u3 ) I (u1; u2 ) I (u1; u3 | u2 ) I (u1; u3 ) I (u1; u2 | u3 )
I ( xk ; y j ) I ( xk ) I ( y j ) I ( xk y j )
I(xk) I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵

H ( x) q( x) logq( x)
集X中事件出现的平均不确定性
例2.2.1 H(p) 例2.2.2
条件熵和联合熵
条件自信息和联合自信息
I (u1 | u2 ) log p(u1 | u2 )
I ( xk y j ) log p( xk y j )
I ( xk ; y j ) I ( xk ) I ( xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
互信息量特性:

对称性 可加性 互信息量的值域: -infinite ~ +infinite, 即全体实数


离散变量的非平均自信息量
if p( xk | y j ) 1
I ( xk ; y j ) log p ( xk | y j ) q ( xk )
1 log log q( xk ) q ( xk )
收到01 0 0 1/3 2/3 0 0 0 0
收到011 0 0 0 1 0 0 0 0
非平均互信息量

例2.1.2
输入消息 X1 X2 码字 000 111
p(xk)
1/2 1/2
1-p
收到0 1-p p
收到01 1/2 1/2
收到011 1-p p
0 p p 1 1-p
0
1
非平均互信息量
I ( xk ; y j ) f (q( xk ), p( xk | y j )) I ( xk ; y j ) I ( xk ; y j1 ) I ( xk ; y j 2 | y j1 )

熵的性质-确定性

若事件集X中有一个事件为必然事件,其余事 件为不可能事件,则此集合的熵值为0
熵的性质-扩展性
lim H K 1 ( p1 , p2 ,..., pK , ) H K ( p1 , p2 ,..., pK )
0
熵的性质-可加性
H M ( p1q11 , p1q21 ,..., p1qm11 , p2 q12 , p2 q22 ,..., p2 qm2 2 ,..., pK q1K , pK q2 K ,..., pK qmK K ) H K ( p1 , p2 ,..., pK ) pk H mk ( q1k , q2 k ,..., qmk k )
0 0 0 1 0 0 0 0
非平均互信息量
输入消息 X1 X2 X3 X4 X5 X6 X7 x8 码字 000 001 010 011 100 101 110 111
p(xk)
1/8 1/4 1/8 1/4 1/16 1/16 1/16 1/16
收到0 1/6 1/3 1/6 1/3 0 0 0 0
第二章 信息量和熵
信息量和熵

2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量-熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性
2.1 离散变量的非平均信 息量
输入,输出空间定义

输入空间X={xk,k=1,2,…,K},概率记为q(xk) 输出空间Y={yj,j=1,2,…,J},概率记为ω (yj) 联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率 为p(xkyj) p(xkyj)= p(xk|yj)ω (yj)= p(yj|xk)q(xk)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
1 I ( xk ) log log q( xk ) q( xk )
非平均自信息的性质


非负性 体现先验不确定性大小
I ( xk ; y j ) I ( xk ) I ( xk ; y j ) I ( y j )
相关文档
最新文档