信息量和熵

合集下载

信息论与编码理论习题答案

信息论与编码理论习题答案

信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。

解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。

问各得到多少信息量。

解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。

解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。

信息量,信息熵

信息量,信息熵

信息量,信息熵1. 信息量的多与少任何事都会承载⼀定的信息量,包括已发⽣和未发⽣的事,只是它们承载的信息量有所不同。

如昨天下⾬这个已知事件,因为已经发⽣,你我都知道这件事,故它的信息量为0。

但明天会下⾬这件事,因为未发⽣,所以这事的信息量就⼤。

从上⾯例⼦可以看出信息量是⼀个与事件发⽣概率相关的概念,⼀条信息的信息量跟这个信息能解答的问题的不确定性有关。

⼀条信息能解答的问题越不确定,那它包含的信息量就越⼤。

如猜⼀个骰⼦最后向上的那⾯是多少点的游戏,这个游戏可能的情况有6种,但是猜32⽀球队中谁获得世界杯冠军的游戏则有32种可能。

所以“哪⽀球队最终获得世界杯冠军”的信息量⽐“骰⼦最后向上那⾯是多少点”的信息量⼤,因为前者是从32种可能中确定答案,⽽后者是从6种可能中确定答案。

2. 信息量的计算假设我错过了某年世界杯⽐赛,现在要去问⼀个知道⽐赛结果的朋友“哪⽀球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜⼀次就要给他⼀块钱。

那么我需要付给他多少钱才能知道谁是冠军?解:我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。

假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。

如果他告诉我不对,我就⾃然就知道冠军队在9-16号中。

这样我只需要猜5次就可以知道哪⽀球队是冠军了(思路类似于折半查找)所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。

⾹农⽤“⽐特”(bit)来作为信息量的单位。

像上边“谁是世界杯冠军”这个问题的答案的信息量是5⽐特。

如果是64⽀球队,“谁是世界杯冠军”这个问题的答案的信息量就是6⽐特,因为要多猜⼀次。

对⾜球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。

因为他知道巴西,西班⽛,德国等这些强队夺冠的可能性⽐⽇本,韩国等球队⼤的多。

所以他可以先把强队分成⼀组,剩下的其它队伍⼀组。

然后问冠军是否在夺冠热门组⾥边。

重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直⾄找到冠军队,这样也许三次或四次就猜出结果了。

信息论举例讲解信息量熵及互信息量

信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理,通 过去除数据中的冗余信息,实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用,如利用信息论中的 混淆和扩散原则设计加密算法,保护信息的机密性和完整性。
机器学习
在机器学习中,信息论用于特征选择、模型评估等方面。例如 ,利用互信息来衡量特征与目标变量之间的相关性,从而进行
熵的性质
非负性
熵的值总是非负的,表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统,其熵的和等于各事件或系统熵的和, 表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时,该系统的熵达到最大值,表 示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y,其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4],边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式,可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y,其联合概率密度函数为 f(x,y),边缘概率密度函数为 fX(x) 和 fY(y)。可以通过 数值积分的方法计算出互信息量。例如,对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y,其互信息量 为 I(X;Y)=0.5×log⁡2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念,使读者更好 地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念,对于理解 和应用信息论具有重要意义。通过本次讲解,读者可以更 加深入地了解这些概念,并能够在实际问题中加以应用。 同时,这些概念在其他领域也有广泛的应用,如计算机科 学、控制论、统计学等,因此本次讲解也有助于读者在其 他领域中更好地应用信息论的知识。

信息论举例讲解信息量熵及互信息量讲课文档

信息论举例讲解信息量熵及互信息量讲课文档
(1)对称性:熵只和分布有关,不关心某一具体事件 对应哪个概率;
(2)非负性:H(X)≥0; (3)确定性:若离散事件是确定事件,则H(X)=0
(4)极值性——最大离散熵定理:设|X|为信 源消息的个数,则有H(X)小于等于log|X|,等 号当且仅当信源X中各消息等概率时成立,即 各消息等概率分布时( p=1/|X|),信源熵最大.
现在十二页,总共二十六页。
条件自信息量
前面我们引入自信息量以及熵的概念,用 以描述信源或信宿,事实上,信宿收到的消息 是与信源发出的消息密切相关。并且接受信息 与发送信息之间的关系往往是判定一个信道的 好坏的最佳标准。所以,我们需要引入互信息 量。在学习互信息量之前我们先来了解条件信 息量的概念。
单位为比特
[解法二]直接计算得:
信源消息
码字
消息后验概率 先验概率
收到0后 收到01后 收到011后
x0
000
1/4
1/3
0
0
x1
001
1/4
1/3
0
0
X2
010
1/8
1/6
1/2
0
X3
011
1/8
1/6
1/2
1
X4
100
1/16
0
0
0
X5

101
1/16
0
0
0
X6
110
1/16
0
0
0
x7
111
1/16
上述两条性质与我们实际情况非常 吻合.
现在十八页,总共二十六页。
计算互信息量的例子
例5 设信源中含有8个消息,其先验概率如下图, 试求当我们收到011所能获取到的信息量,即计算互 信息量I(x3;011).

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

《信息论与编码理论》(王育民李晖梁传甲)课后习题问题详解高等教育出版社

信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。

信息熵越大

信息熵越大

信息熵越大我们说换位思考是成功者的必备品质之一,但是,换位一定要完整地换位,也就是不能在一个思考过程中,前面部分的主语是你,后面部分的主语又变成了他。

用一句简单的话来总结——不能搞精神分裂,否则你得到的只是精神病似的混乱,离成功越来越远。

——坤鹏论在坤鹏论看来,许多人对于信息熵的不理解,主要是因为:第一,概率,概率是信息熵的核心,偏偏大多数人不懂、不理解概率。

第二,有数学公式,尽管只是中学时学的数学公式,但我们早把它们还给了老师。

第三,概率和信息熵是反比关系,概率越高,信息熵越低;概率越低,信息熵越高,理解它需要在脑子里面先转个弯。

第四,讨论信息熵的人多、文章更多,但是人们理解的层次不同,于是正错纠缠,让人难以分辨。

今天和明天,坤鹏论根据自身学习过程中的从疑惑到解惑,讲几个信息熵学习中最常见的迷惑。

今天先讲最经典的——到底是信息熵越大,信息量越多?还是信息熵越大,信息量越少?很多人很难理解的是——信息熵越大,信息量越多。

坤鹏论发现,网上对此有相当多的错误说法。

今天就来细细掰饬一下它。

理解了它,对信息熵的科普级学习也基本算是圆满了。

第一,信息、信息熵、信息量都是针对接收者而言。

有个词叫:立场坚定。

坤鹏论觉得“立场”这个词很好,我们在分析问题,看待事物时,一定要分清立场,也就是你此时此刻是站立在谁的位置上的。

我们经常犯晕乎,或者是被别人说晕乎,其中关键之一就是其中掺杂了立场变化,我们却没有意识到。

这就是《官场现形记》中的那句名言:见人说人话,见鬼说鬼话,见了官场说官场上的话,见了生意人说生意场中的话。

这就是讲话者的立场不断随着他的谈话对象而改变,见风使舵,左右逢源,应变能力极强。

但是,要相信的是,人只要一开口,背后都带着利益诉求。

所以,看待事物以及听别人对它的评论,一定要先找到主语(立场)是谁。

这很重要,就像坤鹏论之前所说的,看评论听建议,一定多长个心眼,要思考判断如果实施下来,谁是最大受益者,这样才能透过语言的迷雾看透背后的利益纠葛,最大限度保你不会“被别人卖,还替人家数钱”。

二章信息量和熵

二章信息量和熵

pK
)
熵的性质-可加性
HM ( p1q11, p1q21,..., p1qm11, p2q12 , p2q22 ,...,
p2qm2 2 ,..., pK q1K , pK q2K ,..., pK qmK K )
K
HK ( p1, p2 ,..., pK ) pk Hmk (q1k , q2k ,..., qmkk ) k 1
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I (xk ; y j ) f (q(xk ), p(xk | y j ))
I (xk ; y j ) I (xk ; y j1) I (xk ; y j2 | y j1) I (xk ; y j3 | y j1 y j2 )
if p(xk | y j ) 1
I (xk ;
yj)
log
p(xk | y j ) q(xk )
log
1 q( xk
)
log
q( xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I
( xk
)
log
1 q( xk
)
log
q( xk
)
非平均自信息的性质
非负性 体现先验不确定性大小
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。

信息为什么还有单位,熵为什么用log来计算?

信息为什么还有单位,熵为什么用log来计算?

信息为什么还有单位,熵为什么用log来计算?前言学习观10里大家一定会有不少疑惑,其中之一就是那些信息到底是怎么计算出来的。

在该视频中得以解答。

不过最少还仍然有两个问题:•为什么网上有那么多说”熵是描述混乱或无序的?•为什么做题消耗了那么多能量,小明最后只获得了2 bits 的信息?第一个问题:牵扯到热力学熵的一种应用,然而不管考虑的是不是热力学熵,这种描述都是非常具有误导性的。

因为热力学熵就是信息熵的特例,如果不能想明白二者的关系,意味着还没搞明白。

接下来的视频会详细解释。

题外话,很多人会觉得这个概念非常难的原因是因为它们反常识,违背你日常生活经验所构建出的模型。

多数人都会根据自己已有的经验进行判断,从而产生抵触。

但是不要认为自己很笨,因为信息和热力学熵的关系困扰科学家们都足足一百年之久。

第二个问题:牵扯到信息与知识的关系。

是最主要想讲的内容。

视频正文01—“不科学啊”上个视频学习了如何定性的判断什么是熵和信息,其中有个例子:当小明不知道选择题是 ABCD 哪个选项时:•小红告小明“D 选项是错的”,提供了 0.415 bits 的信息•再告诉小明“A选项是错的”,提供了 0.585 bits 的信息•再告诉小明“B选项是错的”,提供了 1 bit 的信息可明明每次都是告诉他一个错误选项,为什么三次提供给小明的信息量却都不相同?信息量到底是怎么计算的?信息为什么还有单位?02—“以此类推”回想一下,什么东西有单位?质量,温度等物理量。

没错,信息也是一个物理量。

要测量这个物理量,不妨回想一下我们是怎么测量质量的,“千克”最初又是怎么被定义出来的?其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。

当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。

这里的”多少个“便是千克。

如果换另一个参照物体,那么单位就会变化,比如斤。

测量信息是也是一样,既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.2 离散集的平均自信息量- 熵

集HX中(事x件) 出现的平均q不(x确)定lo性g q(x)
例2.2.1 H(p) 例2.2.2
条件熵和联合熵
XY独立时有H(X|Y)=H(XH) (XY) p(xy) log p(xy)
H(X | Y) p(xy)log p(x | y)
xy
xy
H ( XY) H ( X ) H (Y | X )
H (Y ) H ( X | Y )
熵的性质
• 对称性 • 非负性 • 确定性 • 扩展性 • 可加性 • 极值性 • 是H(P)上凸函数
熵的性质-可加性
• H ( p 1q 11, p 1q 12, … , p 4q 44) = H ( p 1… , p 4) + p 1H ( q 11, … , q 14) + … + p 4H ( q 41, … , q 44)
I
(u1; u2
)

I
(u1; u3
|
uu3 2
)
I (u1;u3) I (u1;u2 | u3)
离散变量的非平均自信息量
I (xk ; y j )

log
p(xk | y j ) q(xk )
1 log q(xk ) log q(xk )
I (xk
)

log
1 q(xk )

第二章 信息量和熵
信息量和熵
• 2.1 离散变量的非平均信息量 • 2.2 离散集的平均自信息量-熵 • 2.3 离散集的平均互信息量 • 2.4 连续随机变量的互信息和熵 • 2.5 凸函数和互信息的凸性
2.1 离散变量的非平均信息量
输入,输出空间定义
• 输入空间X={xk,k=1,2,…,K},概率记为q(xk) • 输出空间Y={yj,j=1,2,…,J},概率记为ω (yj) • 联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率为p(xkyj)
三个事件集的条件互信息定义为
I (u1;u2
| u3)

log
p(u1 | u2u3 ) p(u1 | u3 )
log
p(u1u2 | u3 ) p(u1 | u3 ) p(u2 | u3 )
可以推广到任意有限多个空间情况
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
I
(u1; u2u3
)

log
q(xk )
非平均自信息的性质
非负 体现先验不确定性大小
I (xk ; y j ) I (xk ) I (xk ; y j ) I ( y j )
条件自信息和联合自信息
I (u1 | u2 ) log p(u1 | u2 )
I (xk y j ) log p(xk y j )
q11 p1 q12
p2
q13
q14
p3
p4
熵的极值性
引理1: lnx≤x-1 引理2:
H ( p1,, pK ) pk log qk k 1
H(X|Y) ≤H(X) H ( U 1 … U N )
≤H(U1)+…+H(UN)
熵的凸性
H(P)是P的上凸函数
H (P1 (1 )P2 ) H (P1) (1 )H (P2 )
信息处理定理
X
Y
系统1
pZ(x出y |现z)情况p下(x,| zX) 和p(Yy独| z立) I(X;Y | Z) 0 H(X | YZ) H(H | Z)
p(xkyj)= p(xk|yj)ω (yj)= p(yj|xk)q(xk)
非平均互信息量
例2.1.1
输入消息 码字
பைடு நூலகம்X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
收到0
1/4 1/4 1/4 1/4 0 0 0 0
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(xk)
I(yj)
I (xk ; y j ) I (xk ) I ( y j ) I (xk y j )
I(xk ;yj)
2.3 离散集的平均互信息量
平均互信息量
1. 非负性
I (X ;Y2).
对 称性p(xy) log xy
p(x | y) q(x)
3.
I(X;Y) H(X ) H(X |Y) H (Y ) H (Y | X ) H ( X ) H (Y ) H ( X | Y )
收到01
0 0 1/2 1/2 0 0 0 0
收到011
0 0 0 1 0 0 0 0
非平均互信息量
输入消息 码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/4 1/8 1/4 1/16 1/16 1/16 1/16
收到0
1/6 1/3 1/6 1/3 0 0 0 0
I (xk ; y j ) If((xqk (; xykj)3,|py(jx1 yk j|2y) j ))
I (xk ; y j ) loga
p(xk | y j ) q(xk )
loga
p( y j | xk )
( y j )
I ( y j ; xk )
条件互信息和联合事件互信息
平均互信息量
4. I(X;Y)≤H(X) ,I(X;Y)≤H(Y)
H(X)
H(X|Y)
I(X;Y)
H(Y)
H(Y|X)
条件互信息
I ( X ;Y
|
Z)

xyz
p(xyz) log
p(xy | z) p(x | z)
I(X ;Y | Z) H(X | Z) H(X | YZ)
I ( X ;YZ ) I ( X ;Y ) I ( X ; Z | Y ) I(X;Z) I(X;Y | Z)
收到01
0 0 1/3 2/3 0 0 0 0
收到011
0 0 0 1 0 0 0 0
非平均互信息量
例2.1.2
输入消息 码字
X1
000
X2
111
p(xk)
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I (xk ; y j ) I (xk ; y j1) I (xk ; y j2 | y j1)
相关文档
最新文档