联合熵与条件熵

合集下载

信息论基础——熵

信息论基础——熵
熵、联合熵与条件熵
所以
H(XY) p (x iy j)I(x iy j) p (x iy j)lo p (x ig y j)
i,j
i,j
p(xiyj)lop(g yj)p(xi/yj)
i,j
p (x iy j)lo p (y g j) p (x iy j)lo p (x g i/y j)
说明：
从数学角度： H(P)= pi ·log pi 中的和式满足交换率；
从随机变量的角度：熵只与随机变量的总体统计特性有关。
信息论基础——熵
信息熵的基本性质
一个例子：
P ( x x ) 1 a / 1 3 1 a / 2 6 1 a / 3 2 , P ( y y ) 1 a / 1 6 1 a / 2 2 1 a / 3 3 , P ( z z ) 1 a / 1 3 1 a / 2 2 1 a / 3 6 H(X)H(1,1,1)1.45(B9/iSt ym ) bol 362 H(Y)H(1,1,1)1.45(B9/iSt ym ) lob H (X )H (Y)H (Z) 623 H(Z)H(1,1,1)1.45 (B9/iSt ym ) bol 326
由熵联合熵与条件熵ijijixypxpyxp?jijyxpyp??ijjiyxpiixp???j?jyphxyhyhxy所以?xyh?iyjy?ixix??jjijijjijiyxpyxpyxiyxplogloglogxxppyyppyypp?i????熵联合熵与条件熵ijjjlogjjjypyp?h??logjijijiyxpyxp??yxhy??loglogjijijijijjiyxpyxpypyxp????例例某一二维离散信源某一二维离散信源其发出的符号只与前一个符号有关其发出的符号只与前一个符号有关即可用联合概率xxjj给出它们的关联程度给出它们的关联程度如下表所示如下表所示即可用联合概率pxpxii14194361121031??????????????????iipxpxpxpxiixxjjjjxi??求信源的熵求信源的熵hxhx条件熵条件熵hxhx22xx11和联合熵和联合熵hxhx11xx22

信息论基础考试试题

信息论基础考试试题一、信息论基础考试试题考试试题内容如下：1. 简述信息论的定义和基本原理。

信息论是由克劳德·香农提出的一门数学理论，主要研究信息的量和信息传输的可靠性。

其基本原理包括信源编码、信道编码和信道容量三个方面。

其中，信源编码是将信息源的符号序列编码为短码字节，减少信息传输的冗余；信道编码是为了在承载信息传输的信道中降低传输过程中的错误率和噪声干扰；信道容量则是指在给定的信道条件下，能够传输的最大信息速率。

2. 请定义信息熵，并给出其计算公式。

信息熵是用来衡量一个随机变量的不确定性或者信息量的多少。

假设一个离散随机变量X，其取值的概率分布为P(X)，那么信息熵的计算公式为：H(X) = -Σ[P(x)log2P(x)]其中，Σ表示求和运算，x为随机变量X的所有取值。

3. 解释条件熵和联合熵的概念。

条件熵是指在给定某个随机变量的取值条件下，另一个随机变量的不确定性或信息量。

设有两个离散随机变量X和Y，X的条件熵H(X|Y)即为在已知Y的条件下，X的信息熵。

联合熵是指同时考虑两个或多个随机变量的不确定性或信息量。

对于随机变量X和Y，它们的联合熵H(X,Y)表示同时考虑X和Y的信息熵。

4. 请解释互信息的概念，并给出其计算公式。

互信息是用来衡量两个随机变量之间的相关程度或者依赖关系。

对于离散随机变量X和Y，互信息的计算公式为：I(X;Y) = ΣΣ[P(x,y)log2(P(x,y)/(P(x)P(y)))]其中，ΣΣ表示双重求和运算，P(x,y)表示X和Y同时发生的概率，P(x)和P(y)分别为X和Y的边缘概率。

5. 请简要介绍信道编码理论中的三个重要概念：纠错码、检测码和调制。

纠错码是一种用于在传输过程中恢复误差的编码技术。

通过添加冗余信息，可以在接收端检测和纠正传输过程中产生的错误。

检测码是用于在传输过程中检测错误的编码技术。

它可以发现传输中是否存在错误，但无法纠正错误。

调制是指将数字信号转换为模拟信号或者模拟信号转换为数字信号的过程。

信息论重点 (新)

1．消息定义信息的通俗概念：消息就是信息,用文字、符号、数据、语言、音符、图片、图像等能够被人们感觉器官所感知的形式，把客观物质运动和主观思维活动的状态表达出来，就成为消息，消息中包含信息，消息是信息的载体。

信号是表示消息的物理量，包括电信号、光信号等。

信号中携带着消息，信号是消息的载体。

信息的狭义概念（香农信息）:信息是对事物运动状态或存在方式的不确定性的描述。

信息的广义概念信息是认识主体(人、生物、机器)所感受的和表达的事物运动的状态和运动状态变化的方式。

➢ 语法信息(语法信息是指信息存在和运动的状态与方式。

) ➢ 语义信息(语义信息是指信宿接收和理解的信息的内容。

) ➢ 语用信息(语用信息是指信息内容对信宿的有用性。

)2．狭义信息论、广义信息论。

狭义信息论：信息论是在信息可以量度的基础上，对如何有效，可靠地传递信息进行研究的科学。

它涉及信息量度，信息特性，信息传输速率，信道容量，干扰对信息传输的影响等方面的知识。

广义信息论：信息是物质的普遍属性，所谓物质系统的信息是指它所属的物理系统在同一切其他物质系统全面相互作用（或联系）过程中，以质、能和波动的形式所呈现的结构、状态和历史。

包含通信的全部统计问题的研究，除了香农信息论之外，还包括信号设计，噪声理论，信号的检测与估值等。

3.自信息互信息定义性质及物理意义自信息量： ()log ()i x i I x P x =-是无量纲的，一般根据对数的底来定义单位：当对数底为2时，自信息量的单位为比特；对数底为e 时，其单位为奈特；对数底为10时，其单位为哈特自信息量性质：I(x i )是随机量；I(x i )是非负值；I(x i )是P(x i )的单调递减函数。

自信息物理意义: 1.事件发生前描述该事件发生的不确定性的大小 2.事件发生后表示该事件所含有（提供）的信息量互信息量:互信息量的性质：1) 互信息的对称性2) 互信息可为零3) 互信息可为正值或负值4) 任何两个事件之间的互信息不可能大于其中任一事件的自信息互信息物理意义: 1.表示事件 yj 出现前后关于事件xi 的不确定性减少的量 2.事件 yj 出现以后信宿获得的关于事件 xi 的信息量4.平均自信息性质平均互信息性质平均自信息（信息熵/信源熵/香农熵/无条件熵/熵函数/熵）：(;)()(|)i j i i j I x y I x I x y =-log ()log (|)(1,2,,;1,2,,)i i jp x p x y i n j m =-+=⋯=⋯(|)log ()i j i p x y p x =1()[()][log ()]()log ()ni i i i i H X E I x E p x p x p x ===-=-∑熵函数的数学特性包括:(1)对称性 p =(p1p2…pn)各分量次序可调换 (2)确定性p 中只要有为1的分量，H(p )为0(3)非负性离散信源的熵满足非负性，而连续信源的熵可能为负。

《教育信息处理》课件

《教育信息处理》
• 互信息的另一种定义方法是直接定义X和Y之间的互信息为
•
K
由上式可I以(得x;到y) k 1
jJ 1p(ak,bj)lopg p (a (a k)kp ,b (b j)j)
• I（x；y）= H（x）+H（Y）- H（XY）
《教育信息处理》
《教育信息处理》
互信息的性质:
• 一般情况下，有0≤I(X;Y)≤min[H(X),H(Y)]
第三节熵函数的展开
• 一、联合熵 • 二、条件熵 • 三、互信息 • Kullback信息量（不讲）
《教育信息处理》
一、联合熵
• 设有两道多重选择问题X、Y。问题X有r个预选答案，问题Y有c个预选答案。
• 通过测试，学生对问题X选中第s个预选答案，对问题Y选中第t个预选答案的概率为pst.这是一
《教育信息处理》
第四节测试问题的信息量
• 一、测试问题信息熵的计算 • 二、等价预选项数（等价选项个数） • 三、对不确定程度的判断 • 四、互信息在标准化试卷评分中的应用
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
• 给定的问题是：从外观上看，12个小球完全相同，在这12个小球中，仅有一个小球的重量与其它小球不一样。请使用天平，能否在三次以内找出这个重量不同的小球，并且指明该小球比其它小球是重还是轻。
《教育信息处理》
• 分析与求解：
• 比较12个小球，并判定轻、重，应是12x2种比较当中的一种。在比较的过程中，开始的不确定程度为 log24＝4.585(bit)
《教育信息处理》

信息熵相关知识总结

信息熵相关知识总结前⾔学习决策树时会接触到⼀些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等乱七⼋糟的知识和名字,我本⼈已经记得⼤脑混乱了,还没有全部记住,所以在这⾥记录⼀下.1.信息熵:信息的度量,信息的不确定程度,是乱七⼋糟熵的基础.吴军⼤⼤的数学之美中⽤了猜球队冠军的⽅式引出了信息熵的概念.我觉得这种⽅法印象很深刻,所以在这⾥提出⼀下.如果有32⽀球队,使⽤⼆分查找法去猜哪⽀球队是冠军,如:冠军在1-16号球队内.这样⼀共需要猜5次就可以找到结果,也就是log32=5,但是某些球队的获胜率⼤⼀些,所以它的准确信息量的表⽰应该如下:图1⾹农就称它为信息熵,表⽰信息的不确定程度,不确定性越⼤,信息熵也就越⼤.图1中的p(x)表⽰随机变量x的概率.信息熵H(x)的取值范围:0<=H(x)<=logn,其中n是随机变量x取值的种类数.2.条件熵:有两个随机变量X和Y,在已知Y的情况下,求X的信息熵称之为条件熵:图2其中p(x|y)是已知y求x的条件概率.p(x,y)是联合概率.3.信息增益:表⽰在确定某条件Y后,随机变量X的信息不确定性减少的程度.也称为互信息(Mutual Information).图3它的取值是0到min(H(x),H(y))之间的数值.取值为0时,表⽰两个事件X和Y完全不相关.在决策树中算法中,ID3算法就是使⽤信息增益来划分特征.在某个特征条件下,求数据的信息增益,信息增益⼤的特征,说明对数据划分帮助很⼤,优先选择该特征进⾏决策树的划分,这就是ID3算法.4.信息增益⽐(率):信息增益⽐是信息增益的进化版,⽤于解决信息增益对属性选择取值较多的问题,信息增益率为信息增益与该特征的信息熵之⽐.在决策树中算法中,C4.5算法就是使⽤信息增益⽐来划分特征.公式如下：图4信息熵,条件熵和互信息的关系:图5注:图⽚取⾃不同地⽅,所以符号表⽰不同,请⾃⾏对照,同时信息增益⽐的公式有的⽂章或者书籍分母可能不同.5.相对熵(KL散度):⽤来描述两个概率分布p,q之间的差异(图6),数学之美中介绍是⽤来衡量两个取值为正数函数的相似性(图7)图6图7概念都是⼀样的,所以不需要太在意这两个公式的区别.如果两个函数(分布)完全相同,那么它们的相对熵为0,同理如果相对熵越⼤,说明它们之间的差异越⼤,反之相对熵越⼩,说明它们之间的差异越⼩.需要注意的是相对熵不是对称的,也就是:图8但是这样计算很不⽅便,所以⾹农和杰森(不是郭达斯坦森)提出了⼀个新的对称的相对熵公式:图9上⾯的相对熵公式可以⽤于计算两个⽂本的相似度,吴军⼤⼤在数学之美中介绍,google的问答系统就是⽤图9的公式计算答案相似性的(现在还是不是就不清楚了).6.交叉熵(cross-entropy):我们知道通常深度学习模型最后⼀般都会使⽤交叉熵作为模型的损失函数.那是为什么呢?⾸先我们先将相对熵KL公式(图6)进⾏变换(log中除法可以拆分为两个log相减):图10其中前⼀部分的-H(p(x))是p的熵,后⼀部分就是我们所说的交叉熵.图11损失函数是计算模型预测值和数据真实值之间的相关性,所以可以使⽤相对熵(KL散度)计算,根据图10可以看出,-H(p(x))是不变的,所以我们可以通过计算后⼀部分的交叉熵来求得Loss.所以通常会使⽤交叉熵来作为Loss函数,同理交叉熵越⼩,预测值和真实值之间相似度越⾼,模型越好.注:LR的损失函数就是交叉熵.7.联合熵:联合熵可以表⽰为两个事件X,Y的熵的并集图12它的取值范围是:max(H(x),H(y)) <= H(x,y) <= H(x)+H(y)8.基尼系数(Gini,它属于混进来的):在决策树的CART(分类回归树)中有两类树,⼀是回归树,划分特征使⽤的是平⽅误差最⼩化的⽅法,⼆是分类树,采⽤的就是Gini系数最⼩化进⾏划分数据集.图13其中k为label的种类数.基尼指数越⼤,信息的不确定性越⼤,这与信息熵相同.(CART树是如何使⽤Gini指数的这⾥就不详细介绍了,以后会在决策树中详细介绍的)9.困惑度(perplexity,PPL):在NLP中,通常使⽤困惑度作为衡量语⾔模型好坏的指标.图14其中S为句⼦,N是句⼦中单词的个数,p(wi)代表第i个单词的概率.所以PPL越⼩p(wi)的概率越⾼,则⼀句话属于⾃然语⾔的概率也就越⾼.参考:《数学之美-第⼆版》吴军著《统计学习⽅法》李航著《统计⾃然语⾔处理》宗成庆著。

2.2熵函数的性质

2.2 熵函数的性质熵函数•H(P)是概率矢量P 的函数，称为熵函数。

•表示方法：–用H(x)表示随机变量x 的熵；–用H(P)或H(p 1, p 2 , …, p q )表示概率矢量为P = (p 1, p 2, …, p q )的q 个符号信源的熵。

–若当q =2 时，因为p 1+p 2 = 1, 所以将两个符号的熵函数写成H(p 1)或H(p 2)。

•熵函数H(P)是一种特殊函数，具有以下性质。

2、确定性：H(1,0)=H(1,0,0)=H(1,0,0…,0)=0•性质说明：这个信源是一个确知信源，其熵等于零。

3、非负性：H(P) ≥0•说明：–这种非负性合适于离散信源的熵，对连续信源来说这一性质并不存在。

以后可看到在相对熵的概念下，可能出现负值。

非负性体现信息是非负的。

4、扩展性•性质说明：信源的取值数增多时，若这些取值对应的概率很小(接近于零)，则信源的熵不变。

),...,,(),,...,,(lim 212110q q q q p p p H p p p H =−+→εεε),,,(log 211q q qi i i p p p H p p ⋅⋅⋅=−=∑=}log )log()(log {lim 110εεεεε∑−=→−−−−−=q i q q i i p p p p 所以，上式成立),,,,(lim 2110εεε−⋅⋅⋅+→q q p p p H 因为5、可加性()()(/)()()(/)(|)(|)(/)H X Y H X H Y X H X Y H Y H X Y H X Y Z H X Z H Y X Z =+=+=+统计独立信源X 和Y 的联合信源的熵等于信源X 和Y 各自的熵之和。

H(XY) = H(X)+ H(Y)可加性是熵函数的一个重要特性，正因具有可加性，才使熵函数的形式是唯一的。

222()log ()()log (/)log ()()(/)()(/):()()(/)(/)1i j i i j j i ijiji i j i j yp x y q x p x y p y x q x p x y H Y X H X H Y X p xy q x p y x p y x =−−⎡⎤=−+⎢⎥⎣⎦=+==∑∑∑∑∑∑∑利用可加性证明22()()log ()()log [()(/)]i j i j iji j i j i ijH XY p x y p x y p x y q x p y x =−=−∑∑∑∑同理=+H XY Z H X Z H Y XZ(|)(|)(/)复习链式法则()()()|H X Y HX HYX=+()()()()()()121213*********...//.../.../...n n n ni i i H X X X H X H X X H X X X H X X X X H X X X X −−==++++=∑复习熵函数的性质H(p 1,p 2,…, p n )对称性非负性极值性连续性扩展性可加性()()()()()()()()()1222122211111211122112221,,...,,...,,...,,,.,,...,,,..,,,...,||n nn n n n n n m nn i i x m i im i Xm q H q p q p q p H q q q q H p p p H XY H X H Y X p q q q p q p H X q x H q x p Y q p =∈=+=+=+∑∑定理：1. H(X/Y ) ≤H (X )2. H (XY ) ≤H (X )+H (Y )证明：222(/)((/)()log (/)()/)(/)()log ()log ()i j i j ijj ji j i j i j i j j i i p x y p x y p H X Y p x y p x y p y p y H p x X x y =−⎡⎤=−⎢⎥⎣⎦⎡⎤≤−⎢⎥⎣⎦=∑∑∑∑∑∑()()/j H X y H X 与大小比较?\1211/81/825/81/8x y ()()/j H X y H X 与大小比较?定义概率矢量满足仅K-1个分量独立。

联合熵推导

联合熵推导联合熵是信息论中用来衡量多个随机变量之间关联程度的指标。

它是熵的一个扩展，可以帮助我们理解和量化多个随机变量之间的信息传递和依赖关系。

1. 信息熵回顾在介绍联合熵之前，我们先来回顾一下信息熵的概念。

信息熵是用来衡量一个随机变量的不确定性的度量方式。

对于一个离散型随机变量X ，其信息熵H(X)的定义如下：H (X )=−∑P ni=1(x i )logP (x i )其中，x i 表示X 的取值，P (x i )表示X 取值为x i 的概率。

信息熵越高，表示随机变量的不确定性越大。

2. 联合熵的定义现在我们考虑两个随机变量X 和Y ，它们的联合概率分布为P(X =x i ,Y =y j )。

联合熵H(X, Y)的定义如下：H (X,Y )=−∑∑P mj=1n i=1(x i ,y j )logP(x i ,y j )其中，x i 和y j 分别表示X 和Y 的取值，P(x i ,y j )表示X 取值为x i 且Y 取值为y j 的联合概率。

联合熵可以看作是在考虑了两个随机变量之间的关联情况下的不确定性度量。

如果X 和Y 相互独立，那么联合熵就等于各自的熵的和。

如果X 和Y 之间存在依赖关系，那么联合熵就小于各自的熵的和。

3. 联合熵的性质联合熵具有以下性质：•非负性：联合熵始终大于等于零，即H (X,Y )≥0。

•对称性：H (X,Y )=H (Y,X )，即X 和Y 的顺序不影响联合熵的值。

• 条件熵的性质：联合熵可以通过条件熵来计算，即H (X,Y )=H (X )+H (Y|X )。

其中，H (Y|X )表示在已知X 的条件下，Y 的不确定性。

4. 联合熵的应用联合熵在信息论和统计学中有着广泛的应用。

以下是一些常见的应用场景：4.1. 信息传输在通信领域中，联合熵可以用来衡量信道中的信息容量。

通过计算发送方和接收方之间的联合熵，可以确定在给定信道条件下的最大可靠传输速率。

4.2. 数据压缩联合熵可以用来评估数据的冗余度。

2.3二元联合信源的联合熵与条件熵

2.3二元联合信源的联合熵（共熵）与条件熵讨论两个信源的情况。

如前所述，信源的概率空间为：⎥⎦⎤⎢⎣⎡)(Xp X 类似地信源的概率空间为：⎥⎦⎤⎢⎣⎡)(Y p Y 这两个信源，即二元联合信源的概率空间，可以由其联合概率空间来描述。

2.3.1共熵研究二元联合信源的熵即共熵。

二元联合信源的共熵可以按照单信源熵的定义写出：∑∑==-=ni mj xiyj lbp xiyj p XY H 11)()()(研究单信源熵与联合概率的关系.2.3.2条件熵条件熵不能由单信源熵定义直接写出，而是由其共熵导出。

H(XY)=H(X)+H(Y/X) (2.3.3)二元联合信源的共熵还可以写成：H(XY)=H(Y)+H(X/Y)(2.3.4)[例2.3.1]仍以[例2.1.5]为例验证式（2.3.3），（2.3.4）的正确性。

推论１：推论２：[例2.3.2]有一离散信源具有三个消息A、B、C，发出的消息序列前后符号具有相关性，其中相关性可用下表中的条件概率来描述，求该离散信源的熵。

某地二月份天气构成的信源为现有人告诉你:“今天不是晴天。

”，把这句话作为收到的消息y1。

当收到消息y1 后，各种天气发生的概率变成后验概率了。

其中计算与各种天气之间的互信息量。

各种熵之间的关系⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧=⎥⎦⎤⎢⎣⎡81,81,41,21)(),(),(),()(4321雪雨阴晴x x x x X P X 41)/(;41)/(;21)/(;0)/(14131211====y x p y x p y x p y x p 互信息量为负值的不确定度更大反而使的不确定度减少不仅没有使后说明收到消息比特的不确定度各减少了使也可理解为消息比特的信息量各分别得到了这表明从同理对天气信息量之间与不必再考虑对天气→-∞========∴=。

x ，x ，y bit x p y x p y x I 。

，x x ，x y ，，x ，x x y bit y x I y x I bit x p y x p y x I x 。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第6讲联合熵与条件熵
信息熵H(X)反映了随机变量X 的取值不确定性。

当X 是常量时，其信息
熵最小，等于0；当X 有n 个取值时，当且仅当这些取值的机会均等时，信息
熵H(X)最大，等于log n 比特。

我们拓展信息熵H(X)的概念，考虑两个随机
变量X 和Y 的联合熵H(XY)和条件熵H(Y|X)。

1. 联合熵
设X ，Y 是两个随机变量，则(X,Y)是二维随机变量，简写为XY 。

二维随机变量XY 的联合概率分布记为p (xy )，即
根据信息熵的定义可知，XY 的信息熵为
定义 1.1 二维随机变量XY 的信息熵H(XY)称为X 与Y 的联合熵（joint
entropy ）。

它反映了二维随机变量XY 的取值不确定性。

我们把它理解为X 和Y 取值的
总的不确定性。

练习：
假设有甲乙两只箱子，每个箱子里都存放着100个球。

甲里面有红蓝色球
各50个，乙里面红、蓝色的球分别为99个和1个。

试计算H(XY)
我们将联合熵概念推广到任意多离散型随机变量上。

定义1.2 一组随机变量12,,,N X X X 的联合熵定义为
注：为了简化记号，我们有时把12
N X X X 记为X N ，把12N x x x 记为x N 。

物理意义：
（1）12()N X H X X 是这一组随机变量平均每一批取值所传递的信息量。

（2）若N-维随机变量12
N X X X 表示某信源产生的任意一条长度为N 的消息，则12()N X H X X 是平均每条长度为N 的消息的信息量。

因此，若该信源产生一
个长度为N 的消息，则在不知道其它条件的情况下，对该消息所含信息量的最
优估计为N-维信息熵12
()N X H X X 。

联合熵的性质：联合熵熵函数的一种特殊形式，所以熵函数的任何数学性质都适用于联合
熵，包括：非负性、可加性、严格上凸性和最大离散熵原理，等等。

当然，联合熵还有自己的特殊性质。

定理1.4（联合熵的独立界）2121()()()()N N H X X H X H X H X X ≤+++
其中等号成立的充要条件是所有随机变量相互独立。

证明：这里仅证明()()()H Y X X H H Y ≤+，一般情形可类似证明。

设对于XY 的联合分布为p (xy )，X 和Y 的概率分布简记为p (x )，p (y )。

由于
我们有
注意，()()p x p y 构成一个概率分布。

应用信息不等式可得
其中等号成立的充要条件是()()()p xy p x p y =，即X 与Y 相互独立。

证毕
2. 条件熵条件自信息：1(|)log (|)
I y x p y x = 对于任何取值x ，|Y X x =是一个带条件的随机变量，其信息熵为
再对所有x 求熵的平均值可得如下条件熵：
定义2.1 设X ,Y 是两个离散型随机变量，联合分布为p (xy )。

X 相对于Y 的条件
熵H (X|Y )
定义为条件自信息I (X|Y )的期望，即
物理意义：H (X|Y )表示在已知Y 取值的前提下，X 取值的不确定性，亦即X 的
每个取值平均所提供的与Y 无关的信息量。

定理2.2（条件熵非负性）对于任何离散型随机变量X 与Y ，都有H(Y|X) ≥0，
其中等号成立当且仅当Y 是X 的函数，即X 的取值可确定Y 的取值。

证明根据定义
由于上述加式中各加项都≤0，所以该加式=0的充要条件是各加项=0，即对于任何x和y，p(y|x)=1或者p(y|x)=0，亦即对于任何x，P(Y|x)是退化分布。

这表明当X的取值确定时，Y的取值随即确定，即Y是X的函数。

证毕
定理2.3（熵的链法则）对于随机变量序列X1,X2,…和任何N≥1
简记为
其中H1=H(X1)，H2=H( X2|X1)，…，H N=H(X N|X1X2…X N-1)。

证明：首先根据定义直接可得
H(XY)= H(X)+H(Y|X)
应用上述等式，对N用归纳法可证明熵的链法则。

细节略。

证毕
意义：将多个随机变量的联合熵转化为这些随机变量的条件熵之和，可简化计算。

注：链法则与熵的可加性是等价的。

思考：
下列不等式是否成立，其中各等号成立的充要条件是什么？
这个性质说明什么？请读者尝试命名该性质。

定理2.4（条件熵递减性）对于任何随机变量X和Y，有
H(Y|X)≤ H(Y)
其中等号成立的充要条件是Y与X相互独立。

证明一：根据链法则，
H(XY)=H(X)+H(Y|X)
再根据联合熵的独立界定理，立刻可得
H (Y |X )≤ H (Y )
其中等号成立的充要条件是
X 与Y 统计独立。

证毕
在条件熵中，条件越少，熵值越大。

相反，条件越多，熵值越小。

这可理解为，我们知道的越多，则事物的不确定性越小。

证明二：应用Jessen 不等式证明。

证毕
3. 计算公式
令X ，Y 为离散的随机变量。

证明：
证毕
例3.1 设()(0.4,0.6)P X =且
则
记号：以后对于任何N ，我们将N 维随机向量X 1,X 2,…X N 简记为X N 。

注：上述条件熵概念可以推广到多个随机变量熵，例如
H (Y|X 1X 2 …X N )
是在已知随机向量X 1,X 2,…X N 取值的前提下，随机变量Y 的不确定性，亦即Y 的每个取值可以提供的与X 1,X 2,…X N 取值无关的新信息量。

练习3.2设p(xy)如下表所示。

试计算
(1) H(XY) (2) H(X), H(Y)
(3) H(X|Y), H(Y|X)
练习3.3 已知平均100人中有2人患有某种疾病，为了查明病情，必须进行某项指标的化验。

这种化验的结果对于有病的人总是阳性的，对于健康的人来说有一半可能为阳性、一半可能为阴性。

若X 表示一个人是否罹患这种疾病，Y 表示其化验结果是否为阳性，试计算H(XY)。

作业5
1. 范九伦等所着教材第38页习题（三）
设X 和Y 的联合分布(,)u x y 由下表给出：
.
试计算(),(),H X H Y H X Y H Y X H X
2. 设一个信源有6种信号，先后输出的信号是独立同分布的，其概率分布为 (1/2, 1/4, 1/8, 1/16, 1/32, 1/32)
（1）该信源输出1个符号所提供的平均信息量。

（2）该信源输出100个符号所提供的平均信息量。

3. 在一段时间内，某城市交通的忙闲天数按天气阴晴和气温冷暖进行分类统计如下：
（1）计算交通忙闲状态的无条件熵。

（2）计算天气和气温状态下的条件熵。

（3）计算从天气和气温状态所获得的关于交通状态的信息。

4. 世界职业棒球锦标赛为7场赛制，只要其中一队赢得4场，比赛就结束。

设随机变量X 代表在比赛中A 队和B 队较量的可能结果。

X 的可能取值为AAAA ，BABABAB 和BBBAAAA ，其中A,B 分别表示A 队和B 对获胜。

设Y 代表比赛的场数，取值范围为4到7。

假设A 队和B 队是同等水平的，且每场比赛相互独立。

试计算H(X)，H(Y), H(Y|X)和H(X|Y)。

晴
阴暖 8忙
冷 27
暖
16晴阴
暖 15闲冷 4暖 12冷 12冷 8。