联合熵与条件熵

合集下载

《教育信息处理》课件

《教育信息处理》
• 互信息的另一种定义方法是直接定义X和Y之间的互信息为
•
K
由上式可I以(得x;到y) k 1
jJ 1p(ak,bj)lopg p (a (a k)kp ,b (b j)j)
• I（x；y）= H（x）+H（Y）- H（XY）
《教育信息处理》
《教育信息处理》
互信息的性质:
• 一般情况下，有0≤I(X;Y)≤min[H(X),H(Y)]
第三节熵函数的展开
• 一、联合熵 • 二、条件熵 • 三、互信息 • Kullback信息量（不讲）
《教育信息处理》
一、联合熵
• 设有两道多重选择问题X、Y。问题X有r个预选答案，问题Y有c个预选答案。
• 通过测试，学生对问题X选中第s个预选答案，对问题Y选中第t个预选答案的概率为pst.这是一
《教育信息处理》
第四节测试问题的信息量
• 一、测试问题信息熵的计算 • 二、等价预选项数（等价选项个数） • 三、对不确定程度的判断 • 四、互信息在标准化试卷评分中的应用
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
《教育信息处理》
• 给定的问题是：从外观上看，12个小球完全相同，在这12个小球中，仅有一个小球的重量与其它小球不一样。请使用天平，能否在三次以内找出这个重量不同的小球，并且指明该小球比其它小球是重还是轻。
《教育信息处理》
• 分析与求解：
• 比较12个小球，并判定轻、重，应是12x2种比较当中的一种。在比较的过程中，开始的不确定程度为 log24＝4.585(bit)
《教育信息处理》

C语言求信息熵条件熵联合熵

include<>include<>defineu20inti,j,n,m;floatH_X,H_Y,H_XY,H_XpY,Pypxuu,Pxu,H_YpX,Pyu,Pxpyuu,Pxyuu; /H_X=HX平均自信息；H_XY=HXY联合熵;H_XpY=HX|Y、H_YpX=HY|X条件熵;Pypxij=Pyj|xi条件概率;Pxi=Pxi发xi的概率；H_XpY=HY/X条件熵;Pyj=Pyj收到yj的概率；Pxpyij=Pxi/yj条件概率；Pxyij=Pxiyj联合概率//定义以2为底的对数函数/floatlog2floatx{floatz;z=floatlogx/log2;returnz;}H X函数//求信源熵()floatentropyfloatx,intn{floatz=0;{z+=x+ilog21/x+i;}returnz;}/求联合熵的函数/floatjoint_entropyfloatpu{floatz=0;fori=1;i<=n;i++forj=1;j<=m;j++{z+=pi+jlog21/pi+j;}returnz;}main{floats=0;printf"\npleaseinputthedimensionof'X'and'Y'\n";scanf"%d%d",&n,&m;printf"\nThedimensionofXisn=%d\nThedimensionofYism=%d\nPlea seinputtheconditionprobability:Pyj/xi,",n,m; printf"afteryouinputonenumberpleaseclickthe'enter'\n";/条件概率Pyj/xi赋值/{forj=1;j<=m;j++{printf"Py%d/x%d=",j,i;scanf"%f",&Pypxij;}}printf"pleaseinputPxi:afteryouinputonenumberpleaseclickthe' enter'\n";fori=1;i<=n;i++{printf"Px%d=",i;scanf"%f",&Pxi;}/判断输入X的概率是否正确,不正确则退出程序/fori=1;i<=n;i++{ifPxi<0||Pxi>1{printf"Pleaseinputrightvalueofprobability\n";gotoEnd_exe;}s+=Pxi;}ifs-1s-1>{printf"Pleaseinputtherightvalueofprobability\n";gotoEnd_exe;}fori=1;i<=n;i++{s=0;forj=1;j<=m;j++{s+=Pypxij;}ifs-1s-1> {printf"Pleaseinputtherightvalueofprobability\n"; gotoEnd_exe;}}/计算Pyj=Pyj收到yj的概率；Pxpyij=Pxi/yj条件概率；Pxyij=Pxiyj联合概率/fori=1;i<=n;i++{forj=1;j<=m;j++{Pxyij=PypxijPxi;printf"Px%dy%d=%f\n",i,j,Pxyij;}}forj=1;j<=m;j++{s=0;fori=1;i<=n;i++s+=Pxyij;Pyj=s;printf"Py%d=%f\n",j,Pyj;}fori=1;i<=n;i++{forj=1;j<=m;j++{Pxpyij=Pxyij/Pyj;printf"Px%d/y%d=%f\n",i,j,Pxpyij;}}/结束计算Pyj=Pyj收到yj的概率；Pxpyij=Pxi/yj条件概率；Pxyij=Pxiyj联合概率//输出信源熵()H X/H_X=entropyPx,n;printf"\nTheentropyofX:HX=%f\n",H_X; H_Y=entropyPy,m;printf"\nTheentropyofY:HY=%f\n",H_Y; /输出联合熵/H_XY=joint_entropyPxy;printf"\nThejointentropyofXandY:HXY=%f\n",H_XY;/输出条件熵/H_XpY=H_XY-H_Y;H_YpX=H_XY-H_X;printf"\nTheconditionalentropy:\nHX/Y=%f\t\tHY/X=%f\n",H_Xp Y,H_YpX;End_exe:;}。

信息熵相关知识总结

信息熵相关知识总结前⾔学习决策树时会接触到⼀些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等乱七⼋糟的知识和名字,我本⼈已经记得⼤脑混乱了,还没有全部记住,所以在这⾥记录⼀下.1.信息熵:信息的度量,信息的不确定程度,是乱七⼋糟熵的基础.吴军⼤⼤的数学之美中⽤了猜球队冠军的⽅式引出了信息熵的概念.我觉得这种⽅法印象很深刻,所以在这⾥提出⼀下.如果有32⽀球队,使⽤⼆分查找法去猜哪⽀球队是冠军,如:冠军在1-16号球队内.这样⼀共需要猜5次就可以找到结果,也就是log32=5,但是某些球队的获胜率⼤⼀些,所以它的准确信息量的表⽰应该如下:图1⾹农就称它为信息熵,表⽰信息的不确定程度,不确定性越⼤,信息熵也就越⼤.图1中的p(x)表⽰随机变量x的概率.信息熵H(x)的取值范围:0<=H(x)<=logn,其中n是随机变量x取值的种类数.2.条件熵:有两个随机变量X和Y,在已知Y的情况下,求X的信息熵称之为条件熵:图2其中p(x|y)是已知y求x的条件概率.p(x,y)是联合概率.3.信息增益:表⽰在确定某条件Y后,随机变量X的信息不确定性减少的程度.也称为互信息(Mutual Information).图3它的取值是0到min(H(x),H(y))之间的数值.取值为0时,表⽰两个事件X和Y完全不相关.在决策树中算法中,ID3算法就是使⽤信息增益来划分特征.在某个特征条件下,求数据的信息增益,信息增益⼤的特征,说明对数据划分帮助很⼤,优先选择该特征进⾏决策树的划分,这就是ID3算法.4.信息增益⽐(率):信息增益⽐是信息增益的进化版,⽤于解决信息增益对属性选择取值较多的问题,信息增益率为信息增益与该特征的信息熵之⽐.在决策树中算法中,C4.5算法就是使⽤信息增益⽐来划分特征.公式如下：图4信息熵,条件熵和互信息的关系:图5注:图⽚取⾃不同地⽅,所以符号表⽰不同,请⾃⾏对照,同时信息增益⽐的公式有的⽂章或者书籍分母可能不同.5.相对熵(KL散度):⽤来描述两个概率分布p,q之间的差异(图6),数学之美中介绍是⽤来衡量两个取值为正数函数的相似性(图7)图6图7概念都是⼀样的,所以不需要太在意这两个公式的区别.如果两个函数(分布)完全相同,那么它们的相对熵为0,同理如果相对熵越⼤,说明它们之间的差异越⼤,反之相对熵越⼩,说明它们之间的差异越⼩.需要注意的是相对熵不是对称的,也就是:图8但是这样计算很不⽅便,所以⾹农和杰森(不是郭达斯坦森)提出了⼀个新的对称的相对熵公式:图9上⾯的相对熵公式可以⽤于计算两个⽂本的相似度,吴军⼤⼤在数学之美中介绍,google的问答系统就是⽤图9的公式计算答案相似性的(现在还是不是就不清楚了).6.交叉熵(cross-entropy):我们知道通常深度学习模型最后⼀般都会使⽤交叉熵作为模型的损失函数.那是为什么呢?⾸先我们先将相对熵KL公式(图6)进⾏变换(log中除法可以拆分为两个log相减):图10其中前⼀部分的-H(p(x))是p的熵,后⼀部分就是我们所说的交叉熵.图11损失函数是计算模型预测值和数据真实值之间的相关性,所以可以使⽤相对熵(KL散度)计算,根据图10可以看出,-H(p(x))是不变的,所以我们可以通过计算后⼀部分的交叉熵来求得Loss.所以通常会使⽤交叉熵来作为Loss函数,同理交叉熵越⼩,预测值和真实值之间相似度越⾼,模型越好.注:LR的损失函数就是交叉熵.7.联合熵:联合熵可以表⽰为两个事件X,Y的熵的并集图12它的取值范围是:max(H(x),H(y)) <= H(x,y) <= H(x)+H(y)8.基尼系数(Gini,它属于混进来的):在决策树的CART(分类回归树)中有两类树,⼀是回归树,划分特征使⽤的是平⽅误差最⼩化的⽅法,⼆是分类树,采⽤的就是Gini系数最⼩化进⾏划分数据集.图13其中k为label的种类数.基尼指数越⼤,信息的不确定性越⼤,这与信息熵相同.(CART树是如何使⽤Gini指数的这⾥就不详细介绍了,以后会在决策树中详细介绍的)9.困惑度(perplexity,PPL):在NLP中,通常使⽤困惑度作为衡量语⾔模型好坏的指标.图14其中S为句⼦,N是句⼦中单词的个数,p(wi)代表第i个单词的概率.所以PPL越⼩p(wi)的概率越⾼,则⼀句话属于⾃然语⾔的概率也就越⾼.参考:《数学之美-第⼆版》吴军著《统计学习⽅法》李航著《统计⾃然语⾔处理》宗成庆著。

熵，条件熵，相对熵，互信息的相关定义及公式推导

熵，条件熵，相对熵，互信息的相关定义及公式推导
熵，条件熵，相对熵，互信息的相关定义及公式推导
熵是随机变量不确定性的度量，不确定性越⼤，熵值越⼤，若随机变量退化成定值，熵为0，均匀分布是最不确定的分布。

熵其实定义了⼀个函数(概率分布函数)到⼀个值(信息熵)的映射。

熵的定义公式如下：
在经典熵的定义中，底数是2，此时熵的单位是bit，若底数是e，则熵的单位是nat(奈特)
两个随机变量X, Y的联合分布，可以形成联合熵Joint Entropy，⽤H(X,Y)表⽰，那么我们不禁要问：H(X,Y) - H(Y)代表什么呢？
事实上，(X,Y)发⽣所包含的熵，减去Y单独发⽣包含的熵，在Y发⽣的前提下，X发⽣的新带来的熵。

于是有了条件熵：H(X|Y)的定义：
下⾯是条件熵的推导公式：
相对熵，⼜称为互熵，交叉熵，鉴别信息，KL散度，假设p(x), q(x)是X中取值的两个概率分布，则p对q的相对熵是：
对于相对熵，可以度量两个随机变量的距离，⼀般的p对q的相对熵和q对p的相对熵不相等。

对于已知的随机变量p，要使得相对简单的随机变量q，尽量接近p，那么我们可以采⽤相对熵进⾏求解：
假定使⽤KL(Q||P)，为了让距离最⼩，则要求在P为0的地⽅，Q尽量为0。

会得到⽐较“窄”的分布曲线；
假定使⽤KL(P||Q)，为了让距离最⼩，则要求在P不为0的地⽅，Q也尽量不为0。

会得到⽐较“宽”的分布曲线；
互信息
两个随机变量X，Y的互信息，定义为X，Y的联合分布和独⽴分布乘积的相对熵。

对于互信息，我们可以有如下的推导公式：。

联合熵推导

联合熵推导联合熵是信息论中用来衡量多个随机变量之间关联程度的指标。

它是熵的一个扩展，可以帮助我们理解和量化多个随机变量之间的信息传递和依赖关系。

1. 信息熵回顾在介绍联合熵之前，我们先来回顾一下信息熵的概念。

信息熵是用来衡量一个随机变量的不确定性的度量方式。

对于一个离散型随机变量X ，其信息熵H(X)的定义如下：H (X )=−∑P ni=1(x i )logP (x i )其中，x i 表示X 的取值，P (x i )表示X 取值为x i 的概率。

信息熵越高，表示随机变量的不确定性越大。

2. 联合熵的定义现在我们考虑两个随机变量X 和Y ，它们的联合概率分布为P(X =x i ,Y =y j )。

联合熵H(X, Y)的定义如下：H (X,Y )=−∑∑P mj=1n i=1(x i ,y j )logP(x i ,y j )其中，x i 和y j 分别表示X 和Y 的取值，P(x i ,y j )表示X 取值为x i 且Y 取值为y j 的联合概率。

联合熵可以看作是在考虑了两个随机变量之间的关联情况下的不确定性度量。

如果X 和Y 相互独立，那么联合熵就等于各自的熵的和。

如果X 和Y 之间存在依赖关系，那么联合熵就小于各自的熵的和。

3. 联合熵的性质联合熵具有以下性质：•非负性：联合熵始终大于等于零，即H (X,Y )≥0。

•对称性：H (X,Y )=H (Y,X )，即X 和Y 的顺序不影响联合熵的值。

• 条件熵的性质：联合熵可以通过条件熵来计算，即H (X,Y )=H (X )+H (Y|X )。

其中，H (Y|X )表示在已知X 的条件下，Y 的不确定性。

4. 联合熵的应用联合熵在信息论和统计学中有着广泛的应用。

以下是一些常见的应用场景：4.1. 信息传输在通信领域中，联合熵可以用来衡量信道中的信息容量。

通过计算发送方和接收方之间的联合熵，可以确定在给定信道条件下的最大可靠传输速率。

4.2. 数据压缩联合熵可以用来评估数据的冗余度。

2.3二元联合信源的联合熵与条件熵

2.3二元联合信源的联合熵（共熵）与条件熵讨论两个信源的情况。

如前所述，信源的概率空间为：⎥⎦⎤⎢⎣⎡)(Xp X 类似地信源的概率空间为：⎥⎦⎤⎢⎣⎡)(Y p Y 这两个信源，即二元联合信源的概率空间，可以由其联合概率空间来描述。

2.3.1共熵研究二元联合信源的熵即共熵。

二元联合信源的共熵可以按照单信源熵的定义写出：∑∑==-=ni mj xiyj lbp xiyj p XY H 11)()()(研究单信源熵与联合概率的关系.2.3.2条件熵条件熵不能由单信源熵定义直接写出，而是由其共熵导出。

H(XY)=H(X)+H(Y/X) (2.3.3)二元联合信源的共熵还可以写成：H(XY)=H(Y)+H(X/Y)(2.3.4)[例2.3.1]仍以[例2.1.5]为例验证式（2.3.3），（2.3.4）的正确性。

推论１：推论２：[例2.3.2]有一离散信源具有三个消息A、B、C，发出的消息序列前后符号具有相关性，其中相关性可用下表中的条件概率来描述，求该离散信源的熵。

某地二月份天气构成的信源为现有人告诉你:“今天不是晴天。

”，把这句话作为收到的消息y1。

当收到消息y1 后，各种天气发生的概率变成后验概率了。

其中计算与各种天气之间的互信息量。

各种熵之间的关系⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧=⎥⎦⎤⎢⎣⎡81,81,41,21)(),(),(),()(4321雪雨阴晴x x x x X P X 41)/(;41)/(;21)/(;0)/(14131211====y x p y x p y x p y x p 互信息量为负值的不确定度更大反而使的不确定度减少不仅没有使后说明收到消息比特的不确定度各减少了使也可理解为消息比特的信息量各分别得到了这表明从同理对天气信息量之间与不必再考虑对天气→-∞========∴=。

x ，x ，y bit x p y x p y x I 。

，x x ，x y ，，x ，x x y bit y x I y x I bit x p y x p y x I x 。

熵概念

二.联合熵
如果X，Y是一对离散型随机变量X，Y~p(x,y)， X，Y的联合熵(joint entropy)H(X,Y)定义为: H(X,Y)=- p(x,y)logp(x,y)
xX yY
联合熵实际上就是描述一对随机变量平均所需要的信息量。
三.条件熵
给定随机变量X的情况下，随机变量Y的条件熵(conditional entropy)为： H(Y | X ) p( x) H (Y | X x) p ( x)[ p ( y | x) log p ( y | x)]
xX yY
p( x, y )[log p( x) log p( y | x)]
xX yY
p( x, y ) log p( x) p( x, y ) log p( y | x)
xX yY xX yY
p( x) log p( x) p( x, y ) log p( y | x)
概念及定义
一．熵二．联合熵三．条件熵四．相对熵五．互信息六．最大熵
一 .熵
如果X是一个离散型随机变量，取值空间为R，概率分布为p(x)=P(X=x),x R。那么，X的熵H(X)为： H(X)=- p( x) log 2 p( x)
xR
熵又称为自信息，可以视为描述一个随机变量的不确定性。一个随机变量的熵越大，它的不确定性越大，正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量来确定其值。
x X yY xX
p ( x, y ) log p( y | x)
x X yY
X 加进来之后，等于引入了知识，能减小Y的不确定性。所以知识能减小熵。
ห้องสมุดไป่ตู้

详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵原⽂地址：1、信息熵 (information entropy)熵 (entropy) 这⼀词最初来源于热⼒学。

1948年，克劳德·爱尔伍德·⾹农将热⼒学中的熵引⼊信息论，所以也被称为⾹农熵 (Shannon entropy)，信息熵 (information entropy)。

本⽂只讨论信息熵。

⾸先，我们先来理解⼀下信息这个概念。

信息是⼀个很抽象的概念，百度百科将它定义为：指⾳讯、消息、通讯系统传输和处理的对象，泛指⼈类社会传播的⼀切内容。

那信息可以被量化么？可以的！⾹农提出的“信息熵”概念解决了这⼀问题。

⼀条信息的信息量⼤⼩和它的不确定性有直接的关系。

我们需要搞清楚⼀件⾮常⾮常不确定的事，或者是我们⼀⽆所知的事，就需要了解⼤量的信息。

相反，如果我们对某件事已经有了较多的了解，我们就不需要太多的信息就能把它搞清楚。

所以，从这个⾓度，我们可以认为，信息量的度量就等于不确定性的多少。

⽐如，有⼈说⼴东下雪了。

对于这句话，我们是⼗分不确定的。

因为⼴东⼏⼗年来下雪的次数寥寥⽆⼏。

为了搞清楚，我们就要去看天⽓预报，新闻，询问在⼴东的朋友，⽽这就需要⼤量的信息，信息熵很⾼。

再⽐如，中国男⾜进军2022年卡塔尔世界杯决赛圈。

对于这句话，因为确定性很⾼，⼏乎不需要引⼊信息，信息熵很低。

其中负号是⽤来保证信息量是正数或者零。

⽽ log 函数基的选择是任意的（信息论中基常常选择为2，因此信息的单位为⽐特bits；⽽机器学习中基常常选择为⾃然常数，因此单位常常被称为奈特nats）。

I(x) 也被称为随机变量 x 的⾃信息 (self-information)，描述的是随机变量的某个事件发⽣所带来的信息量。

图像如图：H(X) 就被称为随机变量 x 的熵,它是表⽰随机变量不确定的度量，是对所有可能发⽣的事件产⽣的信息量的期望。

从公式可得，随机变量的取值个数越多，状态数也就越多，信息熵就越⼤，混乱程度就越⼤。

信息论联合熵和损失熵-概述说明以及解释

信息论联合熵和损失熵-概述说明以及解释1.引言1.1 概述信息论是一门研究信息传输和处理的学科，它是由克劳德·香农在20世纪40年代提出的。

信息论的核心概念是信息熵，它描述了信息的不确定性和信息的平均量。

在信息论中，除了信息熵，还有联合熵和条件熵等重要概念。

联合熵指的是多个随机变量一起产生的信息量的平均值，它可以衡量多个随机变量之间的不确定性。

条件熵则是在已知某些信息的条件下，另一随机变量的不确定性。

联合熵和条件熵在信息理论中有着重要的应用，可以帮助我们理解信息的传输、数据的压缩以及通信系统的设计等方面。

本文将深入探讨信息论中的联合熵和损失熵的概念，并分析它们在信息传输和处理过程中的作用。

通过对这些概念的研究，我们可以更好地理解信息的特性，提高信息传输的效率，以及优化数据处理的方法。

1.2 文章结构文章结构部分的内容:本文将分为引言、正文和结论三个部分进行阐述。

在引言部分中，将概述信息论的基本概念，并介绍本文的结构和目的。

在正文部分，将首先介绍信息论的基础知识，包括信息论的概念、信息熵等内容。

接着会详细探讨联合熵的重要性，包括联合熵的定义与计算、应用以及与信息传输的关系。

最后，将讨论损失熵的概念与应用，包括损失熵的定义、在数据压缩中的作用以及与信息传输的关联。

在结论部分，将对信息论中的联合熵和损失熵进行总结，并提出未来的研究方向和结论。

整体结构清晰，逻辑性强，有助于读者更好地理解信息论中的重要概念。

1.3 目的本文旨在深入探讨信息论中的联合熵和损失熵这两个重要概念。

通过对联合熵和损失熵的定义、计算方法以及在信息理论中的应用进行详细分析，旨在帮助读者更好地理解信息熵的概念，并掌握其在数据处理和信息传输中的作用。

同时，本文也将探讨联合熵和损失熵在数据压缩、信息传输等领域的应用，以及它们与信息传输过程中的关联，从而为读者深入理解信息论的基础知识提供有益的参考和指导。

通过本文的学习，读者可以更好地应用信息论原理解决实际问题，提高信息处理和传输的效率和准确性。

机器学习中各种熵的定义及理解

机器学习中各种熵的定义及理解机器学习领域有⼀个⼗分有魅⼒的词：熵。

然⽽究竟什么是熵，相信多数⼈都能说出⼀⼆，但⼜不能清晰的表达出来。

⽽笔者对熵的理解是：“拒绝学习、拒绝提升的⼈是没有未来的，也只有努⼒才能变成⾃⼰想成为的⼈”。

下图是对熵的⼀个简单描述：熵可以理解为是⼀种对⽆序状态的度量⽅式。

那么熵⼜是如何被⽤在机器学习中呢？在机器学习领域中，量化与随机事件相关的预期信息量以及量化概率分布之间的相似性是常见的问题。

针对这类问题，利⽤⾹农熵以及衍⽣的其他熵概念去度量概率分布的信息量是个很好的解决⽅案。

本⽂会尽可能⽤简单的描述分享⾃⼰对各种熵的定义及理解，欢迎交流讨论。

1. ⾃信息⾃信息⼜称信息量。

“陈⽻凡吸毒？！⼯作室不是刚辟谣了吗？哇！信息量好⼤！”在⽣活中，极少发⽣的事情最容易引起吃⽠群众的关注。

⽽经常发⽣的事情则不会引起注意，⽐如吃⽠群众从来不会去关系明天太阳会不会东边升起。

也就是说，信息量的多少与事件发⽣概率的⼤⼩成反⽐。

对于已发⽣的事件i，其所提供的信息量为：其中底数通常为2，负号的⽬的是为了保证信息量不为负。

事件i发⽣的概率与对应信息量的关系如下所⽰：我们再考虑⼀个问题：假设事件x个可能的状态，例如⼀枚硬币抛出落地后可能有两种状态，正⾯或反⾯朝上，这时候该怎样取衡量事件所提供的信息量？2. 信息熵信息熵⼜称⾹农熵。

到⽬前为⽌，我们只讨论了⾃信息。

实际上，对于⼀枚硬币来讲，⾃信息实际上等于信息熵，因为⽆论正反⾯，朝上的概率都相等。

信息熵⽤来度量⼀个事件可能具有多个状态下的信息量，也可以认为是信息量关于事件概率分布的期望值：其中事件x共有n个状态，i表⽰第i个状态，底数b通常设为2，也可设为10或e。

H(x)表⽰⽤以消除这个事件的不确定性所需要的统计信息量，即信息熵。

还是以抛硬币为例来理解信息熵：事件概率信息量（⾃信息）信息熵（统计信息量）正⾯朝上1/2-log(1/2)(-1/2 * log(1/2))+( -1/2 * log(1/2))反⾯朝上1/2-log(1/2)(-1/2 * log(1/2))+( -1/2 * log(1/2))根据信息熵公式可得出以下结论：1. 若事件x个状态发⽣概率为1，那么信息熵H(x)等于02. 若事件x的所有状态n发⽣概率都⼀致，即都为1/n，那么信息熵H(x)有极⼤值logn。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第6讲联合熵与条件熵
信息熵H(X)反映了随机变量X 的取值不确定性。

当X 是常量时，其信息
熵最小，等于0；当X 有n 个取值时，当且仅当这些取值的机会均等时，信息
熵H(X)最大，等于log n 比特。

我们拓展信息熵H(X)的概念，考虑两个随机
变量X 和Y 的联合熵H(XY)和条件熵H(Y|X)。

1. 联合熵
设X ，Y 是两个随机变量，则(X,Y)是二维随机变量，简写为XY 。

二维随机变量XY 的联合概率分布记为p (xy )，即
根据信息熵的定义可知，XY 的信息熵为
定义 1.1 二维随机变量XY 的信息熵H(XY)称为X 与Y 的联合熵（joint
entropy ）。

它反映了二维随机变量XY 的取值不确定性。

我们把它理解为X 和Y 取值的
总的不确定性。

练习：
假设有甲乙两只箱子，每个箱子里都存放着100个球。

甲里面有红蓝色球
各50个，乙里面红、蓝色的球分别为99个和1个。

试计算H(XY)
我们将联合熵概念推广到任意多离散型随机变量上。

定义1.2 一组随机变量12,,,N X X X L 的联合熵定义为
注：为了简化记号，我们有时把12N X X X L 记为X N ，把12N x x x L 记为x N 。

物理意义：
（1）12()N X H X X L 是这一组随机变量平均每一批取值
所传递的信息量。

（2）若N-维随机变量12N X X X L 表示某信源产生的任意一条长度为N 的消息，
则12()N X H X X L 是平均每条长度为N 的消息的信息量。

因此，若该信源产生一
个长度为N 的消息，则在不知道其它条件的情况下，对该消息所含信息量的最
优估计为N-维信息熵12()N X H X X L 。

联合熵的性质：
联合熵熵函数的一种特殊形式，所以熵函数的任何数学性质都适用于联合
熵，包括：非负性、可加性、严格上凸性和最大离散熵原理，等等。

当然，联合熵还有自己的特殊性质。

定理1.4（联合熵的独立界）2121()()()()N N H X X H X H X H X X ≤+++L L
其中等号成立的充要条件是所有随机变量相互独立。

证明：这里仅证明()()()H Y X X H H Y ≤+，一般情形可类似证明。

设对于XY 的联合分布为p (xy )，X 和Y 的概率分布简记为p (x )，p (y )。

由于
我们有
注意，()()p x p y 构成一个概率分布。

应用信息不等式可得
其中等号成立的充要条件是()()()p xy p x p y =，即X 与Y 相互独立。

证毕
2. 条件熵条件自信息：1(|)log (|)
I y x p y x = 对于任何取值x ，|Y X x =是一个带条件的随机变量，其信息熵为
再对所有x 求熵的平均值可得如下条件熵：
定义2.1 设X ,Y 是两个离散型随机变量，联合分布为p (xy )。

X 相对于Y 的条件
熵H (X|Y )
定义为条件自信息I (X|Y )的期望，即
物理意义：H (X|Y )表示在已知Y 取值的前提下，X 取值的不确定性，亦即X 的
每个取值平均所提供的与Y 无关的信息量。

定理2.2（条件熵非负性）对于任何离散型随机变量X 与Y ，都有H(Y|X) ≥0，
其中等号成立当且仅当Y 是X 的函数，即X 的取值可确定Y 的取值。

证明根据定义
由于上述加式中各加项都≤0，所以该加式=0的充要条件是各加项=0，即对于任何x和y，p(y|x)=1或者p(y|x)=0，亦即对于任何x，P(Y|x)是退化分布。

这表明当X的取值确定时，Y的取值随即确定，即Y是X的函数。

证毕
定理2.3（熵的链法则）对于随机变量序列X1,X2,…和任何N≥1
简记为
其中H1=H(X1)，H2=H( X2|X1)，…，H N=H(X N|X1X2…X N-1)。

证明：首先根据定义直接可得
H(XY)= H(X)+H(Y|X)
应用上述等式，对N用归纳法可证明熵的链法则。

细节略。

证毕
意义：将多个随机变量的联合熵转化为这些随机变量的条件熵之和，可简化计算。

注：链法则与熵的可加性是等价的。

思考：
下列不等式是否成立，其中各等号成立的充要条件是什么？
这个性质说明什么？请读者尝试命名该性质。

定理2.4（条件熵递减性）对于任何随机变量X和Y，有
H(Y|X)≤ H(Y)
其中等号成立的充要条件是Y与X相互独立。

证明一：根据链法则，
H(XY)=H(X)+H(Y|X)
再根据联合熵的独立界定理，立刻可得
H (Y |X )≤ H (Y )
其中等号成立的充要条件是
X 与Y 统计独立。

证毕
在条件熵中，条件越少，熵值越大。

相反，条件越多，熵值越小。

这可理解为，我们知道的越多，则事物的不确定性越小。

证明二：应用Jessen 不等式证明。

证毕
3. 计算公式
令X ，Y 为离散的随机变量。

证明：
证毕
例3.1 设()(0.4,0.6)P X =且
则
记号：以后对于任何N ，我们将N 维随机向量X 1,X 2,…X N 简记为X N 。

注：上述条件熵概念可以推广到多个随机变量熵，例如
H (Y|X 1X 2 …X N )
是在已知随机向量X 1,X 2,…X N 取值的前提下，随机变量Y 的不确定性，亦即Y 的每个取值可以提供的与X 1,X 2,…X N 取值无关的新信息量。

练习3.2设p(xy)如下表所示。

试计算
(1) H(XY) (2) H(X), H(Y)
(3) H(X|Y), H(Y|X)
练习3.3 已知平均100人中有2人患有某种疾病，为了查明病情，必须进行某项指标的化验。

这种化验的结果对于有病的人总是阳性的，对于健康的人来说有一半可能为阳性、一半可能为阴性。

若X 表示一个人是否罹患这种疾病，Y 表示其化验结果是否为阳性，试计算H(XY)。

作业5
1. 范九伦等所著教材第38页习题（三）
设X 和Y 的联合分布(,)u x y 由下表给出：
.
试计算(),(),(),(|),(|),(;)H X H Y H XY H Y X H X Y I X Y
2. 设一个信源有6种信号，先后输出的信号是独立同分布的，其概率分布为 (1/2, 1/4, 1/8, 1/16, 1/32, 1/32)
（1）该信源输出1个符号所提供的平均信息量。

（2）该信源输出100个符号所提供的平均信息量。

3. 在一段时间内，某城市交通的忙闲天数按天气阴晴和气温冷暖进行分类统计如下：
（1）计算交通忙闲状态的无条件熵。

（2）计算天气和气温状态下的条件熵。

（3）计算从天气和气温状态所获得的关于交通状态的信息。

4. 世界职业棒球锦标赛为7场赛制，只要其中一队赢得4场，比赛就结束。

设随机变量X 代表在比赛中A 队和B 队较量的可能结果。

X 的可能取值为AAAA ，BABABAB 和BBBAAAA ，其中A,B 分别表示A 队和B 对获胜。

设Y 代表比赛的场数，取值范围为4到7。

假设A 队和B 队是同等水平的，且每场比赛相互独立。

试计算H(X)，H(Y), H(Y|X)和H(X|Y)。

晴
阴暖 8忙
冷 27
暖
16晴阴
暖 15闲冷 4暖 12冷 12冷 8。