第讲联合熵与条件熵

合集下载

信源熵

信源熵

I ( y j ) I ( y j | xi ) I ( y j )
19
条件互信息量
条件互信息量: 在给定 zk 的条件下,xi 与 y j 之间的互信
I ( xi ; y j ) 0 后验概率 先验概率,X 与 Y 统计独立
I ( xi ; y j ) 0 后验概率 先验概率:由于信道受到干扰, 信宿收到 y j 后不但未使 xi 的不确定度 减少,反而增大了 xi 的不确定度 两个消息之间的互信息不大于其中任一消息的自信息 I ( xi ; y j ) I ( xi ) I ( x i | y j ) I ( x i )
符号从平均意义上表征信源总体特性的一个量对于特定的信源其熵只有一个1log?niiipxpx????1logniiipxpx????信息熵的物理含义信源输出前表征信源的平均不确定度信源输出后表征信源发出的每个消息所能提供的平均信息量是一个统计量反映了随机变量x的随机性22统计热力学中熵是表示分子混乱程度的一个物理量在孤立系统中进行的自发过程总是沿着熵增加的方向进行它是不可逆的平衡态相应于熵取最大值的状态即熵增加原理香农借用热力学中熵来描述信源的平均不确定度在信息论中有用的信息熵只会减少不会增加所以信息熵也被称为负热熵ijxyxy
2
信源的分类
信源输出以符号形式出现的具体消息,其分类如下: 按发送消息的时间和取值空间的分布 离散信源 单符号离散信源 连续信源 信源发出的 按发出符号之间的关系 消息是离散的、 无记忆信源 有限的或无限可 列的符号,且一 有记忆信源 个符号代表一条 按发送一条消息所需要的符号数 完整的消息 单个符号信源 符号序列信源
三种表达形式等效
log log p( x i y j ) p( x i ) p( y j ) p( y j | x i ) p( y j )

用直观的语言解释联合熵的链式法则

用直观的语言解释联合熵的链式法则

用直观的语言解释联合熵的链式法则
联合熵是一种衡量多个随机变量关联程度的度量。

它与条件熵类似,但是它涉及到多个随机变量。

联合熵的链式法则是一种用来计算联合熵的方法,它的定义如下:如果有两个随机变量X 和Y,并且知道它们的联合概率分布P(X,Y),则联合熵可以表示为:
H(X,Y) = - ∑P(X,Y) * log P(X,Y)
联合熵的链式法则则是:如果有三个随机变量X、Y 和Z,并且知道它们的联合概率分布P(X,Y,Z),则可以使用以下公式表示联合熵:
H(X,Y,Z) = H(X,Y) + H(Y,Z|X) + H(X,Z|Y)
这个式子可以理解为:联合熵H(X,Y,Z) 可以表示为X 和Y 的联合熵H(X,Y) 加上Y 和Z 的条件熵H(Y,Z|X) 加上X 和Z 的条件熵H(X,Z|Y)。

联合熵的链式法则是用来表示多个随机变量之间关系的有用工具。

例如,如果你想了解三个变量之间的关系,你可以使用联合熵的链式法则来计算它们之间的联合熵,并使用这个值来评估它们之间的关系。

信息论重点 (新)

信息论重点 (新)

1.消息定义信息的通俗概念:消息就是信息,用文字、符号、数据、语言、音符、图片、图像等能够被人们感觉器官所感知的形式,把客观物质运动和主观思维活动的状态表达出来,就成为消息,消息中包含信息,消息是信息的载体。

信号是表示消息的物理量,包括电信号、光信号等。

信号中携带着消息,信号是消息的载体。

信息的狭义概念(香农信息):信息是对事物运动状态或存在方式的不确定性的描述。

信息的广义概念 信息是认识主体(人、生物、机器)所感受的和表达的事物运动的状态和运动状态变化的方式。

➢ 语法信息(语法信息是指信息存在和运动的状态与方式。

) ➢ 语义信息(语义信息是指信宿接收和理解的信息的内容。

) ➢ 语用信息(语用信息是指信息内容对信宿的有用性。

)2.狭义信息论、广义信息论。

狭义信息论:信息论是在信息可以量度的基础上,对如何有效,可靠地传递信息进行研究的科学。

它涉及信息量度,信息特性,信息传输速率,信道容量,干扰对信息传输的影响等方面的知识。

广义信息论:信息是物质的普遍属性,所谓物质系统的信息是指它所属的物理系统在同一切其他物质系统全面相互作用(或联系)过程中,以质、能和波动的形式所呈现的结构、状态和历史。

包含通信的全部统计问题的研究,除了香农信息论之外,还包括信号设计,噪声理论,信号的检测与估值等。

3.自信息 互信息 定义 性质及物理意义 自信息量: ()log ()i x i I x P x =-是无量纲的,一般根据对数的底来定义单位:当对数底为2时,自信息量的单位为比特;对数底为e 时,其单位为奈特;对数底为10时,其单位为哈特自信息量性质:I(x i )是随机量;I(x i )是非负值;I(x i )是P(x i )的单调递减函数。

自信息物理意义: 1.事件发生前描述该事件发生的不确定性的大小 2.事件发生后表示该事件所含有(提供)的信息量 互信息量:互信息量的性质:1) 互信息的对称性2) 互信息可为零3) 互信息可为正值或负值4) 任何两个事件之间的互信息不可能大于其中任一事件的自信息互信息物理意义: 1.表示事件 yj 出现前后关于事件xi 的不确定性减少的量 2.事件 yj 出现以后信宿获得的关于事件 xi 的信息量4.平均自信息性质 平均互信息性质平均自信息(信息熵/信源熵/香农熵/无条件熵/熵函数/熵):(;)()(|)i j i i j I x y I x I x y =-log ()log (|)(1,2,,;1,2,,)i i jp x p x y i n j m =-+=⋯=⋯(|)log ()i j i p x y p x =1()[()][log ()]()log ()ni i i i i H X E I x E p x p x p x ===-=-∑熵函数的数学特性包括:(1)对称性 p =(p1p2…pn)各分量次序可调换 (2)确定性p 中只要有为1的分量,H(p )为0(3)非负性离散信源的熵满足非负性,而连续信源的熵可能为负。

信息论第2章(2010)

信息论第2章(2010)

ai 后所获得的信息量。
自信息量的性质:
1)非负性。 2) 单调递减性。 3) 可加性。
I xi ,y j log pxi ,y j
若两个符号x i , y j同时出现,可用联合概率px i , y j 来表示 这时的自信息量为 I y j I xi | y j
例题:二元信源,每个符号发生的概率分别为p(x1)=p,p(x2)=1-p. 试计算信源熵,并画出熵函数H(p)和p的曲线图。
① 等概时(p=0.5):随机变量具有最大的不确定性
② p=0或1时:随机变量的不确定性消失。
信息熵的物理意义
1)表示了信源输出前,信源的平均不确定性。 2)表示了信源输出后,每个消息或符号所提供的 平均信息量。 3)信息熵反映了变量X的随机性。
平均自信息量H (X ) 表示信源输出消息中的每个符号所含信息量的统计 平均值,其表达式为 q
H ( X ) EI ( xi ) P( xi ) log P( xi )
i 1
式中, E 表示统计平均,
I ( xi ) 表示符号 x i 包含的自信息量。
平均信息量可以表示为:
任何一个物理量的定义都应当符合客观规律和逻辑上 的合理性,信息的度量也不例外。直观经验告诉我们: ① 消息中的信息量与消息发生的概率密切相关:出现消 息出现的可能性越小,则消息携带的信息量就越大。 ② 如果事件发生是必然的(概率为1),则它含有的信息 量应为零。如果一个几乎不可能事件发生了(概率趋 于0),则它含有巨大的信息量。 ③ 如果我们得到不是由一个事件而是由若干个独立事件 构成的消息,那么我们得到的信息量就是若干个独立 事件的信息量的总和。
② 联合信源中平均每个符号对所包含的信息量?

信息论第一章

信息论第一章

Tianjin Polytechnic University
自信息量 ①自信息量
单符号离散信源的数学模型
信源的描述方法 单符号离散信源 单符号离散信源的数学模型

Company Logo
Tianjin Polytechnic University
单符号离散信源的数学模型
Tianjin Polytechnic University
例题
例题:写出相应的数学模型 (1)某二元信源只含有0和1两个消息,发送1的概率是 0.99,而发送0的概率是0.01 解:
X 1 P ( X ) 0.99 0 0.01
(2)某二元信源只含有0和1两个消息,发送1和0的概率 均是0.5
自信息的定义
若噪声太大, 信宿收到受干扰的信息后,对某信息 产生的不确定性依然存在或一点也未消除,则信宿 获得较少的信息或者说一点也没有获得信息.
自信息 I ( xi ) 的定义: 信源中某个符号 x i 的出现所带来的信息量
Tianjin Polytechnic University
自信息的定义
1 2 9 X 0 P ( X ) 0.1 0.1 0.1 0.1
(4)信源只发送一种消息,即永远发送1或者永远发送0
X 0 P ( X ) 1 X 1 或 P ( X ) 1

其不确定性 I ( xi )
Tianjin Polytechnic University
自信息的定义
自信息 I ( xi ) 满足以下几条公理:
(4)可加性:若
p( xi y j ) p( xi ) p( y j )
I ( xi y j ) I ( xi ) I ( y j )

信息熵相关知识总结

信息熵相关知识总结

信息熵相关知识总结前⾔学习决策树时会接触到⼀些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等乱七⼋糟的知识和名字,我本⼈已经记得⼤脑混乱了,还没有全部记住,所以在这⾥记录⼀下.1.信息熵:信息的度量,信息的不确定程度,是乱七⼋糟熵的基础.吴军⼤⼤的数学之美中⽤了猜球队冠军的⽅式引出了信息熵的概念.我觉得这种⽅法印象很深刻,所以在这⾥提出⼀下.如果有32⽀球队,使⽤⼆分查找法去猜哪⽀球队是冠军,如:冠军在1-16号球队内.这样⼀共需要猜5次就可以找到结果,也就是log32=5,但是某些球队的获胜率⼤⼀些,所以它的准确信息量的表⽰应该如下:图1⾹农就称它为信息熵,表⽰信息的不确定程度,不确定性越⼤,信息熵也就越⼤.图1中的p(x)表⽰随机变量x的概率.信息熵H(x)的取值范围:0<=H(x)<=logn,其中n是随机变量x取值的种类数.2.条件熵:有两个随机变量X和Y,在已知Y的情况下,求X的信息熵称之为条件熵:图2其中p(x|y)是已知y求x的条件概率.p(x,y)是联合概率.3.信息增益:表⽰在确定某条件Y后,随机变量X的信息不确定性减少的程度.也称为互信息(Mutual Information).图3它的取值是0到min(H(x),H(y))之间的数值.取值为0时,表⽰两个事件X和Y完全不相关.在决策树中算法中,ID3算法就是使⽤信息增益来划分特征.在某个特征条件下,求数据的信息增益,信息增益⼤的特征,说明对数据划分帮助很⼤,优先选择该特征进⾏决策树的划分,这就是ID3算法.4.信息增益⽐(率):信息增益⽐是信息增益的进化版,⽤于解决信息增益对属性选择取值较多的问题,信息增益率为信息增益与该特征的信息熵之⽐.在决策树中算法中,C4.5算法就是使⽤信息增益⽐来划分特征.公式如下:图4信息熵,条件熵和互信息的关系:图5注:图⽚取⾃不同地⽅,所以符号表⽰不同,请⾃⾏对照,同时信息增益⽐的公式有的⽂章或者书籍分母可能不同.5.相对熵(KL散度):⽤来描述两个概率分布p,q之间的差异(图6),数学之美中介绍是⽤来衡量两个取值为正数函数的相似性(图7)图6图7概念都是⼀样的,所以不需要太在意这两个公式的区别.如果两个函数(分布)完全相同,那么它们的相对熵为0,同理如果相对熵越⼤,说明它们之间的差异越⼤,反之相对熵越⼩,说明它们之间的差异越⼩.需要注意的是相对熵不是对称的,也就是:图8但是这样计算很不⽅便,所以⾹农和杰森(不是郭达斯坦森)提出了⼀个新的对称的相对熵公式:图9上⾯的相对熵公式可以⽤于计算两个⽂本的相似度,吴军⼤⼤在数学之美中介绍,google的问答系统就是⽤图9的公式计算答案相似性的(现在还是不是就不清楚了).6.交叉熵(cross-entropy):我们知道通常深度学习模型最后⼀般都会使⽤交叉熵作为模型的损失函数.那是为什么呢?⾸先我们先将相对熵KL公式(图6)进⾏变换(log中除法可以拆分为两个log相减):图10其中前⼀部分的-H(p(x))是p的熵,后⼀部分就是我们所说的交叉熵.图11损失函数是计算模型预测值和数据真实值之间的相关性,所以可以使⽤相对熵(KL散度)计算,根据图10可以看出,-H(p(x))是不变的,所以我们可以通过计算后⼀部分的交叉熵来求得Loss.所以通常会使⽤交叉熵来作为Loss函数,同理交叉熵越⼩,预测值和真实值之间相似度越⾼,模型越好.注:LR的损失函数就是交叉熵.7.联合熵:联合熵可以表⽰为两个事件X,Y的熵的并集图12它的取值范围是:max(H(x),H(y)) <= H(x,y) <= H(x)+H(y)8.基尼系数(Gini,它属于混进来的):在决策树的CART(分类回归树)中有两类树,⼀是回归树,划分特征使⽤的是平⽅误差最⼩化的⽅法,⼆是分类树,采⽤的就是Gini系数最⼩化进⾏划分数据集.图13其中k为label的种类数.基尼指数越⼤,信息的不确定性越⼤,这与信息熵相同.(CART树是如何使⽤Gini指数的这⾥就不详细介绍了,以后会在决策树中详细介绍的)9.困惑度(perplexity,PPL):在NLP中,通常使⽤困惑度作为衡量语⾔模型好坏的指标.图14其中S为句⼦,N是句⼦中单词的个数,p(wi)代表第i个单词的概率.所以PPL越⼩p(wi)的概率越⾼,则⼀句话属于⾃然语⾔的概率也就越⾼.参考:《数学之美-第⼆版》吴军著《统计学习⽅法》李航著《统计⾃然语⾔处理》宗成庆著。

条件熵与相对熵

条件熵与相对熵

条件熵与相对熵
条件熵和相对熵是信息论中的两个重要概念,它们都用于度量信息的不确定性或随机变量的不确定性。

条件熵是在某个给定条件下,随机变量熵的大小。

具体来说,条件熵是条件概率分布的熵对某个随机变量的期望。

它可以用来衡量在已知某个随机变量的条件下,另一个随机变量的不确定性。

条件熵的计算公式为H(Y|X) = H(X,Y) - H(X),其中H(X,Y)表示随机变量X和Y的联合熵,H(X)表示随机变量X的熵。

相对熵(也称为Kullback-Leibler散度或信息散度)是两个概率分布之间差异的非对称性度量。

它可以用来衡量两个概率分布之间的相似性或差异性。

如果两个概率分布相同,相对熵为0;如果两个概率分布完全不同,相对熵最大。

相对熵的计算公式为DKL(P||Q) = ∑p(x)log(p(x)/q(x)),其中P和Q是两个概率分布,p(x)和q(x)分别是P和Q的概率质量函数或概率密度函数。

条件熵和相对熵在信息论、机器学习和数据压缩等领域中有广泛的应用。

例如,在最大熵模型中,条件熵被用作模型输出的不确定性度量;在自然语言处理中,相对熵被用来衡量两个语言模型之间的相似性;在图像处理中,相对熵被用来实现图像的压缩和去噪等。

2.2熵函数的性质

2.2熵函数的性质

2.2 熵函数的性质熵函数•H(P)是概率矢量P 的函数,称为熵函数。

•表示方法:–用H(x)表示随机变量x 的熵;–用H(P)或H(p 1, p 2 , …, p q )表示概率矢量为P = (p 1, p 2, …, p q )的q 个符号信源的熵。

–若当q =2 时,因为p 1+p 2 = 1, 所以将两个符号的熵函数写成H(p 1)或H(p 2)。

•熵函数H(P)是一种特殊函数,具有以下性质。

2、确定性:H(1,0)=H(1,0,0)=H(1,0,0…,0)=0•性质说明:这个信源是一个确知信源,其熵等于零。

3、非负性:H(P) ≥0•说明:–这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。

以后可看到在相对熵的概念下,可能出现负值。

非负性体现信息是非负的。

4、扩展性•性质说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。

),...,,(),,...,,(lim 212110q q q q p p p H p p p H =−+→εεε),,,(log 211q q qi i i p p p H p p ⋅⋅⋅=−=∑=}log )log()(log {lim 110εεεεε∑−=→−−−−−=q i q q i i p p p p 所以,上式成立),,,,(lim 2110εεε−⋅⋅⋅+→q q p p p H 因为5、可加性()()(/)()()(/)(|)(|)(/)H X Y H X H Y X H X Y H Y H X Y H X Y Z H X Z H Y X Z =+=+=+统计独立信源X 和Y 的联合信源的熵等于信源X 和Y 各自的熵之和。

H(XY) = H(X)+ H(Y)可加性是熵函数的一个重要特性,正因具有可加性,才使熵函数的形式是唯一的。

222()log ()()log (/)log ()()(/)()(/):()()(/)(/)1i j i i j j i ijiji i j i j yp x y q x p x y p y x q x p x y H Y X H X H Y X p xy q x p y x p y x =−−⎡⎤=−+⎢⎥⎣⎦=+==∑∑∑∑∑∑∑利用可加性证明22()()log ()()log [()(/)]i j i j iji j i j i ijH XY p x y p x y p x y q x p y x =−=−∑∑∑∑同理=+H XY Z H X Z H Y XZ(|)(|)(/)复习链式法则()()()|H X Y HX HYX=+()()()()()()121213*********...//.../.../...n n n ni i i H X X X H X H X X H X X X H X X X X H X X X X −−==++++=∑复习熵函数的性质H(p 1,p 2,…, p n )对称性非负性极值性连续性扩展性可加性()()()()()()()()()1222122211111211122112221,,...,,...,,...,,,.,,...,,,..,,,...,||n nn n n n n n m nn i i x m i im i Xm q H q p q p q p H q q q q H p p p H XY H X H Y X p q q q p q p H X q x H q x p Y q p =∈=+=+=+∑∑定理:1. H(X/Y ) ≤H (X )2. H (XY ) ≤H (X )+H (Y )证明:222(/)((/)()log (/)()/)(/)()log ()log ()i j i j ijj ji j i j i j i j j i i p x y p x y p H X Y p x y p x y p y p y H p x X x y =−⎡⎤=−⎢⎥⎣⎦⎡⎤≤−⎢⎥⎣⎦=∑∑∑∑∑∑()()/j H X y H X 与大小比较?\1211/81/825/81/8x y ()()/j H X y H X 与大小比较?定义概率矢量满足仅K-1个分量独立。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6 讲联合熵与条件熵
信息熵H(X)反映了随机变量X的取值不确定性。

当X是常量时,其信息熵最小,等于0当X有n 个取值时,当且仅当这些取值的机会均等时,信息熵H(X)最大,等于log n 比特。

我们拓展信息熵H(X)的概念,考虑两个随机变量X和丫的联合熵H(XY)和条件熵H(Y|X)。

1. 联合熵
设X,丫是两个随机变量,则(X,Y)是二维随机变量,简写为XY
二维随机变量XY的联合概率分布记为p(xy),即
根据信息熵的定义可知,XY的信息熵为
定义1.1二维随机变量XY的信息熵H(XY)称为X与丫的联合熵(joint entropy )。

它反映了二维随机变量XY的取值不确定性。

我们把它理解为X和丫取值的总的不确定性。

练习:
假设有甲乙两只箱子,每个箱子里都存放着100个球。

甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1 个。

试计算H(XY)
我们将联合熵概念推广到任意多离散型随机变量上。

定义1.2 一组随机变量X1,X2,L ,X N 的联合熵定义为
注:为了简化记号,我们有时把X1X2L X N记为X,把X1X2L X N记为X。

物理意义:
(1)H (X1X2L X N)是这一组随机变量平均每一批取值
所传递的信息量。

(2)若N-维随机变量X1X2L X N表示某信源产生的任意一条长度为
N 的消息,则
H(X I X2L X N)是平均每条长度为N的消息的信息量。

因此,若该信源产生一个长度为N 的消息,则在不知道
其它条件的情况下,对该消息所含信息量的最优估计为N-维信息熵H(X1X2L X N)。

联合熵的性质:
联合熵熵函数的一种特殊形式,所以熵函数的任何数学性质都适用于联合熵,包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。

当然,联合熵还有自己的特殊性质。

定理1.4 (联合熵的独立界) H(X J X2L X N) H(X1) H(X2) L H(X N)
其中等号成立的充要条件是所有随机变量相互独立。

证明:这里仅证明H(XY) H(X) H(Y),一般情形可类似证明。

设对于XY的联合分布为p(xy),X和丫的概率分布简记为p(x),p(y)。

由于
我们有
注意,P(x)p(y)构成一个概率分布。

应用信息不等式可得
其中等号成立的充要条件是P(xy) p(x)p(y),即X与丫相互独立。

证毕
2. 条件熵
1
条件自信息:l(y|x) log - -
P(y|x)
对于任何取值x,Y|X x是一个带条件的随机变量,其信息熵为
再对所有x求熵的平均值可得如下条件熵:
定义2.1设X, Y是两个离散型随机变量,联合分布为p(xy)。

X相对于丫的条件熵HX|Y)
定义为条件自信息l(X|Y)的期望,即物理意义:H(X|Y)表示在已知丫取值的前提下,X取值的不确定性,亦即X的每个取值平均所提供的与丫无关的信息量。

定理2.2 (条件熵非负性)对于任何离散型随机变量X与丫,都有H(Y|X) >0,其中等号成立当且仅当丫是X的函数,即X的取值可确定丫的取值。

证明根据定义
由于上述加式中各加项都w 0,所以该加式=0的充要条件是各加项=0,即对于任何x和y,p(y|x)=1或者p(y|x)=0,亦即对于任何x,P(Y| x)是退化分布。

这表明当X的取值确定时,丫的取值随即确定,即丫是X 的函数。

证毕
定理2.3 (熵的链法则)对于随机变量序列%,人,…和任何N>1
简记为
其中H1= H( X1) ,H2=H( X2|X1) ,…,H N=H( X N| X1X2 … X N-1) 。

证明:首先根据定义直接可得
H(XY)= H(X)+H(Y|X)
应用上述等式,对N用归纳法可证明熵的链法则。

细节略。

证毕意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算。

注:链法则与熵的可加性是等价的。

思考:
下列不等式是否成立,其中各等号成立的充要条件是什么?
这个性质说明什么?请读者尝试命名该性质。

定理2.4 (条件熵递减性)对于任何随机变量X和丫,有
H(Y|X) < H(Y)
其中等号成立的充要条件是丫与X相互独立。

证明一:根据链法则,
H(XY=H(X)+H(丫X)
再根据联合熵的独立界定理,立刻可得
H(Y|X) < H(Y)
其中等号成立的充要条件是X与丫统计独立。

证毕
在条件熵中,条件越少,熵值越大。

相反,条件越多,熵值越小。

这可理解为,我们知道的越多,则事物的不确定性越小。

证明二:应用Jessen 不等式证明。

证毕3. 计算公式
令X, 丫为离散的随机变量。

公式1. H (Y | X) H (XY) H(X)
公式2. H (Y | X) P(X)H(P(Y|X))
其中P(X)是X的概率分布,为行向量,P(Y|X)是X到丫的条件概率矩阵,H(P(Y|X))是条件概率矩阵中各个行分布P(Y | x)的熵H (Y |x)所组成的列向量。

证明:
证毕
例3.1 设P(X) (0.4,0.6) 且
记号:以后对于任何N,我们将N维随机向量%,人,…X N简记为乂
注:上述条件熵概念可以推广到多个随机变量熵,例如
F(Y|XX …X N)
是在已知随机向量X l,X2,…X N取值的前提下,随机变量丫的不确定性,亦即丫的每个取值可以提供的与X i,人,…人取值无关的新信息量。

⑵H(X), H(Y)
⑶H(X|Y), H(Y|X)
练习3.3已知平均100人中有2人患有某种疾病,为了查明病情,必须进行某项指标的化验。

这种化验的结果对于有病的人总是阳性的,对于健康的人来说有一半可能为阳性、一半可能为阴性。

若X表示一个人是否罹患这种疾病,丫表示其化验结果是否为阳性,试计算H(XY)。

作业5
1.范九伦等所着教材第38页习题(三)
H(X),H (Y),H (XY),H(Y|X),H(X|Y),I(X;Y)
2.设一个信源有6种信号,先后输出的信号是独立同分布的,其概率分布为
(1/2, 1/4, 1/8, 1/16, 1/32, 1/32)
暖16天
4. 世界职业棒球锦标赛为7场赛制,只要其中一队赢得4场,比赛就结束。

设随机变量 X 代表在比赛中A
队和B 队较量的可能结果。

X 的可能取值为AAAABABABA 和BBBAAA , 其中A,B 分别表示A 队和B 对获胜。

设丫代表比赛的场数,取值范围为 4到7。

假设A 队和B 队是同等水平的,且每场比赛相互独立。

试计算 H(X),H(Y), H(Y|X)和H(X|Y)。

X
0 1/2
1/8 1
1/8 1/4
3.
(1)该信源输出 (2)
1个符号所提供的平均信息量。

该信源输冷100个符号所提供的平均信息 15 妄天气阴晴和气温天冷暖进行分类统计如下:
(1)
计算交通忙闲状态的无条件熵。

(2) 计算天气和气温状态下的条件熵。

(3) 计算从天气和气温状态所获得的关于交通状态的信息。

设X 和Y 的联合分布 u(x, y)由下表给出:。

相关文档
最新文档