第二章 信息的度量
第二章信息的统计度量

1.2.1互信息量 • 1.定义:对两个离散随机事件集X和Y,事件Yi的出现给出关于
I 事件Xi的信息量定义为互信息量( xi ; yi )
。其定义式为
I ( xi ; yi )def log
p( xi | yi ) p( xi )
(1 4)
互信息量的单位与自信息量的单位一样取决于对数的底。 由式(1-4)又可得到
可见,当事件xi,yi统计独立时,其互信息量为零。这意味着不能 从观测yi获得关于另一个事件xi的任何信息。
3).互信息量可正可负
由于 1 1 I ( xi ; yi )def log log p( xi ) p( xi | yi )
在给定观测数据yi的条件下,事件xi出现的概率P(xi| yi)大于先验 概率P(xi)时,互信息量I(xi; yi)大于零,为正值;当后验概率小 于先验概率时,互信息量为负值。 互信息量为正,意味着事件yi的出现有助于肯定事件xi的出现;反之, 则是不利的。造成不利的原因是由于信道干扰引起的。
式中,xi Yi积事件,p (xi Yi)为元素xi Yi的二维联合概率。
当xi Yi独立时I(xi
Yi)= I(xi)+ I(Yi)
1.1.2 条件自信息量
联合集XY中,对事件Xi和Yi,事件Xi在事件Yi给定的条件下的条件自信息量 定义为
I ( xi | yi )def log p ( xi | yi )
1奈特=log2 e比特≈1.443比特
1哈脱来=log2 10比特≈3.322比特
3)信息量的性质:
a)非负性
b)P=1 I=0
c)P=0 I=
d)I是p的单调递减函数
3)联合自信息量
信息论与编码-第2讲-信源及信息度量1

自信息含义
当事件xi发生以前:表示事件xi发生的不确定性。 当事件xi发生以后:表示事件xi所含有(或所提供)的信
息量。在无噪信道中,事件xi发生后,能正确无误地传输到 收信者,所以I(xi)可代表接收到消息xi后所获得的信息量。 这是因为消除了I(xi)大小的不确定性,才获得这么大小的信 息量。
2.1.1 单符号离散信源的数学模型
(1) 信源的描述方法 (2) 单符号离散信源数学模型
(1) 信源的描述方法
在通信系统中收信者在未收到消息以前,对信源发出 什么消息是不确定的。
① 离散信源:输出的消息常常是以一个个符号形式出现,
这些符号的取值是有限的或可数的。 单符号离散信源:只涉及一个随机事件,可用随机变量描述。 多符号离散信源:每次输出是一个符号序列,序列中每一位出现
② 联合自信息量
信源模型为
x2 y1 ,, x2 ym ,, xn y1 ,, xn y m XY x1 y1 ,, x1 ym , P( XY ) p( x y ),, p( x y ), p( x y ),, p( x y ),, p( x y ),, p( x y ) 1 m 2 1 2 m n 1 n m 1 1
计算y1与各种天气之间的互信息量 对天气x1,不必再考虑 对天气x2, I ( x2 ; y1 ) log2 p( x2 / y1 ) log2 1/ 2 1(比特) p( x ) 1/ 4
i i
验概率的函数。
函数f [p(xi)]应满足以下4个条件 根据上述条件可以从数学上证明这种函数形式是对 数形式。
信息的度量

How to measure Information?
信息论基础
本章内容
• 信息及其度量
• 平均信息量-熵
• 通过信道的平均信息量-互信息量 • 信息不增原理 • 各种信息量之间的关系 • 连续随机变量的信息度量
参考书:沈振元等,“通信系统原理”,第11章(PP412-437)
戴善荣, “信息论与编码基础”, 第2章
p ( xi , yj ) p ( xi / yj ) = p ( yj ) p ( xi , yj ) p ( yj / xi ) = p ( xi )
3 联合自信息量和条件自信息量 设输入和输出都可以用离散概率空间来表示:
X = {A, P},其中A={ai}; Y = {B, Q}, 其中B={bj}
Y y1 , y 2 , , y j , P(Y ) = p( y ), p( y ), , p( y ), 2 j 1
这里p(yj)(j=1,2,3等)是集合Y中各个消息 y1,y2 ,y3 …出现的概率。
收信者获得的信息量
当信宿接到集合Y中的一个消息符号后,接收 者重新估计关于信源的各个消息 发生的概率 就变成条件概率,这种条件概率又称为后验概 率。 收信者收到一个消息后,所获得的信息量等 于收到消息前后不确定程度的减少量。
i n n 1 1 pi) ln 2 = 0, ( n = 1, pi = 1) i =1 i =1
n 1 1 p( 1) = ( i i =1 p n ln 2 i=1 n
1
i
故有H ( x ) H 0 0,即等概时有最大熵
例
一个二进制信元X,两个符号出现的概率分别为p和1-p,
信息论与编码第二章信息的度量

14
2.1.1 自信息量
(1)直观定义自信息量为:
收到某消息获得的信息量 = 不确定性减少的量
= 收到此消息前关于某事件发生的不确定性 收到此消息后关于某事件发生的不确定性
15
2.1.1 自信息量
举例:一个布袋中装有对人手感觉完全 一样的球,但颜色和数量不同,问下面 三种情况下随意拿出一个球的不确定程 度的大小。
18
2.1.1 自信息量
应用概率空间的概念分析上例,设取红球的状 态为x1,白球为x2,黑球为x3,黄球为x4,则 概率空间为: x2 (1) X x1
P( x) 0.99 0.01
( 2)
( 3)
X x1 P( x) 0.5
一、自信息和互信息
二、平均自信息
2.1.2 互信息
三、平均互信息
2.1.1 自信息量
信源发出的消息常常是随机的,其状态存在某种 程度的不确定性,经过通信将信息传给了收信者, 收信者得到消息后,才消除了不确定性并获得了 信息。
获得信息量的多少与信源的不确定性
的消除有关。
不确定度——惊讶度——信息量
第二章:信息的度量
自信息和互信息 平均自信息 平均互信息
2.1.1 自信息(量) (续9)
例4:设在一正方形棋盘上共有64个方格,如果甲将一 粒棋子随意的放在棋盘中的某方格且让乙猜测棋子所 在位置。 (1) 将方格按顺序编号,令乙猜测棋子所在的顺序 号。问猜测的难易程度。
(2)将方格按行和列编号,甲将棋子所在方格的列编 号告诉乙之后,再令乙猜测棋子所在行的位置。问猜 测的难易程度。
自信息是事件发生前,事件发生的不确定性。
信息论编码 第二章信息度量1

50个红球,50个黑球
Y
20个红球,其它4种 颜色各20个
Z
问题:能否度量、如何度量??
2.3.2信源熵数学描述
信源熵
• 定义:信源各个离散消息的自信息量的数学期望 (即概率加权的统计平均值)为信源的平均信息 量,一般称为信源的信息熵,也叫信源熵或香农 熵,有时也称为无条件熵或熵函数,简称熵。 • 公式: n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体,实质上是无 记忆信源平均不确定度的度量。也是试验后平均 不确定性=携载的信息 信息量为熵 • 单位:以2为底,比特/符号 • 为什么要用熵这个词,与热熵的区别?
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概 率 复 习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间 信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了
信息论基础第2章离散信源及其信息度量[83页]
![信息论基础第2章离散信源及其信息度量[83页]](https://img.taocdn.com/s3/m/a8bfc380a32d7375a5178051.png)
I (ai ) logr P(ai ) (r进制单位)
通常采用“比特”作为信息量的实用单位。在本书中,且为了 书写简洁,底数 2 通常省略不写。
【例】假设有这样一种彩票,中奖概率为 0.0001,不中 奖概率为 0.9999。现有一个人买了一注彩票。 试计算
定义: 设信源的概率空间为
X
P( x)
a1 P(a1
)
a2 P(a2 )
aq
P(aq )
则自信息量的数学期望定义为信源的平均自信息量,即
q
H ( X ) E[I (ai )] P(ai ) log2 P(ai ) (bit/符号) i 1
简记为
H ( X ) P(x) log2 P(x) xX
(1) 事件“彩票中奖”的不确定性; (2) 事件“彩票不中奖”的不确定性; (3) 事件“彩票中奖”和事件“彩票不中奖”相
比较,哪个提供的信息量较大?
【例】 对于 2n 进制的数字序列, 假设每一符号的出现相互 独立且概率相等,求任一符号的自信息量。
解:
根据题意, P(ai ) =1/2n,所以 I (ai ) log P(ai ) log(1/ 2n ) n(bit)
一般的多符号离散信源输出的随机序列的统计特性 比较复杂,分析起来也比较困难。将在第 3 章中详细讨 论。
《信息论基础》
2.3 离散随机变量的信息度量
一、自信息量I(xi)和信息熵H(X)
定义: 随机事件的自信息量定义为该事件发生概率的
对数的负值。设集合 X 中的事件 x ai 发生概率为 P(ai ) ,
按输出符号之间依赖关系分类,多符号离散信源 可分为无记忆信源和有记忆信源。
信息论基础第2章离散信源及其信息度量

第2章 离散信源及其信息度量
本章内容
2.1 离散信源的分类 2.2 离散信源的统计特性 2.3 离散随机变量的信息度量 2.4 离散信源的N次扩展信源 2.5 离散平稳信源 2.6 马尔可夫信源 2.7 离散信源的相关性和剩余度
《信息论基础》
2.1 离散信源的分类
离散信源的分类
按照离散信源输出的是一个消息符号还是消息符 号序列,可分为单符号离散信源和多符号离散信 源。
,
q2 pn
,
qm ) pn
n
m
其中, pi 1, qj pn 。
i1
j 1
可见,由于划分而产生的不确定性而导致熵的增加量为
pnHm (
q1 pn
,
q2 pn
, qm pn
)
6、上凸性
熵函数 H (p) 是概率矢量 p ( p1, p2 ,
pq ) 的严格∩型凸函数
( 或 称 上 凸 函 数 )。 即 对 任 意 概 率 矢 量 p1 ( p1, p2 , pq ) 和
成 H ( p1) 或 H ( p2 ) 。
和自信息相似,信息熵 H ( X ) 有两种物理含义:
① 信源输出前,信源的信息熵表示信源的平均 不确定度。
② 信源输出后,信源的信息熵表示信源输出一 个离散消息符号所提供的平均信息量。如果信道无噪 声干扰,信宿获得的平均信息量就等于信源的平均信 息量,即信息熵。需要注意的是,若信道中存在噪声, 信宿获得的平均信息量不再是信息熵,而是 2.5 节介 绍的平均互信息。
联合熵 H (XY ) 的物理含义表示联合离散符号集 XY 上
的每个元素对平均提供的信息量或平均不确定性。 单位为“bit/符号对”。 需要注意的是,两个随机变量 X 和 Y 既可以表示两个
信息理论与编码课后答案第2章

第二章 信息的度量习题参考答案不确定性与信息(2.3)一副充分洗乱的牌(含52张),试问: (1)任一特定排列所给出的不确定性是多少?(2)随机抽取13张牌,13张牌的点数互不相同时的不确定性是多少? 解:(1)一副充分洗乱的扑克牌,共有52张,这52张牌可以按不同的一定顺序排列,可能有的不同排列状态数就是全排列种数,为6752528.06610P =≈⨯!因为扑克牌充分洗乱,所以任一特定排列出现的概率是相等的。
设事件A 为任一特定排列,则其发生概率为 ()6811.241052P A -=≈⨯!可得,任一特定排列的不确定性为()()22log log 52225.58I A P A =-=≈!比特 (2)设事件B 为从中抽取13张牌,所给出的点数都不同。
扑克牌52张中抽取13张,不考虑其排列顺序,共有1352C 种可能的组合,各种组合都是等概率发生的。
13张牌中所有的点数都不相同(不考虑其顺序)就是13张牌中每张牌有4种花色,所以可能出现的状态数为413。
所以()131341352441339 1.05681052P B C -⨯!!==≈⨯!则事件B 发生所得到的信息量为()()13213524log log 13.208I B P B C =-=-≈ 比特2.4同时扔出两个正常的骰子,也就是各面呈现的概率都是1/6,求: (1)“2和6 同时出现”这事件的自信息量。
(2)“两个3同时出现”这事件的自信息量。
(3)两个点数的各种组合(无序对)的熵。
(4)两个点数之和(即2,3,…,12构成的子集)的熵。
(5)两个点数中至少有一个是1的自信息。
解:同时扔两个正常的骰子,可能呈现的状态数有36种,因为两骰子是独立的,又各面呈现的概率为61,所以36种中任一状态出现的概率相等,为361。
(1) 设“2和6同时出现”这事件为A 。
在这36种状态中,2和6同时出现有两种情况,即2,6和2,6。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、平均互信息的性质
(1)非负性
I ( X ;Y ) 0来自(2)互易性I ( X ; Y ) I (Y ; X )
(3)平均互信息和各熵的关系
I ( X ;Y ) H ( X ) H ( X / Y ) H (Y ) H (Y / X ) H ( X ) H (Y ) H ( XY )
i 1
p( x y z
j 1 k 1 i j
k
图形表示
两者的关系
I ( X ; YZ ) I ( X ; Z ) I ( X ; Y / Z ) I ( X ; YZ ) I ( X ; Y ) I ( X ; Z / Y )
定理2.3 (数据处理定理)
如果随机变量 X,Y,Z 构成一个马尔科夫链,则有以 下关系成立:
3、数据处理定理的含义
定义2.7 平均条件互信息
I ( X ; Y / Z ) E[ I ( xi ; y j / zk )]
i 1 n n
p( x y z ) I ( x ; y
j 1 m k 1 q i j k i
m
q
j
/ zk )
i 1
p( x y z ) log
i 1 n
p( x y ) log
j 1 i j
m
p( xi / y j ) p( xi ) 1 p( xi y j ) log2 p( xi / y j ) j 1
m
2
i 1 n
n
n 1 p( xi y j ) log2 p( xi ) i 1 j 1 m
图形表示
特殊情况
当随即变量 X 与 Y 互相独立时 ,
I ( X ; Y ) I (Y ; X ) 0
X、Y之间有依赖关系时
图示
符号
H(X )
H (Y ) H ( X | Y ) H (Y | X ) H ( XY ) I ( X ;Y )
X、Y相互独立时
图示
符号
H(X )
H (Y ) H ( X | Y ) H (Y | X )
j 1 k 1 i j k
p( xi / y j z k ) p( xi / zk )
2
图形表示
定义2.8 平均联合互信息
I ( X ; YZ ) E[ I ( xi ; y j z k )]
i 1 n n
p( x y z
j 1 m k 1 q i
m
q
j k
) I ( xi ; y j z k ) ) log2 p( xi / y j z k ) p( xi )
例2.6
掷骰子,若结果是1,2,3或4,则抛一次硬币; 如果结果是5或者6,则抛两次硬币。 现用X表示掷骰子结果:若结果是1,2,3或4, 则X=0;如果结果是5或者6,则X=1。用Y表 示抛硬币出现正面的次数。 试计算从抛硬币的出现正面的次数Y来得到 掷骰子结果X的信息量,即求I(X; Y). P(X)易得,P(Y/X)也不难求,故利用互信息的 第二种公式求法易求I(X; Y).
s
p ( xi / y j )
2
p ( xi ) p ( xi ) p ( y j / xi )
i 1
r
p( xi ) p( y j / xi ) log 2
j 1
s
p( x ) p( y
i 1 i
r
j
/ xi )
p ( xi )
影响平均互信息取值的因素由哪些?
(5)凸函数性(续)
I ( X ; Y ) E[ I ( xi ; y j )]
i 1 n n
p( x y ) I ( x ; y )
j 1 m i j i j
m
i 1
p( x y ) log
j 1 i j
p( xi / y j )
2
p( xi )
进一步推导
I ( X ;Y )
第二章 信息的度量
徐州工程学院 燕善俊
主要学习内容
一、自信息量和互信息量 二、平均自信息量及其性质 三、联合熵与条件熵 四、平均互信息量及其性质
1、平均互信息
定义2.6 互信息 I( xi ; yj )在 X 与 Y 的联合概率空间 中的统计平均值为随机变量 X 和 Y 间的平均互信息。
总结
1、平均互信息的含义与计算方法 2、平均互信息的性质 3、数据处理定理的含义
m
n 1 p( xi ) log2 p( xi ) i 1 i 1
1 p( xi y j ) log2 p( xi / y j ) j 1
H (X ) H(X /Y)
含义的理解
H( X ):表示信源 X ,在统计平均的意义 上每发出一个消息所含有信息量的多少; H(X / Y):表示在统计平均的意义上,信源 Y 发出一个消息后,信源 X 再发出一个消息时, 每个消息所含有的信息量; I(X;Y):表示在统计平均的意义上,信源 Y 每发出一个消息,能够提供的对信源 X 的每 个消息的信息量,即信源 X 每个消息所含信息 量的减少量。
I ( X ; Z ) I ( X ; Y ), I ( X ; Z ) I (Y ; Z )
等号成立的条件是:对于任意的 x , y , z ,有 p( x/ y z )=p (x /z)和 p (z/ x y) =p (z /x).
图形表示
定理说明的问题
在任何信息传输系统中,最后获得的信息量至 多是信源所提供的信息量,一旦在某一个过程 中丢失一些信息,以后的系统不管如何处理, 如不触及丢失信息的输入端,就不能再恢复已 丢失的信息,这就是信息不增性的原理,反映 了信息的物理意义。
H(X )
H (Y )
H ( XY ) H ( X ) H (Y )
I ( X ;Y ) 0
(4)极值性
I ( X ;Y ) H ( X ) I ( X ; Y ) H (Y )
(5)凸函数性
I ( X ;Y )
i 1 r
p( x y ) log
j 1 i j
定理2.1 当条件概率分布{ p (yj / xi) }给定时, 平均互信息 I(X;Y)是输入分布{ p ( xi ) }的 上凸函数。 说明:当条件概率分布{ p (yj / xi) }给定时,存 在一种输入分布,在该输入分布下,平均互信 息 I(X;Y)能取的最大值。
定理2.2 对于固定的输入分布{ p (xi) },平均 互信息量I(X;Y)是条件概率分布{ p (yj /xi) } 的下凸函数。 说明:当输入分布{ p (xi) }给定时,存在一种 条件概率分布,在该条件概率分布下,平均互 信息 I(X;Y)能取的最小值。