第二章 信息的度量
合集下载
第二章信息的统计度量

1.2.1互信息量 • 1.定义:对两个离散随机事件集X和Y,事件Yi的出现给出关于
I 事件Xi的信息量定义为互信息量( xi ; yi )
。其定义式为
I ( xi ; yi )def log
p( xi | yi ) p( xi )
(1 4)
互信息量的单位与自信息量的单位一样取决于对数的底。 由式(1-4)又可得到
可见,当事件xi,yi统计独立时,其互信息量为零。这意味着不能 从观测yi获得关于另一个事件xi的任何信息。
3).互信息量可正可负
由于 1 1 I ( xi ; yi )def log log p( xi ) p( xi | yi )
在给定观测数据yi的条件下,事件xi出现的概率P(xi| yi)大于先验 概率P(xi)时,互信息量I(xi; yi)大于零,为正值;当后验概率小 于先验概率时,互信息量为负值。 互信息量为正,意味着事件yi的出现有助于肯定事件xi的出现;反之, 则是不利的。造成不利的原因是由于信道干扰引起的。
式中,xi Yi积事件,p (xi Yi)为元素xi Yi的二维联合概率。
当xi Yi独立时I(xi
Yi)= I(xi)+ I(Yi)
1.1.2 条件自信息量
联合集XY中,对事件Xi和Yi,事件Xi在事件Yi给定的条件下的条件自信息量 定义为
I ( xi | yi )def log p ( xi | yi )
1奈特=log2 e比特≈1.443比特
1哈脱来=log2 10比特≈3.322比特
3)信息量的性质:
a)非负性
b)P=1 I=0
c)P=0 I=
d)I是p的单调递减函数
3)联合自信息量
信息论与编码-第2讲-信源及信息度量1

自信息含义
当事件xi发生以前:表示事件xi发生的不确定性。 当事件xi发生以后:表示事件xi所含有(或所提供)的信
息量。在无噪信道中,事件xi发生后,能正确无误地传输到 收信者,所以I(xi)可代表接收到消息xi后所获得的信息量。 这是因为消除了I(xi)大小的不确定性,才获得这么大小的信 息量。
2.1.1 单符号离散信源的数学模型
(1) 信源的描述方法 (2) 单符号离散信源数学模型
(1) 信源的描述方法
在通信系统中收信者在未收到消息以前,对信源发出 什么消息是不确定的。
① 离散信源:输出的消息常常是以一个个符号形式出现,
这些符号的取值是有限的或可数的。 单符号离散信源:只涉及一个随机事件,可用随机变量描述。 多符号离散信源:每次输出是一个符号序列,序列中每一位出现
② 联合自信息量
信源模型为
x2 y1 ,, x2 ym ,, xn y1 ,, xn y m XY x1 y1 ,, x1 ym , P( XY ) p( x y ),, p( x y ), p( x y ),, p( x y ),, p( x y ),, p( x y ) 1 m 2 1 2 m n 1 n m 1 1
计算y1与各种天气之间的互信息量 对天气x1,不必再考虑 对天气x2, I ( x2 ; y1 ) log2 p( x2 / y1 ) log2 1/ 2 1(比特) p( x ) 1/ 4
i i
验概率的函数。
函数f [p(xi)]应满足以下4个条件 根据上述条件可以从数学上证明这种函数形式是对 数形式。
离散信息的度量

例 2.5
A、B两城市天气情况概率分布如下表:
晴
阴
雨
A城市 B城市
0.8 0.4
0.15 0.3
0.05 0.3
问哪个城市的天气具有更大的不确定性?
14
解:
H ( A) = H (0.8,0.15,0.05) = −0.8 × log 0.8 − 0.15 × log 0.15 − 0.05 × log 0.05 = 0.884 比特/符号
性所需信息量
13
例 2.4
一电视屏幕的格点数为500×600=300000,每点有 10个灰度等级,若每幅画面等概率出现,求每幅 画面平均所包含的信息量
解:
可能的画面数是多少? 10300000
⇒
p
=
1 10300000
代入公式:
出现每幅画 面的概率
H ( X ) = log2 (1/ p) = log2 (10300000 ) = 106 bit
1
§2.1 自信息和互信息
★ 自信息 自信息 联合自信息 条件自信息
★ 互信息 互信息 互信息的性质 条件互信息
§2.1.1 自信息
★ 事件集合 X 中的事件 x = ai 的自信息:
IX (ai ) = -logPX (ai )
简记 I(X) = - logp(x) 或 I(a i ) = -logp i
H(X) = E[I(x)]=−∑p(x)log p(x)
p(x)
x
Æ I(x)为事件x的自信息
Æ
E
p(x)
表示对随机变量x用p(x)来进行取平均运算
Æ 熵的单位为比特(奈特)/信源符号
信息熵H(X)的含义
★ 信源输出前Æ 信源的平均不确定性 ★ 信源输出后Æ 一个信源符号所提供的平均信息量
信息的度量

信息的度量
How to measure Information?
信息论基础
本章内容
• 信息及其度量
• 平均信息量-熵
• 通过信道的平均信息量-互信息量 • 信息不增原理 • 各种信息量之间的关系 • 连续随机变量的信息度量
参考书:沈振元等,“通信系统原理”,第11章(PP412-437)
戴善荣, “信息论与编码基础”, 第2章
p ( xi , yj ) p ( xi / yj ) = p ( yj ) p ( xi , yj ) p ( yj / xi ) = p ( xi )
3 联合自信息量和条件自信息量 设输入和输出都可以用离散概率空间来表示:
X = {A, P},其中A={ai}; Y = {B, Q}, 其中B={bj}
Y y1 , y 2 , , y j , P(Y ) = p( y ), p( y ), , p( y ), 2 j 1
这里p(yj)(j=1,2,3等)是集合Y中各个消息 y1,y2 ,y3 …出现的概率。
收信者获得的信息量
当信宿接到集合Y中的一个消息符号后,接收 者重新估计关于信源的各个消息 发生的概率 就变成条件概率,这种条件概率又称为后验概 率。 收信者收到一个消息后,所获得的信息量等 于收到消息前后不确定程度的减少量。
i n n 1 1 pi) ln 2 = 0, ( n = 1, pi = 1) i =1 i =1
n 1 1 p( 1) = ( i i =1 p n ln 2 i=1 n
1
i
故有H ( x ) H 0 0,即等概时有最大熵
例
一个二进制信元X,两个符号出现的概率分别为p和1-p,
How to measure Information?
信息论基础
本章内容
• 信息及其度量
• 平均信息量-熵
• 通过信道的平均信息量-互信息量 • 信息不增原理 • 各种信息量之间的关系 • 连续随机变量的信息度量
参考书:沈振元等,“通信系统原理”,第11章(PP412-437)
戴善荣, “信息论与编码基础”, 第2章
p ( xi , yj ) p ( xi / yj ) = p ( yj ) p ( xi , yj ) p ( yj / xi ) = p ( xi )
3 联合自信息量和条件自信息量 设输入和输出都可以用离散概率空间来表示:
X = {A, P},其中A={ai}; Y = {B, Q}, 其中B={bj}
Y y1 , y 2 , , y j , P(Y ) = p( y ), p( y ), , p( y ), 2 j 1
这里p(yj)(j=1,2,3等)是集合Y中各个消息 y1,y2 ,y3 …出现的概率。
收信者获得的信息量
当信宿接到集合Y中的一个消息符号后,接收 者重新估计关于信源的各个消息 发生的概率 就变成条件概率,这种条件概率又称为后验概 率。 收信者收到一个消息后,所获得的信息量等 于收到消息前后不确定程度的减少量。
i n n 1 1 pi) ln 2 = 0, ( n = 1, pi = 1) i =1 i =1
n 1 1 p( 1) = ( i i =1 p n ln 2 i=1 n
1
i
故有H ( x ) H 0 0,即等概时有最大熵
例
一个二进制信元X,两个符号出现的概率分别为p和1-p,
信息论与编码第二章信息的度量

14
2.1.1 自信息量
(1)直观定义自信息量为:
收到某消息获得的信息量 = 不确定性减少的量
= 收到此消息前关于某事件发生的不确定性 收到此消息后关于某事件发生的不确定性
15
2.1.1 自信息量
举例:一个布袋中装有对人手感觉完全 一样的球,但颜色和数量不同,问下面 三种情况下随意拿出一个球的不确定程 度的大小。
18
2.1.1 自信息量
应用概率空间的概念分析上例,设取红球的状 态为x1,白球为x2,黑球为x3,黄球为x4,则 概率空间为: x2 (1) X x1
P( x) 0.99 0.01
( 2)
( 3)
X x1 P( x) 0.5
一、自信息和互信息
二、平均自信息
2.1.2 互信息
三、平均互信息
2.1.1 自信息量
信源发出的消息常常是随机的,其状态存在某种 程度的不确定性,经过通信将信息传给了收信者, 收信者得到消息后,才消除了不确定性并获得了 信息。
获得信息量的多少与信源的不确定性
的消除有关。
不确定度——惊讶度——信息量
第二章:信息的度量
自信息和互信息 平均自信息 平均互信息
2.1.1 自信息(量) (续9)
例4:设在一正方形棋盘上共有64个方格,如果甲将一 粒棋子随意的放在棋盘中的某方格且让乙猜测棋子所 在位置。 (1) 将方格按顺序编号,令乙猜测棋子所在的顺序 号。问猜测的难易程度。
(2)将方格按行和列编号,甲将棋子所在方格的列编 号告诉乙之后,再令乙猜测棋子所在行的位置。问猜 测的难易程度。
自信息是事件发生前,事件发生的不确定性。
信息论编码 第二章信息度量1

50个红球,50个黑球
Y
20个红球,其它4种 颜色各20个
Z
问题:能否度量、如何度量??
2.3.2信源熵数学描述
信源熵
• 定义:信源各个离散消息的自信息量的数学期望 (即概率加权的统计平均值)为信源的平均信息 量,一般称为信源的信息熵,也叫信源熵或香农 熵,有时也称为无条件熵或熵函数,简称熵。 • 公式: n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体,实质上是无 记忆信源平均不确定度的度量。也是试验后平均 不确定性=携载的信息 信息量为熵 • 单位:以2为底,比特/符号 • 为什么要用熵这个词,与热熵的区别?
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概 率 复 习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间 信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了
信息论基础第2章离散信源及其信息度量[83页]
![信息论基础第2章离散信源及其信息度量[83页]](https://img.taocdn.com/s3/m/a8bfc380a32d7375a5178051.png)
④ 一般情况下,如果以 r 为底 r 1,则
I (ai ) logr P(ai ) (r进制单位)
通常采用“比特”作为信息量的实用单位。在本书中,且为了 书写简洁,底数 2 通常省略不写。
【例】假设有这样一种彩票,中奖概率为 0.0001,不中 奖概率为 0.9999。现有一个人买了一注彩票。 试计算
定义: 设信源的概率空间为
X
P( x)
a1 P(a1
)
a2 P(a2 )
aq
P(aq )
则自信息量的数学期望定义为信源的平均自信息量,即
q
H ( X ) E[I (ai )] P(ai ) log2 P(ai ) (bit/符号) i 1
简记为
H ( X ) P(x) log2 P(x) xX
(1) 事件“彩票中奖”的不确定性; (2) 事件“彩票不中奖”的不确定性; (3) 事件“彩票中奖”和事件“彩票不中奖”相
比较,哪个提供的信息量较大?
【例】 对于 2n 进制的数字序列, 假设每一符号的出现相互 独立且概率相等,求任一符号的自信息量。
解:
根据题意, P(ai ) =1/2n,所以 I (ai ) log P(ai ) log(1/ 2n ) n(bit)
一般的多符号离散信源输出的随机序列的统计特性 比较复杂,分析起来也比较困难。将在第 3 章中详细讨 论。
《信息论基础》
2.3 离散随机变量的信息度量
一、自信息量I(xi)和信息熵H(X)
定义: 随机事件的自信息量定义为该事件发生概率的
对数的负值。设集合 X 中的事件 x ai 发生概率为 P(ai ) ,
按输出符号之间依赖关系分类,多符号离散信源 可分为无记忆信源和有记忆信源。
I (ai ) logr P(ai ) (r进制单位)
通常采用“比特”作为信息量的实用单位。在本书中,且为了 书写简洁,底数 2 通常省略不写。
【例】假设有这样一种彩票,中奖概率为 0.0001,不中 奖概率为 0.9999。现有一个人买了一注彩票。 试计算
定义: 设信源的概率空间为
X
P( x)
a1 P(a1
)
a2 P(a2 )
aq
P(aq )
则自信息量的数学期望定义为信源的平均自信息量,即
q
H ( X ) E[I (ai )] P(ai ) log2 P(ai ) (bit/符号) i 1
简记为
H ( X ) P(x) log2 P(x) xX
(1) 事件“彩票中奖”的不确定性; (2) 事件“彩票不中奖”的不确定性; (3) 事件“彩票中奖”和事件“彩票不中奖”相
比较,哪个提供的信息量较大?
【例】 对于 2n 进制的数字序列, 假设每一符号的出现相互 独立且概率相等,求任一符号的自信息量。
解:
根据题意, P(ai ) =1/2n,所以 I (ai ) log P(ai ) log(1/ 2n ) n(bit)
一般的多符号离散信源输出的随机序列的统计特性 比较复杂,分析起来也比较困难。将在第 3 章中详细讨 论。
《信息论基础》
2.3 离散随机变量的信息度量
一、自信息量I(xi)和信息熵H(X)
定义: 随机事件的自信息量定义为该事件发生概率的
对数的负值。设集合 X 中的事件 x ai 发生概率为 P(ai ) ,
按输出符号之间依赖关系分类,多符号离散信源 可分为无记忆信源和有记忆信源。
信息论基础第2章离散信源及其信息度量

《信息论基础》
第2章 离散信源及其信息度量
本章内容
2.1 离散信源的分类 2.2 离散信源的统计特性 2.3 离散随机变量的信息度量 2.4 离散信源的N次扩展信源 2.5 离散平稳信源 2.6 马尔可夫信源 2.7 离散信源的相关性和剩余度
《信息论基础》
2.1 离散信源的分类
离散信源的分类
按照离散信源输出的是一个消息符号还是消息符 号序列,可分为单符号离散信源和多符号离散信 源。
,
q2 pn
,
qm ) pn
n
m
其中, pi 1, qj pn 。
i1
j 1
可见,由于划分而产生的不确定性而导致熵的增加量为
pnHm (
q1 pn
,
q2 pn
, qm pn
)
6、上凸性
熵函数 H (p) 是概率矢量 p ( p1, p2 ,
pq ) 的严格∩型凸函数
( 或 称 上 凸 函 数 )。 即 对 任 意 概 率 矢 量 p1 ( p1, p2 , pq ) 和
成 H ( p1) 或 H ( p2 ) 。
和自信息相似,信息熵 H ( X ) 有两种物理含义:
① 信源输出前,信源的信息熵表示信源的平均 不确定度。
② 信源输出后,信源的信息熵表示信源输出一 个离散消息符号所提供的平均信息量。如果信道无噪 声干扰,信宿获得的平均信息量就等于信源的平均信 息量,即信息熵。需要注意的是,若信道中存在噪声, 信宿获得的平均信息量不再是信息熵,而是 2.5 节介 绍的平均互信息。
联合熵 H (XY ) 的物理含义表示联合离散符号集 XY 上
的每个元素对平均提供的信息量或平均不确定性。 单位为“bit/符号对”。 需要注意的是,两个随机变量 X 和 Y 既可以表示两个
第2章 离散信源及其信息度量
本章内容
2.1 离散信源的分类 2.2 离散信源的统计特性 2.3 离散随机变量的信息度量 2.4 离散信源的N次扩展信源 2.5 离散平稳信源 2.6 马尔可夫信源 2.7 离散信源的相关性和剩余度
《信息论基础》
2.1 离散信源的分类
离散信源的分类
按照离散信源输出的是一个消息符号还是消息符 号序列,可分为单符号离散信源和多符号离散信 源。
,
q2 pn
,
qm ) pn
n
m
其中, pi 1, qj pn 。
i1
j 1
可见,由于划分而产生的不确定性而导致熵的增加量为
pnHm (
q1 pn
,
q2 pn
, qm pn
)
6、上凸性
熵函数 H (p) 是概率矢量 p ( p1, p2 ,
pq ) 的严格∩型凸函数
( 或 称 上 凸 函 数 )。 即 对 任 意 概 率 矢 量 p1 ( p1, p2 , pq ) 和
成 H ( p1) 或 H ( p2 ) 。
和自信息相似,信息熵 H ( X ) 有两种物理含义:
① 信源输出前,信源的信息熵表示信源的平均 不确定度。
② 信源输出后,信源的信息熵表示信源输出一 个离散消息符号所提供的平均信息量。如果信道无噪 声干扰,信宿获得的平均信息量就等于信源的平均信 息量,即信息熵。需要注意的是,若信道中存在噪声, 信宿获得的平均信息量不再是信息熵,而是 2.5 节介 绍的平均互信息。
联合熵 H (XY ) 的物理含义表示联合离散符号集 XY 上
的每个元素对平均提供的信息量或平均不确定性。 单位为“bit/符号对”。 需要注意的是,两个随机变量 X 和 Y 既可以表示两个
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
I(xi ;y j ) log p(xi|y j ) p(xi )
I(xi ;yj ) I(xi ) I(y j ) I(xi y j )
2.2 平均自信息(信源熵,信息熵,熵)
2.2.1 平均自信息的概念
引出: 信源不确定性的度量(信源信息的度量) 不可行 1)自信息量 2)平均自信息量
I a I c 9.742
相互独立事件积事件的信息量为各事件信息量的和。
2.1.1 自信息
(3)假定前后字母出现不是独立的,当“a”出现后,“c“出现 的概率为0.04,计算“a”出现后,“c”出现的自信息量。 解:
I c a log0.04 4.644
(4)比较(3)中计算出的信息量,并与“c“的信息量进行比较 解:和分析。
1)求收到y1后,各种天气的后验概率。
则:
px1 y1 px1 y1 0 p y1
1 4
px2 y1
p y1
px2 y1 p y1
p x2 y1
p x2 y1
1 1 1 1 4 8 8 2
1 2
2.1.2
同理:
可以证明,满足以上公理化条件的函数形式是对数形式。
2.1.1 自信息
定义: 随机事件的自信息量定义为该事件发生概率的对数的负值。
设事件 x i 的概率为 p( xi ) ,则它的自信息定义为
I ( xi ) log p( xi ) log
def
1 p( xi )
由图可见:上述信息量的定义正 是满足上述公理性条件的函数形式。
对于联合事件(多维随机变量):
联合自信息量: 二维联合集XY上元素( xi yj )的自信息量定义为
1 I ( xi y j ) log log p( xi y j ) p( xi y j )
其中,xiyj 是积事件; p(xiyj) 是二维联合概率。 条件自信息量: 若事件xi在事件yj给定条件下的概率为p(xi| yj),则其 条件自信息量定义为
p( xi |y j ) p( xi )
含义:互信息 I ( xi ; y j )是已知事件 y j 后所消除的关于事件 x i 的不确 定性,它等于事件 x i本身的不确定性 I ( xi ) 减去已知事件 y j 后对 x i仍然存在的不确定性 I ( xi | y j ) 。
2.1.2
理解:
1 I ( xi | y j ) log log p( xi | y j )定义: 一个事件 y j 所给出关于另一个事件 x i 的信息定义为互信
息,用 I ( xi ; y j )表示。
def
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
pc a 0.04
pc 0.022
I c a log0.04 4.644
I c log0.022 5.506
可见, “a”出现后,“c”出现的概率增大,其不确定性则变小。 (前后字母出现不是独立的,“a”出现给出了“c”的部分信息, 故“a”出现后,“c” 的不确定性则变小。 )
[例2]
8个串联的灯泡x1,x2,„,x8,其损坏的可能性是 等概率的,现假设其中有一个灯泡已损坏,问每进行一次测 量可获得多少信息量?总共需要多少次测量才能获知和确定 哪个灯泡已损坏。
解: 收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
I ( x1 ) I ( x2 ) , 1. I ( xi ) 是p( xi ) 的严格递减函数。当p( x1 ) p( x2 ) 时, 概率越小,事件发生的不确定性越大,事件发生以后所包含的自信 息量越大。 I ( xi ) =0。 2.极限情况下当p( xi ) =0时, I ( xi ) ;当 p( xi ) =1时, 3.另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。
2.1 自信息和互信息
2.1.1 自信息
定义 一个事件(消息)本身所包含的信息,它是由事件 的不确定性决定的。 自信息量 一个事件(消息)本身所包含的信息量,记为I ( xi ) 。 自信息量为概率 p( xi ) 的函数。
2.1.1 自信息
根据客观事实和人们的习惯概念,自信息量应满足以下条 件(公理化条件):
解: I a log0.064 3.966 I c log0.022 5.506 (2)假定前后两字母出现是互相独立的,求“ac”的自信息量。 解:
字母出现相互独立,pac pa pc 0.064 0.022
I ac log0.064 0.022 log0.064 log0.022
I ( xi 含义: )
1)当事件发生以前,等于事件发生的不确定性的大小; 2)当事件发生以后,表示事件所含有或所能提供的信息量。
2.1.1 自信息
自信息量的单位:与所用对数的底a有关。
a=2 a=e a=10 a=r I= -log2P I= -ln P I= -lg P I= -logrP 单位为比特(bit) I= - logP 单位为奈特(nat) 单位为哈特莱(hartley) 单位为r进制信息单位
px3 y1 14 log 1bit px3 18
I x 4;y1 log
px 4 y1 14 log 1bit px 4 18
[例4]
设某班学生在一次考试中获优(A)、良(B)、中(C) 、及格(D)和不及格(E)的人数相等。当教师通知某甲 :“你没有不及格”,甲获得了多少比特信息?为确定自己 的成绩,甲还需要多少信息? 解: 总的需要 令 P(a)表示“得到老师通知前甲的成绩的不确定性(概率)” 信息 P(a|b)表示“得到老师通知后甲的成绩的不确定性(概率)” 剩余信息 则 P(a)=1/5, P(a|b)=1/4
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I [ P( x1 )] log2 1 3(bit) P ( x1 )
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
1 I [ P( x2 )] log2 2(bit) P ( x2 )
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
互信息量定义为条件互信息量。其定义式为:
I ( xi ; y j | zk ) log
p( xi | y j zk ) p( xi | zk )
i j k
联合互信息: 联合事件 {Y=yj ,Z=zk}与事件{X=xi}之间的联合互信 息为: p( x | y z )
I ( x i ; y j z k ) log p( x i | y j ) p( x i )
p( x i ) p( x i | y j z k ) p( x i | y j )
log
log
I ( xi ; y j ) I ( xi ; zk | y j )
回顾
自信息
自信息量 条件自信息量 联合自信息量
I xi
I ( xi | y j )
1 I ( xi y j ) l og l og p( xi y j ) p( xi y j )
信源
互信息
干扰或噪声 消息 信道
p( xi )
信宿
xi
I ( xi )
yj
p xi y j
I ( xi | y j )
因此,已知事件 y j 后所消除的关于事件 x i 的不确定性为:
I xi I xi y j
即:
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
p x3 y1
互信息
1 4 p x4 y1 1 4
2)根据互信息量定义,计算收到y1与各种天气的互信息。 则:
I x1;y1 log px1 y1 px1
I x 2;y1 log
I x3;y1 log
px 2 y1 12 log 1bit px 2 14
I [ P( x3 )] log2
1 1(bit) P ( x3 )
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 = I [P (x3)] =1(bit) 故:至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
2.1.1 自信息
获得信息
2.1.2
互信息
def 对于联合事件(多维随机变量): def p( xi |y j ) I ( xi ) I ( xi |y I ( xi ;y j ) I ( xi ) II((x xii ;|y jj ) log 条件互信息量: 在联合集XYZ中,在给定 zk的条件下, xi与yj之间的 p( xi )
I (a) log2 p(a) log2 (1 / 5) 2.3219 (bit) I (a | b) log2 p(a | b) log2 (1 / 4) 2 (bit) I (a; b) I (a) I (a | b) 2.3219 - 2 0.3219 (bit)
即: I xi ; y j I xi
2.1.2
[例3]
互信息
某地二月份天气出现的概率分别为:晴1/2,阴1/4,雨1/8,雪 1/8。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息 y1,求收到y1后, y1与各种天气的互信息量。 解: 记: x1(晴),x2(阴),x3(雨),x4(雪)
I(xi ;yj ) I(xi ) I(y j ) I(xi y j )
2.2 平均自信息(信源熵,信息熵,熵)
2.2.1 平均自信息的概念
引出: 信源不确定性的度量(信源信息的度量) 不可行 1)自信息量 2)平均自信息量
I a I c 9.742
相互独立事件积事件的信息量为各事件信息量的和。
2.1.1 自信息
(3)假定前后字母出现不是独立的,当“a”出现后,“c“出现 的概率为0.04,计算“a”出现后,“c”出现的自信息量。 解:
I c a log0.04 4.644
(4)比较(3)中计算出的信息量,并与“c“的信息量进行比较 解:和分析。
1)求收到y1后,各种天气的后验概率。
则:
px1 y1 px1 y1 0 p y1
1 4
px2 y1
p y1
px2 y1 p y1
p x2 y1
p x2 y1
1 1 1 1 4 8 8 2
1 2
2.1.2
同理:
可以证明,满足以上公理化条件的函数形式是对数形式。
2.1.1 自信息
定义: 随机事件的自信息量定义为该事件发生概率的对数的负值。
设事件 x i 的概率为 p( xi ) ,则它的自信息定义为
I ( xi ) log p( xi ) log
def
1 p( xi )
由图可见:上述信息量的定义正 是满足上述公理性条件的函数形式。
对于联合事件(多维随机变量):
联合自信息量: 二维联合集XY上元素( xi yj )的自信息量定义为
1 I ( xi y j ) log log p( xi y j ) p( xi y j )
其中,xiyj 是积事件; p(xiyj) 是二维联合概率。 条件自信息量: 若事件xi在事件yj给定条件下的概率为p(xi| yj),则其 条件自信息量定义为
p( xi |y j ) p( xi )
含义:互信息 I ( xi ; y j )是已知事件 y j 后所消除的关于事件 x i 的不确 定性,它等于事件 x i本身的不确定性 I ( xi ) 减去已知事件 y j 后对 x i仍然存在的不确定性 I ( xi | y j ) 。
2.1.2
理解:
1 I ( xi | y j ) log log p( xi | y j )定义: 一个事件 y j 所给出关于另一个事件 x i 的信息定义为互信
息,用 I ( xi ; y j )表示。
def
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
pc a 0.04
pc 0.022
I c a log0.04 4.644
I c log0.022 5.506
可见, “a”出现后,“c”出现的概率增大,其不确定性则变小。 (前后字母出现不是独立的,“a”出现给出了“c”的部分信息, 故“a”出现后,“c” 的不确定性则变小。 )
[例2]
8个串联的灯泡x1,x2,„,x8,其损坏的可能性是 等概率的,现假设其中有一个灯泡已损坏,问每进行一次测 量可获得多少信息量?总共需要多少次测量才能获知和确定 哪个灯泡已损坏。
解: 收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
I ( x1 ) I ( x2 ) , 1. I ( xi ) 是p( xi ) 的严格递减函数。当p( x1 ) p( x2 ) 时, 概率越小,事件发生的不确定性越大,事件发生以后所包含的自信 息量越大。 I ( xi ) =0。 2.极限情况下当p( xi ) =0时, I ( xi ) ;当 p( xi ) =1时, 3.另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。
2.1 自信息和互信息
2.1.1 自信息
定义 一个事件(消息)本身所包含的信息,它是由事件 的不确定性决定的。 自信息量 一个事件(消息)本身所包含的信息量,记为I ( xi ) 。 自信息量为概率 p( xi ) 的函数。
2.1.1 自信息
根据客观事实和人们的习惯概念,自信息量应满足以下条 件(公理化条件):
解: I a log0.064 3.966 I c log0.022 5.506 (2)假定前后两字母出现是互相独立的,求“ac”的自信息量。 解:
字母出现相互独立,pac pa pc 0.064 0.022
I ac log0.064 0.022 log0.064 log0.022
I ( xi 含义: )
1)当事件发生以前,等于事件发生的不确定性的大小; 2)当事件发生以后,表示事件所含有或所能提供的信息量。
2.1.1 自信息
自信息量的单位:与所用对数的底a有关。
a=2 a=e a=10 a=r I= -log2P I= -ln P I= -lg P I= -logrP 单位为比特(bit) I= - logP 单位为奈特(nat) 单位为哈特莱(hartley) 单位为r进制信息单位
px3 y1 14 log 1bit px3 18
I x 4;y1 log
px 4 y1 14 log 1bit px 4 18
[例4]
设某班学生在一次考试中获优(A)、良(B)、中(C) 、及格(D)和不及格(E)的人数相等。当教师通知某甲 :“你没有不及格”,甲获得了多少比特信息?为确定自己 的成绩,甲还需要多少信息? 解: 总的需要 令 P(a)表示“得到老师通知前甲的成绩的不确定性(概率)” 信息 P(a|b)表示“得到老师通知后甲的成绩的不确定性(概率)” 剩余信息 则 P(a)=1/5, P(a|b)=1/4
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I [ P( x1 )] log2 1 3(bit) P ( x1 )
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
1 I [ P( x2 )] log2 2(bit) P ( x2 )
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
互信息量定义为条件互信息量。其定义式为:
I ( xi ; y j | zk ) log
p( xi | y j zk ) p( xi | zk )
i j k
联合互信息: 联合事件 {Y=yj ,Z=zk}与事件{X=xi}之间的联合互信 息为: p( x | y z )
I ( x i ; y j z k ) log p( x i | y j ) p( x i )
p( x i ) p( x i | y j z k ) p( x i | y j )
log
log
I ( xi ; y j ) I ( xi ; zk | y j )
回顾
自信息
自信息量 条件自信息量 联合自信息量
I xi
I ( xi | y j )
1 I ( xi y j ) l og l og p( xi y j ) p( xi y j )
信源
互信息
干扰或噪声 消息 信道
p( xi )
信宿
xi
I ( xi )
yj
p xi y j
I ( xi | y j )
因此,已知事件 y j 后所消除的关于事件 x i 的不确定性为:
I xi I xi y j
即:
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
p x3 y1
互信息
1 4 p x4 y1 1 4
2)根据互信息量定义,计算收到y1与各种天气的互信息。 则:
I x1;y1 log px1 y1 px1
I x 2;y1 log
I x3;y1 log
px 2 y1 12 log 1bit px 2 14
I [ P( x3 )] log2
1 1(bit) P ( x3 )
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 = I [P (x3)] =1(bit) 故:至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
2.1.1 自信息
获得信息
2.1.2
互信息
def 对于联合事件(多维随机变量): def p( xi |y j ) I ( xi ) I ( xi |y I ( xi ;y j ) I ( xi ) II((x xii ;|y jj ) log 条件互信息量: 在联合集XYZ中,在给定 zk的条件下, xi与yj之间的 p( xi )
I (a) log2 p(a) log2 (1 / 5) 2.3219 (bit) I (a | b) log2 p(a | b) log2 (1 / 4) 2 (bit) I (a; b) I (a) I (a | b) 2.3219 - 2 0.3219 (bit)
即: I xi ; y j I xi
2.1.2
[例3]
互信息
某地二月份天气出现的概率分别为:晴1/2,阴1/4,雨1/8,雪 1/8。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息 y1,求收到y1后, y1与各种天气的互信息量。 解: 记: x1(晴),x2(阴),x3(雨),x4(雪)