第二章信息的统计度量

合集下载

第二章信息的统计度量

1.2.1互信息量 • 1.定义:对两个离散随机事件集X和Y，事件Yi的出现给出关于
I 事件Xi的信息量定义为互信息量( xi ; yi )
。其定义式为
I ( xi ; yi )def log
p( xi | yi ) p( xi )
(1 4)
互信息量的单位与自信息量的单位一样取决于对数的底。由式（1-4）又可得到
可见，当事件xi，yi统计独立时，其互信息量为零。这意味着不能从观测yi获得关于另一个事件xi的任何信息。
3).互信息量可正可负
由于 1 1 I ( xi ; yi )def log log p( xi ) p( xi | yi )
在给定观测数据yi的条件下，事件xi出现的概率P(xi| yi)大于先验概率P(xi)时,互信息量I(xi; yi)大于零，为正值；当后验概率小于先验概率时，互信息量为负值。互信息量为正，意味着事件yi的出现有助于肯定事件xi的出现；反之，则是不利的。造成不利的原因是由于信道干扰引起的。
式中，xi Yi积事件，p (xi Yi)为元素xi Yi的二维联合概率。
当xi Yi独立时I(xi
Yi)= I(xi)+ I(Yi)
1.1.2 条件自信息量
联合集XY中，对事件Xi和Yi，事件Xi在事件Yi给定的条件下的条件自信息量定义为
I ( xi | yi )def log p ( xi | yi )
1奈特=log2 e比特≈1.443比特
1哈脱来=log2 10比特≈3.322比特
3)信息量的性质：
a)非负性
b)P＝1 I＝0
c)P＝0 I＝

d)I是p的单调递减函数
3）联合自信息量

信息统计量求法

信息统计量求法
信息统计量是用来描述或度量数据集中信息内容的指标。

常见的信息统计量包括平均值、中位数、众数、方差、标准差、四分位数等。

下面是一些常见的信息统计量求法：
1. 平均值（均值）：将所有数据值相加，再除以数据的个数即可得到平均值。

2. 中位数：将数据按照从小到大的顺序排列，如果数据个数是奇数，则中间位置上的数据即为中位数；如果数据个数是偶数，则中间两个位置上的数据的平均值即为中位数。

3. 众数：指在数据集中出现次数最多的数值。

一个数据集可以有一个或多个众数，也有可能没有众数。

4. 方差：反映了数据离散程度的大小。

计算方法是将每个数据与平均值的差的平方进行求和，并除以数据个数。

5. 标准差：方差的平方根，用来度量数据的离散程度。

6. 四分位数：将数据按照从小到大的顺序排列，将数据分为四个等份。

第一四分位数是中间位置左侧一半数据的中位数，第二四分位数
即为中位数，第三四分位数是中间位置右侧一半数据的中位数。

以上只是常见的信息统计量之一，根据需要还可以使用其他的统计量来描述数据集的特征。

第二章信息的度量

（2）将方格按行和列编号，甲将棋子所在方格的列编号告诉乙之后，再令乙猜测棋子所在行的位置。问猜测的难易程度。
第二章：信息的度量
自信息和互信息平均自信息平均互信息
1. 自信息（量）（续12）
解： p(xi yj )=1/64
i=1,2,…,8; j= 1,2,…,8
（1） I(xi yj)= – logp(xi yj )= 6 比特
1 p ( x4 | y1 ) 4
I ( x4 ; y1 ) log
第二章：信息的度量
自信息和互信息平均自信息平均互信息
2. 互信息（量）（续6）
xi
yj
观察者站在输出端
I(xi;yj)=logp(xi|yj)–logp(xi)=I (xi) – I(xi|yj)
I ( xi ) ：对 yj 一无所知的情况下 xi 存在的不确定度； I ( xi | y j ) ：收到 yj 后 xi 仍然存在的不确定度；
第二章：信息的度量
自信息和互信息平均自信息平均互信息
1. 自信息（量）（续9）
联合自信息量
定义：二维联合集XY上的元素（xi yj ）的联合自信息量定义为： I(xiyj)=﹣㏒p(xiyj) 0≦p(xiyj) ≦1；∑∑ p(xiyj) =1
第二章：信息的度量
自信息和互信息平均自信息平均互信息
bit
第二章：信息的度量
自信息和互信息平均自信息平均互信息
2. 互信息（量）

设X为信源发出的离散消息集合；Y为信宿收到的离散消
息集合；

信源发出的消息，经过有噪声的信道传递到信宿；
信源
X
信道
Y

第2章信息的度量

P( zl )
1 64
l 1, 2, , 64
P( zl
|
xk
)
1 8
l 1, 2, , 64; k 1, 2, ,8
(1)
I (zl
)
log
P( zl
)
log
1 64
6
bit/符号
(2)
I (zl
|
xk
)
log
P( zl
|
xk
|)
log
1 8
3
bit/符号
4 自信息量的性质和相互关系
KJ
P(xk , y j ) 1
k 1 j1
联合符号 (xk , 的y j )先验不确定性称为联合自信息量 : I (xk , y j ) log P(xk , y j ) bit/二元符号
多元联合符号的联合自信息量
三元符号的自信息量为: I (xk , y j , zl ) log P(xk , y j , zl ) bit/三元符号
统计平均意义下的不确定性有：熵、条件熵和联合熵。
先介绍各种不确定性的度量方法，然后再引入信息的度量方法。
1 自信息量
DMS
X
{x1, x2 , , xK }
[ X , PX ] [xk , P(xk ) | k 1 , 2 , , K ]
K
P(xk ) 1
k 1
I (xk ) ：xk 的（先验）不确定性，也称为的xk自信息量。
I (xk
)
log
1 P( xk
)
log
P( xk
)
k 1, 2,, K
注：自信息量与信息有联系，但不是信息，而是符号的先验不确定性。

信息论讲义_第一讲

• 香农定义的信息也有其局限性，存在一些缺陷
– 定义的出发点是假定事物状态可以用一个以经典集合论为基础的概率模型来描述。 – 没有考虑收信者的主观特性和主观意义，也撇开了信息的具体含意、具体用途、重要程度和引起后果等因素。
20
1.1.4 信息、消息与信号
信息：比较抽象的概念；是系统中传输的对象；包含在消息之中。消息：比较具体，但不是物理量；具有不同形式，例如语言、文字、符号、图像等能够被人感知；可以传输并被通信双方理解；同一消息含有不同信息；同一信息可用不同消息载荷。信号：最具体，是消息的载荷者；是表示消息的物理量，可测量、可显示、可描述，是信息的物理表达层。
12
1.1.2 广义的信息概念
信息本身看不见、摸不着，它必须依附于一定的物质形式（如文字、声波、电磁波等）。这种运载信息的物质称为信息的载体，一切物质都有可能成为信息的载体。
13
1.1.3 概率信息概念
由美国数学家香农1948年提出，亦称香农信息基于对通信活动基本功基于对通信活动对象和基于对通信活动的机制或狭义信息。概率信息是从不确定性能的观察分析，“通信过程的分析研究，“信和本质的分析研究， (Uncertainty) 和概率测度出发定义信息的。的基本问题是在信宿端源发出的消息总是从可 “人类只有在两种情况香农针对人类通信活动的特点，提出了精确或近似地复制发送能发生的消息符号集合下有通信的需求， 1）自端所挑选的消息。通常中随机选择，通信系统己有某种形式的消息要 ① 形式化假说消息是有语义的，即它无法预先知道信源在什告诉对方，且估计对方 ② 非决定论按某种关系与某些物质么时候会选择什么消息不知道； 2）自己有某种 ③ 不确定性概念的实体联系着。通发送”，即具有通信意疑问需要对方给出解答” 信中语义方面的问题与义的消息都是随机发生经过通信活动后，消除工程问题没有关系” 的了随机事件，获取了信不确定性

信息论编码第二章信息度量1

50个红球，50个黑球
Y
20个红球，其它4种颜色各20个
Z
问题：能否度量、如何度量？？
2.3.2信源熵数学描述
信源熵
• 定义：信源各个离散消息的自信息量的数学期望（即概率加权的统计平均值）为信源的平均信息量，一般称为信源的信息熵，也叫信源熵或香农熵，有时也称为无条件熵或熵函数，简称熵。 • 公式： n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体，实质上是无记忆信源平均不确定度的度量。也是试验后平均不确定性＝携载的信息信息量为熵 • 单位：以2为底，比特/符号 • 为什么要用熵这个词，与热熵的区别？
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概率复习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了

信息论与编码习题解答(待校200812)

（有问题请更正并通知xiezg@ ）第二章信息的度量1．一珍珠养殖场收获240颗外观及重量完全相同的特大珍珠，但不幸被人用外观相同但重量仅有微小差异的假珠换掉1颗。

（1）一人随手取出3颗，经测量恰好找出了假珠，问这一事件大约给出了多少比特的信息量；（2）不巧假珠又滑落进去，那人找了许久却未找到，但另一人说他用天平最多6次能找出，结果确是如此，问后一事件给出多少信息量；（3）对上述结果作出解释。

解：（1）从240颗珠子中取3颗，含1颗假珠的概率为80132402239==C C P)(32.680log log 22bit P I ==-=（2）240颗中含1颗假珠，用天平等分法最多6次即可找到假珠，是必然事件，因此信息量为0。

（3）按照shannon 对信息量的定义，只有事件含有不确知成分，才有信息量，且不确知成分越大，信息量越大，必然事件则没有信息量。

但从广义信息论来说，如果那人不知用天平二分法找假珠，另一人告之此事，使他由不知到知，也应该含有一定的信息量。

2．每帧电视图像可以认为是由3105个象素组成，所有象素均独立变化，且每一象素又取128个不同的亮度电平，并设亮度电平等概率出现。

问每帧图像含有多少信息量？如果一个广播员在约10000个汉字的字汇中选取1000个字来口述此电视图像，试问广播员描述此图像所广播的信息量是多少（假设汉字字汇是等概率分布，且彼此独立）？若要恰当地描述此图像，广播员在口述中至少需用多少汉字？解：设电视图像每个像素取128个不同的亮度电平，并设电平等概率出现，则每个像素亮度含有的信息量为7128)(H ==lb X 比特/像素一帧中像素均是独立变化的，则每帧图像信源就是离散亮度信源的无记忆N 次扩展信源。

得每帧会图像含有的信息量为6101.2)()(⨯==X NH X H N比特/每帧广播口述时，广播员是从10000个汉字字汇中选取的，假设汉字字汇是等概率分布的，则汉字字汇中每个汉字含有的信息量29.131000)(==lb Y H 比特/字广播员口述电视图像是从此汉字字汇信源中独立地选取1000个字来描述的。

(完整版)第2章_信息的统计度量题与答案

所以：
四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。
2.9 如有6行8列的棋型方格，若有2个质点A和B，分别以等概率落入任一方格内，且它们的坐标分别为、，但A和B不能落入同一方格内。试求：
(1) 若仅有质点A，求A落入任一方格的平均自信息量；
(2) 若已知A已入，求B落入的平均自信息量；
(3) 若A、B是可分辨的，求A、B同时落入的平均自信息量。
解：
(1)
(2)
(3)
2.10 一的平均信息量。
解：
2.13 已知信源发出和两种消息，且。此消息在二进制对称信道上传输，信道传输特性为
求互信息量和。
解：
(3) 互信息I(X;Y), I(X;Z), I(Y;Z), I(X;Y/Z), I(Y;Z/X)和I(X;Z/Y)。
解：
(1)
Z = XY的概率分布如下：
(2)
(3)
2.19 有两个随机变量X和Y，其和为Z = X + Y，若X和Y相互独立，求证：H(X) ≤ H(Z), H(Y) ≤ H(Z)，H(XY) ≥ H(Z)。
(1) 任一特定排列所给出的信息量是多少？
(2) 若从中抽取13张牌，所给出的点数都不相同时得到多少信息量？
解：
(1) 52张牌共有52！种排列方式，假设每种排列方式出现是等概率的则所给出的信息量是：
(2) 52张牌共有4种花色、13种点数，抽取13张点数不同的牌的概率如下：
2.6 试问四进制、八进制的每一波形所含的信息量是二进制每一波形所含的信息量的多少倍？
0
1
2
3
4
5
6
7
代码组
000
001

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

nat = 1.44bit , 1 hat = 3.32 bit；
自信息量I(ai)的性质 •I(ai)是非负值；
•当P(ai) =1时， I(ai)=0；
•当P(ai) =0时， I(ai)= ∞ ； •I(ai)是P(ai) 的单调递减函数
计算信息量主要要注意有关事件发生概率的计算
例：从26个英文字母中，随即选取一个字
I ( xi yi ) log p( xi yi )
2.1.2条件自信息量
定义2.1.3联合集XY中，对事件xi和yj，事件xi 在事件yj给定的条件下的条件自信息量定义为
I ( xi / y j ) log p( xi / y j )
在特定条件下( 已定)随机事件发生所带来的信息量条件自信息量满足非负和单调递减性。
99个红球，1个黑球
50个红球，50个黑球
Y P（y） Z P（z）＝＝
20个红球，其它4种颜色各20个
0.2 0.2 0.2 0.2 0.2
大
问题：能否度量、如何度量？？
2.3.1平均自信息量（熵）
通常研究单独一个事件或单独一个符号的信息量是不够的，往往需要研究整个事件集合或符号序列(如信源)的平均的信息量(总体特征)，这就需要引入新的概念--平均自信息量
i 1 i
) p ( y j ), p ( xi y j ) p ( xi )
j 1
p ( xi y j ) p ( xi ) p ( y j / xi ) p ( y j ) p ( xi / y j ) 当X与Y相互独立时 , p ( y j / xi ) p ( y j ), p ( xi / y j ) p ( xi ), p ( xi y j ) p ( xi ) p ( y j ) p ( xi y j ) p ( xi y j )
熵函数的自变量是X,表示信源整体
信息熵的单位与公式中的对数取底有关。通信与信息中最常用的是以2为底，这时单位为比特（bit）；理论推导中用以e为底较方便，这时单位为奈特（Nat ）；工程上用以10为底较方便，这时单位为笛特（Det）。它们之间可以引用对数换底公式进行互换。比如： 1 bit = 0.693 Nat = 0.301 Det
分别计算其熵，则： H(X)=0.08 bit /符号, H(Y)=1bit / 符号
2.3.2熵函数的数学特性
1、对称性: 熵函数对每个Pk 对称的。该性质说明熵只与随机变量的总体结构有关，与事件集合的总体统计特性有关； 2、非负性: H（P）=H(p1,p2,…,pq)>=0； 3、扩展性: 当某事件Ek的概率Pk稍微变化时， H函数也只作连续的不突变的变化；
母，则该事件的自信息量为
I = -log2 (1/26) = 4.7 比特
例：设m比特的二进制数中的每一个是等概率出现的(这样的数共有2m个)，则任何一
个数出现的自信息为:
I = -log2 (1/ 2m) = m 比特/符号
联合自信息量
定义2.1.2二维联合集XY上的元素（xy)的联合自信息量定义为
自信息、条件自信息和互信息
I ( xk ; y j ) I ( xk ) I ( y j ) I ( xk y j )
I(xk) I(yj)
I(xk ;yj)
2.2.3 条件互信息量
定义2.2.2联合集合XYZ中，给定条件zk的条件下，xi与yj之间的互信息量，其定义式
I ( xi ; y j / zk ) log2 p( xi / y j zk ) p( xi / zk )
随机变量X , Y分别取值于集合 {x1 , x2 , xi , , xn } 和{ y1 , y 2 , yi , , y m } : (1) ( 2) 0 p ( xi ) , p ( y j ), p ( xi / y j ), p ( y j / xi ), p ( xi y j ) 1
熵的计算
• 例：设某信源输出四个符号，其符号集合的概率分布为：
1 s2 s3 s4 s1 s2 s3 s4 s 1 1 1 1 S p 1 p 2 p 3 p 4 2 4 8 8
则其熵为：
1 1 2 H(S) pi logpi log 2 log 4 log8 1.75比特/ 符号 2 4 8 i 1
1 I ( xi ) log2 log2 Pi pi
自信息量
当事件
I(xi) 的含义
xi发生以前，表示事件xi发生的不确定 xi发生以后，表示事件xi所提供的信息
性；量；
当事件
对于单个消息随机变量U，出现某个消息，对应概率为，这时可获得的信息量为，则有： I( p)
i
pi , I ( pi ) ; pi 0, I ( pi ) I是pi的递降函数 pi , I ( pi ) ; pi 1, I ( pi ) 0
当X和Y独立时，
I ( xi y j ) log2 p( xi ) log2 p( y j ) I ( xi ) I ( y j )
2.2互信息量和条件互信息量
2.2.1互信息量
信源
X
信道
Y
信宿
信源集合X的概率空间
X P
=
x1 x2 ….. p(x1) p(x2)…..
信宿收到的符号集合Y的概率空间
(6)
p ( xi / y j )
p( x y
i 1 i
n
, p ( y j / xi ) )
j
p( x y
j 1 i
m
j
)
中学数学知识
Log(xy)=logx+logy Log(x/y)=logx-logy
2.1 自信息和条件自信息量
2.1.1自信息量
定义2.1.1任意随机事件的字信息量的定义为该事件发生概率的对数的负值。
2.2.2互信息量的性质
1、互信息量的互易性，即 I(xi;yj)=I(yj;xi) 2、当X和Y相互独立时，互信息为0
3、互信息量可为正值或负值 4、任何两个事件之间的互信息量不可能大于之中任一事件的自信息量
I ( xk ; y j ) I ( xk ) I ( xk ; y j ) I ( y j )
定义2.3.1集X上，随机变量I（xi)数学期望定义为平均自信息量
n 1 H ( X ) E[ I ( xi )] E[log2 ] p( xi ) log2 p( xi ) p( xi ) i 1
由于这个表达式和统计物理学中热熵的表达式相似，且在概念上也有相似之处，因此借用“熵”这个词，把 H(X)称为信息“熵”；
例:甲在一个8*8的方格盘上随意放入一个棋子，在乙看来是不确定的。 (1)在乙看来，棋子落入某方格的不确定性为多少？
（2）若甲告知乙棋子落入方格的行号，这时，在乙看来棋子落入某方格的不确定性为多少？
联合自信息量和条件自信息量关系
I ( xi y j ) log 2 p ( xi ) p ( y j / xi ) I ( xi ) I ( y j / xi ) log 2 p ( y j ) p ( xi / y j ) I ( y j ) I ( xi / y j )
p ( x ) 1, p ( y
i 1 m i j 1
n
m
j
) 1, p ( xi / y j ) 1,
i 1 n
n
p( y
j 1 n
j
/ xi ) 1, p ( xi y j ) 1
j 1 i 1 m j
m
(3) ( 4) (5)
p( x y
上式表明一对事件yjzk出现后提供有关xi的信息量I（xi;yjzk),等于事件yj出现后所提供的有关xi的信息量I（xi;yj)加上在给定时间 yj的条件下再出现事件zk所提供的有关xi的信息量。思考下式的证明
I ( xi ; y j zk ) I ( xi ; zk ) I ( xi ; y j / zk )
lim H q 1 ( p1 , p2 ,..., pq , ) H q ( p1 ,
0
p2 , ... , pq )
4、可加性：如果有两个随机变量X,Y,他们不是相互独立的，则二维随机变量（X,Y)的熵等于X的无条件熵加上当X已给定时Y的条件概率定义的熵统计平均值，即
另外，联合集合XYZ中还存在xi与yjzk 之间的互信息量，其定义式
I ( xi ; y j zk ) log2 p( xi / y j zk ) p( xi )
或将上式进一步表示为
I ( xi ; y j zk ) I ( xi ; y j ) I ( xi ; zk / y j )
2.3离散集的平均自信息量
一个离散随机变量X，以不同的取值概率有N个可能取值,
X
P（x ）
＝
a1 a2 p1 p2
… …
aN pN
信息论关心：X的不确定性
不确定性－－大，获取的信息－－多
熵的引入
箱内100个球摸到红球不确定性分析：随机变量X、Y、Z
X P（x）＝ a1 0.99 a1 0.5 a1 a2 a3 a2 0.01 a2 0.5 a4 a5 小
互信息量等于自信息量减去条件自信息量。
I ( xi ; y j ) log2 p( xi ) log2 p( xi / y j ) I ( xi ) I ( xi / y j )
第三种表达方式：
I ( xi ; y j ) I ( xi ) I ( y j ) I ( xi y j )

第二章信息的统计度量