第2章 信源熵 第2讲 信源熵(平均自信息量)与 平均互信息量
合集下载
信源及信源熵介绍

14
2.2.1 自信息量
2. 不确定度 定义:随机事件的不确定度在数量上等于它的 自信息量.
说明:
a. 两者的单位相同,但含义却不相同。 b. 具有某种概率分布的随机事件不管发生与否,都存在
不确定度,不确定度表征了该事件的特性,而自信息 量是在该事件发生后给予观察者的信息量。
15
2.2.1 自信息量
22
2) 因为X中各符号xi的不确定度I(xi)为非负值,p(xi)也 是非负值,且0 p(xi)1,故信源的平均不确定度H(X) 也是非负量。
3) 平均不确定度H(X)的定义公式与热力学中熵的表示形 式相同,所以又把H(X)称为信源X的熵。熵是在平均意 义上来表征信源的总体特性的,可以表征信源的平均不确 定度。
2
p(xi ) log 2 p(xi ) i 1
= 0.72比特/次 说明:
1) 自信息量I(x1)和I(x2)只是表征信源中各个 符号的不确定度,一个信源总是包含着多个符 号消息,各个符号消息又按概率空间的先验概 率分布,因而各个符号的自信息量就不同。所 以自信息量不能作为信源总体的信息量。
=3 × 105 × 3.32 比特/画面
25
有一篇千字文章,假定每字可从万字表中任选, 则共有不同的千字文 N=100001000=104000 篇 仍按等概率1/100001000计算,平均每篇千字文 可提供的信息量为 H(X)=log2N =4 × 103 × 3.32
1.3 × 104 比特/千字文
离散消息的信源,如文字、数字、数据等符号都是
离散消息。
{ 离散信源
离散无记忆信源 离散有记忆信源
{ {
5
发出单个符号的无记忆信源 发出符号序列的无记忆信源 发出符号序列的有记忆信源 发出符号序列的马尔可夫信源
2.2.1 自信息量
2. 不确定度 定义:随机事件的不确定度在数量上等于它的 自信息量.
说明:
a. 两者的单位相同,但含义却不相同。 b. 具有某种概率分布的随机事件不管发生与否,都存在
不确定度,不确定度表征了该事件的特性,而自信息 量是在该事件发生后给予观察者的信息量。
15
2.2.1 自信息量
22
2) 因为X中各符号xi的不确定度I(xi)为非负值,p(xi)也 是非负值,且0 p(xi)1,故信源的平均不确定度H(X) 也是非负量。
3) 平均不确定度H(X)的定义公式与热力学中熵的表示形 式相同,所以又把H(X)称为信源X的熵。熵是在平均意 义上来表征信源的总体特性的,可以表征信源的平均不确 定度。
2
p(xi ) log 2 p(xi ) i 1
= 0.72比特/次 说明:
1) 自信息量I(x1)和I(x2)只是表征信源中各个 符号的不确定度,一个信源总是包含着多个符 号消息,各个符号消息又按概率空间的先验概 率分布,因而各个符号的自信息量就不同。所 以自信息量不能作为信源总体的信息量。
=3 × 105 × 3.32 比特/画面
25
有一篇千字文章,假定每字可从万字表中任选, 则共有不同的千字文 N=100001000=104000 篇 仍按等概率1/100001000计算,平均每篇千字文 可提供的信息量为 H(X)=log2N =4 × 103 × 3.32
1.3 × 104 比特/千字文
离散消息的信源,如文字、数字、数据等符号都是
离散消息。
{ 离散信源
离散无记忆信源 离散有记忆信源
{ {
5
发出单个符号的无记忆信源 发出符号序列的无记忆信源 发出符号序列的有记忆信源 发出符号序列的马尔可夫信源
信息论与编码,曹雪虹,课件第2章-2

信息论与编码
第二章
信源与信息熵
内容
2.1 信源的描述和分类 2.2 离散信源熵和互信息 2.3 离散序列信源的熵 2.4 连续信源的熵和互信 2.5 冗余度
3
信源的分类
• 离散信源
– 指发出在时间和幅度上都是离散分布的离散 消息的信源,如文字、数字、数据等符号都 是离散消息。
{ 离散
{ { 信源
W1
W2
W3
W4
• 稳态分布概率
W1
3 35
,
W2
6 35
,
W3
6 35
,
W4
4 7
• 稳态后的符号概率分布
p(a1)
i
p(a1
|
si
)
p(siΒιβλιοθήκη )1 23 35
1 3
6 35
1 4
6 35
1 5
4 7
9 35
p(a2 )
i
p(a2
|
si )
p(si )
1 2
3 35
2 3
6 35
(1)1/2
s2 01
00 s1
(0)1/4
(0)1/3 (1)3/4
10 s3
(1)2/3
s4 0 2 / 3 0 4 / 5
11 (0)1/5
s4
(1)4/5
8
Wi pij W j
i
1 2
W1
1 2
W1
W1 W2 W3 W4 1
1 3
W2
2 3 W2
1 2
W3
3 4
W3
1 5
W4
4 5 W4
3 4
6 35
第二章
信源与信息熵
内容
2.1 信源的描述和分类 2.2 离散信源熵和互信息 2.3 离散序列信源的熵 2.4 连续信源的熵和互信 2.5 冗余度
3
信源的分类
• 离散信源
– 指发出在时间和幅度上都是离散分布的离散 消息的信源,如文字、数字、数据等符号都 是离散消息。
{ 离散
{ { 信源
W1
W2
W3
W4
• 稳态分布概率
W1
3 35
,
W2
6 35
,
W3
6 35
,
W4
4 7
• 稳态后的符号概率分布
p(a1)
i
p(a1
|
si
)
p(siΒιβλιοθήκη )1 23 35
1 3
6 35
1 4
6 35
1 5
4 7
9 35
p(a2 )
i
p(a2
|
si )
p(si )
1 2
3 35
2 3
6 35
(1)1/2
s2 01
00 s1
(0)1/4
(0)1/3 (1)3/4
10 s3
(1)2/3
s4 0 2 / 3 0 4 / 5
11 (0)1/5
s4
(1)4/5
8
Wi pij W j
i
1 2
W1
1 2
W1
W1 W2 W3 W4 1
1 3
W2
2 3 W2
1 2
W3
3 4
W3
1 5
W4
4 5 W4
3 4
6 35
第二章-信息量和熵

H XY EX ,Y I (xi , y j )
EY EX I (xi , y j )
2.平均自信息量--熵 联合熵H(XY)与熵H(X)及条件熵H
(X/Y)之间存在下列关系 :
H(XY)=H(X)+H(Y/X) H(XY)=H(Y)+H(X/Y)
三维联合符号集合XYZ上的共熵H(XYZ):
I(xi; yj ) [lbp(xi )][lbp(xi | yj )] I(xi ) I(xi | yj )
1.互信息量
即互信息量为后验概率与先验概率比值的对数 :
I ( xi; y j )
lb
p ( xi / y j ) p ( xi )
p(xi) ——先验概率:信源发xi的概率 p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率
2.平均自信息量--熵
熵的性质
(4).条件熵不大于信源熵(无条件熵)
H(X/Y) ≤ H(X) H(Y/X) ≤ H(Y)
当且仅当Y和X相互独立时,式取等
物理含义:从平均意义上讲,条件熵在一般情形下总是小于无条件熵。从直 观上说,由于事物总是联系的,因此对随机变量X的了解平均讲总能使Y 的不确定性减少。同样,对Y的了解也会减少X的不确定性。
(1) yj对xi的互信息 I(xi;yj)
I(xi;yj)= I(xi)- I(xi/yj) [含义] 互信息I(xi;yj) =自信息I(xi) - 条件自信息I(xi/yj)
*I(xi) -----信宿收到yj之前,对信源发xi的不确定度 * I(xi/yj) -----信宿收到yj之后,对信源发xi的不确定度 * I(xi;yj) -----收到yj而得到(关于xi )的互信息
相应地,在给定随机变量X的条件下,Y集合的条件
离散型随机变量的平均自信息量(熵)讲义PPT课件( 14页)

证明 注意到引理1,
K
qk loga
k 1
1 qk
KБайду номын сангаас
qk loga
k 1
1 pk
K
qk loga
k 1
pk qk
loga
K
e
k 1
qk
ln
pk qk
loga
K
e
k 1
qk
(1
pk qk
)
K
loga e (qk pk ) 0 k 1
2019/5/29
2019/5/29
10
§2.2 离散型随机变量的平均 自信息量(熵)
引理2 设有两个K维概率向量(什么叫概率向量?)
则总满足
{qk, k=1~K}和{pk, k=1~K} 。
kK 1qkloagq1k kK 1qkloagp1k
2019/5/29
11
§2.2 离散型随机变量的平均 自信息量(熵)
Y的概率向量为
{q1, q2, …, qK},
{q1, q2, …, qK-2, qK-1+qK}, 其中qK-1qK>0,则H(X)> H(Y)。 )
2019/5/29
9
§2.2 离散型随机变量的平均 自信息量(熵)
6、极值性:H(X)≤logaK。当q1=q2=…=qK=1/K时,才有 H(X)=logaK。
第二章:信息量和熵
§2.1 离散型随机变量的非平均信息量 (事件的信息量)
§2.2 离散型随机变量的平均自信息量 (熵)
§2.4 离散型随机变量的平均互信息量 §2.5 连续型随机变量的平均互信息量和
信源熵及平均互信息

则称f(X)为定义域上的下凸函数(Cup型函数)或严格下凸函数。 若f(x)是上凸函数,则-f(x)便是下凸函数,反过来也成立。故,
通常只需研究上凸函数
14
詹森(Jenson)不等式
引理
若f(x)是定义在区间[a,b]上的实值连续上凸函数,则对 于任意一组 x1, x2,..., xn [a,b] 和任意一组非负实数
4
平均自信息量—信息熵
定义 2.1.6 集X上,随机变量I(xi)的数学期 望定义为平均自信息量
n
H (X ) E I (xi) E log p(xi) p(xi) log p(xi) i 1
集X的平均自信息量又称做是集X的信息熵, 简称做熵。含义上信息熵与热熵有相似之处。
5
平均不确定性
i, pi 1,其余的pk 0 (k i)
即,信源虽然有不同的输出符号,但它只有一个符号几 乎必然出现,而其它符号几乎都不可能出现,那么,这 个信源是一个确知信源,其信源熵等于零。
这种非负性对于离散信源的熵是正确的,但是对于 连续信源来说,该性质不存在。
17
熵函数的性质—— 3.扩展性
lim
如:
二元熵函数 H(X)
1.0
0
1.0 p
二图元3熵.1熵函函数数
23
各种熵之间的关系
1.联合熵与信息熵、条件熵的关系
H(X,Y)=H(X)+H(Y/X)=H(Y)+H(X/Y) H(X)-H(X/Y)=H(Y)-H(Y/X) H(X1,X2,...,XN)
=H(X1)+H(X2/X1)+...+H(XN/X1X2...XN)
X P( X
)
0.x910, ,
通常只需研究上凸函数
14
詹森(Jenson)不等式
引理
若f(x)是定义在区间[a,b]上的实值连续上凸函数,则对 于任意一组 x1, x2,..., xn [a,b] 和任意一组非负实数
4
平均自信息量—信息熵
定义 2.1.6 集X上,随机变量I(xi)的数学期 望定义为平均自信息量
n
H (X ) E I (xi) E log p(xi) p(xi) log p(xi) i 1
集X的平均自信息量又称做是集X的信息熵, 简称做熵。含义上信息熵与热熵有相似之处。
5
平均不确定性
i, pi 1,其余的pk 0 (k i)
即,信源虽然有不同的输出符号,但它只有一个符号几 乎必然出现,而其它符号几乎都不可能出现,那么,这 个信源是一个确知信源,其信源熵等于零。
这种非负性对于离散信源的熵是正确的,但是对于 连续信源来说,该性质不存在。
17
熵函数的性质—— 3.扩展性
lim
如:
二元熵函数 H(X)
1.0
0
1.0 p
二图元3熵.1熵函函数数
23
各种熵之间的关系
1.联合熵与信息熵、条件熵的关系
H(X,Y)=H(X)+H(Y/X)=H(Y)+H(X/Y) H(X)-H(X/Y)=H(Y)-H(Y/X) H(X1,X2,...,XN)
=H(X1)+H(X2/X1)+...+H(XN/X1X2...XN)
X P( X
)
0.x910, ,
第二章 信源和信息熵

第二章 信源和信息熵
2.1 信源的数学模型及分类
通信系统模型及信息传输模型:
第二章 信源和信息熵
一、离散无记忆信源
例:扔一颗质地均匀的正方体骰子,研究其下落后, 朝上一面的点数。每次试验结果必然是1点、2点、3点、 4点、5点、6点中的某一个面朝上。每次试验只随机出 现其中一种消息,不可能出现这个集合以外的消息, 考察此事件信源的数学模型。
• 平均符号熵就是信源符号序列中平均每个信 源符号所携带的信息量。
• 条件熵≤无条件熵;条件较多的熵≤条件较少 的熵,所以:
第二章 信源和信息熵
离 散 平 稳 信 源 性 质(H1(X)<∞时):
• 条件熵随N的增加是递减的; • 平均符号熵≥条件熵; • 平均符号熵HN(X)随N增加是递减的; • 极限熵
且:I(X1;X2)=I(X2;X1)
第二章 信源和信息熵
注意:任何无源处理总是丢失信息的,至多保持原来 的信息,这是信息不可增性的一种表现。
二、离散平稳信源的极限熵 设信源输出一系列符号序列X1,X2, ‥XN 概率分布: 联合熵:
定义序列的平均符号熵=总和/序列长度,即:
第二章 信源和信息熵
即:收信者所获得的信息量应等于信息传输前 后不确定性的减少的量。
例:设一条电线上串联8个灯泡,且损坏的可 能性为等概,若仅有一个坏灯泡,须获知多少 信息量才可确认?
第二章 信源和信息熵
例解:
测量前,P1(x)=1/8,存在不确定性: I(P1(x))=log8=3bit
第一次测量获得信息量: 第二次测量获得信息量: 第三次测量获得信息量: 每次测量获得1bit信息量,需三次测量可确定坏灯泡
例:运用熵函数的递增性,计算熵函数 H(1/3,1/3,1/6,1/6)的数值。
第2章信源及信源熵 145页PPT文档

【例2.1】
设信源只有两个符号“0”和“1”,且它们以消 息的形式向外发送时均以等概率出现,求它们 各自的自信息量。
(二)不确定度d(ai)与自信息量I(ai) 两者的联系
数值上相等,单位也相等,但含义不同。
两者的区别
具有某种概率分布的随机事件,不管其发生与否, 都存在不确定度,不确定度是任何随机事件本身所 具有的属性。
信源空间:
X P(x)
a1 a2 … aN =
P(a1) P(a2) … P(aN)
显然有:
例:对于二进制数据、数字信源:X={0,1}, 若这两个符号是等概率出现的,则有:
X P(x)
a1 = 0a2 = 1 Nhomakorabea=
P(a1) =0.5 P(a2) = 0.5
(二)多符号离散信源
是发出符号序列的信源
一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比 较困难。为了便于分析,我们假设信源输出的是平稳的随机序列,也 就是序列的统计性质与时间的推移无关。很多实际信源也满足这个假 设。
若在信源输出的随机序列X= (X1,X2,…,XN)中,每个随机变 量Xi (i=1,2,…,N)都是取值离散的离散型随机变量,即每个随机变量 Xi的可能取值是有限的或可数的;而且随机矢量X的各维概率分布都 与时间起点无关,也就是在任意两个不同时刻随机矢量X的各维概率 分布都相同。这样的信源称为离散平稳信源。如中文自然语言文字, 离散化平面灰度图像都是这种离散型平稳信源。
离散无记忆信源
在某些简单的离散平稳信源情况下,信源先后发出的 一个个符号彼此是统计独立的。也就是说发出的信源 发出的符号是相互独立的,发出符号序列中各个符号 之间也是相互独立的。
信息论第2章(信息量、熵及互信息量)PPT课件

假设一条电线上串联了8个灯泡x这8个灯泡损坏的可能性是等概率的假设有也只有一个灯泡损坏用万用表去测量获得足够的信息量才能获知和确定哪个灯泡x损坏
信息论基础
The Basis of Information Theory
主题No2:信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。
信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。
研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
I(X;Y)是一个用来衡量信道好坏的 非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC:
其先验概率为p(0)=p(1)=1/2,试计算条 件熵. [解答]由已知条件得:
由条件熵的定义有:
结果表明,虽然每个字符的错误率只有 0.1,可导致整个信宿对信源的平均不确定 性达到了0.469,将近一半。可见通信系统 对信道的要求非常高。
信息论基础
The Basis of Information Theory
主题No2:信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的 定义——事物运动状态或存在方式的不确定性 的描述。事实上,香农对信息不仅作了定性描 述,而且还进行了定量分析。
信源发出的消息常常是随机的,具有不确 定性。如果信源中某一消息的不确定性越大, 一旦发生,并为收信者收到,消除的不确定性 就越大,获得的信息也就越大。同时事件发生 的不确定性与事件发生的概率有关,概率越小, 不确定性就越大。
研究通信系统的目的就是要找到信息传输 过程的共同规律,以提高信息传输的可靠性、 有效性、保密性和认证性,以达到信息传输系 统最优化。
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
I(X;Y)是一个用来衡量信道好坏的 非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC:
其先验概率为p(0)=p(1)=1/2,试计算条 件熵. [解答]由已知条件得:
由条件熵的定义有:
结果表明,虽然每个字符的错误率只有 0.1,可导致整个信宿对信源的平均不确定 性达到了0.469,将近一半。可见通信系统 对信道的要求非常高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 干扰和噪声“污染”被传输的信息 – 到达接收端的平均信息量比信源熵少了一些 – 少掉的部分就是条件熵 H(X/Y)
• 条件熵H(X/Y)表征了对接收的每一个符号的正确性所产生怀疑的程度, 故称为疑义度。
余 映 云南大学
30/38
平均互信息量的物理含义
• ② 观察者站在输入端 • I(Y;X) = H(Y) – H(Y/X)
2.2 信源熵和平均互信息量
余 映 云南大学
1/52
2.2.1 信源熵(平均自信息量)
余 映 云南大学
2/52
信源熵
• 自信息是一个随机变量:指某一信源发出某一消息所含有 的信息量。发出的消息不同,含有的信息量也就不同。 • 信源熵(信息熵):平均自信息量,自信息量的数学期望。
• 单位:取决于对数选取的底。一般选用以2为底,其单位 为比特/符号。 • 意义:信息熵从整个信源的统计特性来考虑,是从平均意 义上来表征信源的总体不确定度。信源给定,概率空间就 给定,信源熵就是一个确定值,不同的信源因概率空间不 同,其熵值也不同。
余 映 云南大学 13/38
熵的性质
• (4) 香农辅助定理/极值性
• 对任意两个消息数相同的信源 ,有
• 任一概率分布 p(xi),对其它概率分布 p(yi) 的自信息取数 学期望时,必不小于 p(xi) 本身的熵。 • 用途:主要用于数学证明。
余 映 云南大学 14/38
熵的性质
• (5) (离散信源)最大熵定理
12/38
熵的性质
• (3) 确定性
H(1,0)=H(1,0,0)=H(1,0,0,0)=…=H(1,0, …,0)=0 • 在概率矢量 P(X)=[p(x1),p(x2),…,p(xn)] 中 • 当 p(xi)=1 时,-p(xi)logp(xi)=0; • 其余变量 p(xj) = 0 (j≠i), • 只要信源符号表中有一个符号出现概率为1,信源熵就等 于0。在概率空间中,如果有两个基本事实,其中一个是 必然事件,另一个则是不可能事件,因此没有不确定性, 熵必为0。当然可以类推到 n 个基本事件构成的概率空间。
余 映 云南大学
21/38
熵的性质
• 证明:
余 映 云南大学
22/38
2.2.2 平均互信息量
余 映 云南大学
23/38
平均互信息量
• 自信息量 → 熵 • 互信息量 → 平均互信息量 • • 定义:两个离散随机事件集合 X 和 Y ,若其任意 两事件间的互信息量为 I(xi;yj),则其联合概率 加权的统计平均值,称为两集合的平均互信息量, 用I(X;Y)表示。
• ① 观察者站在输出端 • I(X;Y) = H(X) – H(X/Y)
• H(X) — X 的先验不确定度。 • H(X/Y) — 疑义度(损失熵)。 表示已知Y 后,对X 仍然存在的不确 定度。代表了在信道中损失的信息。 • I(X;Y) — 已知Y 后关于X 的不确定度 减少的量。从Y 获得的关于X 的平均 信息量。
余 映 云南大学 10/38
熵的性质
• (1) 非负性 H(X) ≥ 0
• 因为随机变量 X 所有取值的概率分布满足 0 ≤ p(xi) ≤ 1; • 取对数的底大于 1 时 -log p(xi) ≥ 0,而 -p(xi)log p(xi) ≥ 0, 所以熵 H(X) ≥ 0; • 只有当随机变量是一确知量时,熵 H(X) = 0。
余 映 云南大学
5/38
信源熵的三种物理含义
• 信源熵是从平均意义上表征信源总体特性的量。 具有以下三种物理含义 – ① 表示信源输出一个消息/符号所提供的平均 信息量; – ② 表示信源输出前,信源的平均不确定性; – ③ 信源熵 H(X) 可用来反映了变量 X 的随机性。
• 如,若变量 X 取 x1 和 x2 是等概率的,则它的随机 性大。若变量 X 取 x1 的概率比取 x2 的概率大很多, 则它的随机性就小。
余 映 云南大学 3/38
信源熵
• 举例
• 一布袋内放100个球,其中80个是黄色的,20个是白色的。 随便摸出一个球,猜测是什么颜色,其概率空间为
– x1:表示摸出的是黄球,x2:表示摸出的是白球
余 映 云南大学
4/38
信源熵与平均自信息量
• 信源熵和平均自信息量两者在数值上是相等的, 但含意并不相同。
余 映 云南大学
24/38
平均互信息量的定义
• 互信息量 I(xi; yj) 在联合概率空间 P(XY) 中的统 计平均值
称为 Y 对 X 的平均互信息量。 • X 对 Y 的平均互信息定义为
余 映 云南大学
25/38
平均互信息量的定义
• 平均互信息的第三种定义
• 平均互信息 I(X;Y) 克服了互信息量 I(xi;yj) 的随机 性,成为一个确定的量。
熵的性质
• 举例
• 熵质
• 从图中可以看出熵函数的一些性质:
– 若二进制信源输出是确定的(p=1或p=0),则该信源不 提供任何信息; – 当二进制信源符号0和1等概率发生时,信源的熵达到 最大值,等于1比特信息;
• 二元数字可看成是二进制信源的输出
余 映 云南大学 8/38
条件熵
• 条件熵是在联合符号集合(X,Y)上的条件自信息量 的数学期望(联合概率加权统计平均值)。
• 在已知 Y 时,X 的条件熵(平均不确定度)为
• 已知 X 时,Y 的条件熵为
• 条件熵是一个确定的值
余 映 云南大学 9/38
熵的性质
• 熵函数H(X)是p(x1),p(x2),…,p(xn)的n元函数(实 际上,因Σp(xi)=1,独立变量只有n-1个): • (1) 非负性 • (2) 对称性 • (3) 确定性 • (4) 极值性(香农辅助定理) • (5) 最大熵定理(离散信源) • (6) 条件熵不大于无条件熵 • (7) 可加性
信源熵
• 举例:
• 有两个信源,其概率空间分别为 • 本例结论: • Y 的二个输出消息是等可能性的,在没有输出消息以前, 事先猜测哪一个消息出现的不确定性要大;信源Y 比信源 X 的平均不确定性大; • X 的二个输出消息不是等概率的,事先猜测 x1 和 x2 哪一 个出现,虽然具有不确定性,但大致可以猜出 x1 会出现, 因为 x1 出现的概率大,所以信源 X 的不确定性要小; • 信息熵反映的就是信源输出前平均不确定程度的大小。
余 映 云南大学
6/38
信源熵
• 举例:
• 有两个信源,其概率空间分别为 • 信息熵 H(X) = -0.99log0.99-0.01log0.01 = 0.08 比特/符号 H(Y) = -0.5log0.5-0.5log0.5 = 1 比特/符号 可见 H(Y)>H(X)
余 映 云南大学
7/38
– 信源熵表征信源的平均不确定度,平均自信息量是消 除不确定度所需要的信息的量度; – 信源一定,不管它是否输出符号,只要这些符号具有 某种概率分布,就决定了信源的熵值;信息量只有当 信源输出符号并被接收后,才有意义。这就是给予接 收者的信息度量。 – 在离散信源的情况下,信源熵的值是有限的;当信源 输出连续消息时,信息量的值可以是无穷大。
余 映 云南大学
31/38
平均互信息量的物理含义
• ② 观察者站在输入端 • I(Y;X) = H(Y) – H(Y/X)
• H(Y/X) — 噪声熵。表示发出X 后, 对Y 仍然存在的平均不确定度。若 信道中没有噪声,发送端和接收端 必存在确定的对应关系,发出X 后 必能确定对应的Y,而现在不能完全 确定对应的Y,这显然是由信道噪声 所引起的。 • I(Y;X) — 发出X 前、后关于Y 的不 确定度减少的量。
熵的性质
• 举例
• 二进制信源是离散信源的一个特例,该信源符号只有二个: 0和1,设符号输出的概率分别为 p 和 1-p • 信源的概率空间为 • 二进制信源的信息熵为
• 这时信息熵 H(X) 是 p 的函数。p 取值于 [0, 1] 区间,我们 可以画出熵函数 H(p) 的曲线。
余 映 云南大学 16/38
• 离散无记忆信源输出 n 个不同的信息符号,当且仅当各个 符号出现概率相等时(即 p(xi)=1/n ),熵最大。 • H[ p(x1), p(x2), … , p(xn) ] ≤ H(1/n,1/n,…,1/n) = logn • 信源出现任何符号的概率相等时,不确定性最大。
余 映 云南大学
15/38
余 映 云南大学
32/38
平均互信息量的物理含义
• ② 观察者站在输入端 • I(Y;X) = H(Y) – H(Y/X)
• 平均互信息量也可以用接收端(信宿)的熵为参考,且等 于信宿熵减掉一个条件熵,同样表征接收端平均每收到一 个符号所获得的信息量。 • 如果信道上没有噪声,则平均每收到一个符号所获得的信 息量即是信宿熵,即I(X;Y) =H(Y); • 如果信道上存在噪声,则平均每收到一个符号所获得的信 息量,它比起信宿熵小了一个条件熵 H(Y/X),这个条件 熵是由于噪声引起的,故称为噪声熵。
余 映 云南大学
11/38
熵的性质
• (2) 对称性
• 当变量p(x1),p(x2),…,p(xn) 的顺序任意互换时,熵函数的 值不变,即
• 说明:熵只与随机变量的总体结构有关,与信源的总体统 计特性有关。如果某些信源的统计特性相同(含有的符号 数和概率分布相同),那么这些信源的熵就相同。
余 映 云南大学
余 映 云南大学
35/38
平均互信息量的物理含义
• 结论
• I(X;Y) = H(X) – H(X/Y) • I(Y;X) = H(Y) – H(Y/X) • I(X;Y) = H(X) +H(Y) –H(XY) • 以上三种不同的角度说明: – 平均互信息量是一个表征信息流通的量,其物理意义 就是信源端的信息通过信道后传输到信宿端的平均信 息量。 – 从一个事件获取另一个事件的信息需要消除不确定度, 一旦消除了不确定度,就获得了信息。
• 条件熵H(X/Y)表征了对接收的每一个符号的正确性所产生怀疑的程度, 故称为疑义度。
余 映 云南大学
30/38
平均互信息量的物理含义
• ② 观察者站在输入端 • I(Y;X) = H(Y) – H(Y/X)
2.2 信源熵和平均互信息量
余 映 云南大学
1/52
2.2.1 信源熵(平均自信息量)
余 映 云南大学
2/52
信源熵
• 自信息是一个随机变量:指某一信源发出某一消息所含有 的信息量。发出的消息不同,含有的信息量也就不同。 • 信源熵(信息熵):平均自信息量,自信息量的数学期望。
• 单位:取决于对数选取的底。一般选用以2为底,其单位 为比特/符号。 • 意义:信息熵从整个信源的统计特性来考虑,是从平均意 义上来表征信源的总体不确定度。信源给定,概率空间就 给定,信源熵就是一个确定值,不同的信源因概率空间不 同,其熵值也不同。
余 映 云南大学 13/38
熵的性质
• (4) 香农辅助定理/极值性
• 对任意两个消息数相同的信源 ,有
• 任一概率分布 p(xi),对其它概率分布 p(yi) 的自信息取数 学期望时,必不小于 p(xi) 本身的熵。 • 用途:主要用于数学证明。
余 映 云南大学 14/38
熵的性质
• (5) (离散信源)最大熵定理
12/38
熵的性质
• (3) 确定性
H(1,0)=H(1,0,0)=H(1,0,0,0)=…=H(1,0, …,0)=0 • 在概率矢量 P(X)=[p(x1),p(x2),…,p(xn)] 中 • 当 p(xi)=1 时,-p(xi)logp(xi)=0; • 其余变量 p(xj) = 0 (j≠i), • 只要信源符号表中有一个符号出现概率为1,信源熵就等 于0。在概率空间中,如果有两个基本事实,其中一个是 必然事件,另一个则是不可能事件,因此没有不确定性, 熵必为0。当然可以类推到 n 个基本事件构成的概率空间。
余 映 云南大学
21/38
熵的性质
• 证明:
余 映 云南大学
22/38
2.2.2 平均互信息量
余 映 云南大学
23/38
平均互信息量
• 自信息量 → 熵 • 互信息量 → 平均互信息量 • • 定义:两个离散随机事件集合 X 和 Y ,若其任意 两事件间的互信息量为 I(xi;yj),则其联合概率 加权的统计平均值,称为两集合的平均互信息量, 用I(X;Y)表示。
• ① 观察者站在输出端 • I(X;Y) = H(X) – H(X/Y)
• H(X) — X 的先验不确定度。 • H(X/Y) — 疑义度(损失熵)。 表示已知Y 后,对X 仍然存在的不确 定度。代表了在信道中损失的信息。 • I(X;Y) — 已知Y 后关于X 的不确定度 减少的量。从Y 获得的关于X 的平均 信息量。
余 映 云南大学 10/38
熵的性质
• (1) 非负性 H(X) ≥ 0
• 因为随机变量 X 所有取值的概率分布满足 0 ≤ p(xi) ≤ 1; • 取对数的底大于 1 时 -log p(xi) ≥ 0,而 -p(xi)log p(xi) ≥ 0, 所以熵 H(X) ≥ 0; • 只有当随机变量是一确知量时,熵 H(X) = 0。
余 映 云南大学
5/38
信源熵的三种物理含义
• 信源熵是从平均意义上表征信源总体特性的量。 具有以下三种物理含义 – ① 表示信源输出一个消息/符号所提供的平均 信息量; – ② 表示信源输出前,信源的平均不确定性; – ③ 信源熵 H(X) 可用来反映了变量 X 的随机性。
• 如,若变量 X 取 x1 和 x2 是等概率的,则它的随机 性大。若变量 X 取 x1 的概率比取 x2 的概率大很多, 则它的随机性就小。
余 映 云南大学 3/38
信源熵
• 举例
• 一布袋内放100个球,其中80个是黄色的,20个是白色的。 随便摸出一个球,猜测是什么颜色,其概率空间为
– x1:表示摸出的是黄球,x2:表示摸出的是白球
余 映 云南大学
4/38
信源熵与平均自信息量
• 信源熵和平均自信息量两者在数值上是相等的, 但含意并不相同。
余 映 云南大学
24/38
平均互信息量的定义
• 互信息量 I(xi; yj) 在联合概率空间 P(XY) 中的统 计平均值
称为 Y 对 X 的平均互信息量。 • X 对 Y 的平均互信息定义为
余 映 云南大学
25/38
平均互信息量的定义
• 平均互信息的第三种定义
• 平均互信息 I(X;Y) 克服了互信息量 I(xi;yj) 的随机 性,成为一个确定的量。
熵的性质
• 举例
• 熵质
• 从图中可以看出熵函数的一些性质:
– 若二进制信源输出是确定的(p=1或p=0),则该信源不 提供任何信息; – 当二进制信源符号0和1等概率发生时,信源的熵达到 最大值,等于1比特信息;
• 二元数字可看成是二进制信源的输出
余 映 云南大学 8/38
条件熵
• 条件熵是在联合符号集合(X,Y)上的条件自信息量 的数学期望(联合概率加权统计平均值)。
• 在已知 Y 时,X 的条件熵(平均不确定度)为
• 已知 X 时,Y 的条件熵为
• 条件熵是一个确定的值
余 映 云南大学 9/38
熵的性质
• 熵函数H(X)是p(x1),p(x2),…,p(xn)的n元函数(实 际上,因Σp(xi)=1,独立变量只有n-1个): • (1) 非负性 • (2) 对称性 • (3) 确定性 • (4) 极值性(香农辅助定理) • (5) 最大熵定理(离散信源) • (6) 条件熵不大于无条件熵 • (7) 可加性
信源熵
• 举例:
• 有两个信源,其概率空间分别为 • 本例结论: • Y 的二个输出消息是等可能性的,在没有输出消息以前, 事先猜测哪一个消息出现的不确定性要大;信源Y 比信源 X 的平均不确定性大; • X 的二个输出消息不是等概率的,事先猜测 x1 和 x2 哪一 个出现,虽然具有不确定性,但大致可以猜出 x1 会出现, 因为 x1 出现的概率大,所以信源 X 的不确定性要小; • 信息熵反映的就是信源输出前平均不确定程度的大小。
余 映 云南大学
6/38
信源熵
• 举例:
• 有两个信源,其概率空间分别为 • 信息熵 H(X) = -0.99log0.99-0.01log0.01 = 0.08 比特/符号 H(Y) = -0.5log0.5-0.5log0.5 = 1 比特/符号 可见 H(Y)>H(X)
余 映 云南大学
7/38
– 信源熵表征信源的平均不确定度,平均自信息量是消 除不确定度所需要的信息的量度; – 信源一定,不管它是否输出符号,只要这些符号具有 某种概率分布,就决定了信源的熵值;信息量只有当 信源输出符号并被接收后,才有意义。这就是给予接 收者的信息度量。 – 在离散信源的情况下,信源熵的值是有限的;当信源 输出连续消息时,信息量的值可以是无穷大。
余 映 云南大学
31/38
平均互信息量的物理含义
• ② 观察者站在输入端 • I(Y;X) = H(Y) – H(Y/X)
• H(Y/X) — 噪声熵。表示发出X 后, 对Y 仍然存在的平均不确定度。若 信道中没有噪声,发送端和接收端 必存在确定的对应关系,发出X 后 必能确定对应的Y,而现在不能完全 确定对应的Y,这显然是由信道噪声 所引起的。 • I(Y;X) — 发出X 前、后关于Y 的不 确定度减少的量。
熵的性质
• 举例
• 二进制信源是离散信源的一个特例,该信源符号只有二个: 0和1,设符号输出的概率分别为 p 和 1-p • 信源的概率空间为 • 二进制信源的信息熵为
• 这时信息熵 H(X) 是 p 的函数。p 取值于 [0, 1] 区间,我们 可以画出熵函数 H(p) 的曲线。
余 映 云南大学 16/38
• 离散无记忆信源输出 n 个不同的信息符号,当且仅当各个 符号出现概率相等时(即 p(xi)=1/n ),熵最大。 • H[ p(x1), p(x2), … , p(xn) ] ≤ H(1/n,1/n,…,1/n) = logn • 信源出现任何符号的概率相等时,不确定性最大。
余 映 云南大学
15/38
余 映 云南大学
32/38
平均互信息量的物理含义
• ② 观察者站在输入端 • I(Y;X) = H(Y) – H(Y/X)
• 平均互信息量也可以用接收端(信宿)的熵为参考,且等 于信宿熵减掉一个条件熵,同样表征接收端平均每收到一 个符号所获得的信息量。 • 如果信道上没有噪声,则平均每收到一个符号所获得的信 息量即是信宿熵,即I(X;Y) =H(Y); • 如果信道上存在噪声,则平均每收到一个符号所获得的信 息量,它比起信宿熵小了一个条件熵 H(Y/X),这个条件 熵是由于噪声引起的,故称为噪声熵。
余 映 云南大学
11/38
熵的性质
• (2) 对称性
• 当变量p(x1),p(x2),…,p(xn) 的顺序任意互换时,熵函数的 值不变,即
• 说明:熵只与随机变量的总体结构有关,与信源的总体统 计特性有关。如果某些信源的统计特性相同(含有的符号 数和概率分布相同),那么这些信源的熵就相同。
余 映 云南大学
余 映 云南大学
35/38
平均互信息量的物理含义
• 结论
• I(X;Y) = H(X) – H(X/Y) • I(Y;X) = H(Y) – H(Y/X) • I(X;Y) = H(X) +H(Y) –H(XY) • 以上三种不同的角度说明: – 平均互信息量是一个表征信息流通的量,其物理意义 就是信源端的信息通过信道后传输到信宿端的平均信 息量。 – 从一个事件获取另一个事件的信息需要消除不确定度, 一旦消除了不确定度,就获得了信息。