第三章 信源及信源熵
信息论 第三章 信源及信源熵

• (1)求信源熵 • (2)求由m个“0”和(100-m)个“1”构成
的某一特定序列自信息量的表达式
• (3)计算由100个符号构成的符号序列的熵
• 3.3.2离散平稳有记忆信源 • 熵函数的链规则:
X x1,x2,,xN ,其中每个随机变量之间存在统计依赖关系。 H ( X ) H ( X1X 2 X N ) H ( X1) H ( X 2 X1) H ( X 3 X1X 2 ) H (X N X1X 2 X N1)
i
j
则称其具有遍历性,w
为平稳分布
j
• 遍历的马尔可夫信源熵率: • (1)齐次的马尔可夫信源:视作平稳的信源来处理 • 遍历的马尔可夫信源都是齐次的 • 遍历的马尔可夫信源:视作平稳的信源来处理 • (2) m阶马尔可夫信源: 只与最近的m个符号有关.
H
=
lim
N
H
(
X
N
X1X 2 X N 1)
件不断增加,平均符号熵
及HN (条X) 件熵
• H ( X N X1X 2 X3 X N1) 均随之减少。
• 当 N 时 HN (X)=H ( X N X1X 2 X N1)
• 即为熵率,它表示信源输出的符合序列中,平均 每个符号所携带的信息熵。
• 求熵率的两种途径:
• 1.极限平均符号熵 • 2.极限条件熵
4
)
0
0.5
0
0 0.5 0
0.5 0 0.2
0.5 0
=(w 1
0.8
w2
w3
w4 )
0.2w1 0.5w 2
+0.5w3 =w2 +0.2w4 =w3
lim lim 现在令N ,则有H (X )
第3章 离散信源

时间长度为bi,则该信源的时间熵定义为:Ht(X)=H(X)/b. 其中b为信源符号的
平均时间长度。
M
b p( xi ) bi
i 1
s / 符号
离散信源的时间熵(续)
K重符号序列离散无记忆信源的时间熵:
K K Ht (X ) H(X ) / B
bit / s 其中B Kb
为K重符号序列消息的平均时间长度。由于信源无记忆,上式也可以写成:
bit / s
由于信源有记忆,所以有:
K ( H t X ) KH ( X ) (Kb) KH ( X ) /(Kb) H ( X ) / b
bit / s
有记忆信源与无记忆信源相比,对外提供信息量的速度下降了。
离散信源的时间熵(续)
马尔可夫信源的时间熵: 若信源从状态Si转移到状态Sj,发出的符号是xij,它的时间长度设为bij,则 信源从状态Si发生转移并发出一个符号时,符号的平均长度为:
信源分类
若离散信源输出符号彼此间相互独立,而且所有符号服从同一种概率分布,则称之 为简单无记忆信源;
若输出符号间彼此相关,且每个符号只与它前面的一个符号相关,而这种相关性可 以用符号间的转移概率来描述,则称之为马尔可夫信源。
离散信源的熵
单符号离散无记忆信源熵: 若信源X含有M个符号,而且每个符号相互独立,则当信源每次发送一个 符号代表一条消息时,其信源熵可以表示为:
H(X ) 100% H ( X )max
信源符号的相关性越大,信源效率越低,要提高信源效率,要设法降 低符号之间的相关性。
信源的效率与冗余度(续)
(2)信源冗余度:
H ( X )max H ( X ) H(X ) R 1 1 100% H ( X )max H ( X )max
信息论与编码2-信源及信源熵

实例3
随机天气状况信源,其中晴天、雨天、雪天出现的概率分别是0.7、0.2、0.1。
实例1
随机二进制信源,其中每个二进制符号(0或1)出现的概率为0.5。
离散无记忆信源的实例
离散有记忆信源
03
离散有记忆信源是输出符号序列中符号与符号之间存在记忆关系的离散随机序列。
应用场景
广泛应用于网络通信、金融交易、军事通信等领域,保障信息安全和隐私。
加密通信
03
应用景
广泛应用于通信系统、数据存储等领域,如CD、DVD、硬盘等存储设备的纠错编码。
01
纠错原理
通过在数据中添加冗余信息,检测和纠正数据传输过程中的错误。
02
常见纠错编码
如奇偶校验码、海明码、循环冗余校验码等,这些编码利用数学原理对数据进行校验,确保数据的正确性。
纠错编码
THANKS
感谢观看
离散有记忆信源的输出符号之间存在统计依赖关系,这种关系会影响信息熵的计算。
定义
性质
离散有记忆信源的定义与性质
计算方法
条件熵
联合熵
离散有记忆信源熵的计算
离散有记忆信源熵是描述信源不确定性的度量,可以通过统计模型来计算。具体计算方法包括条件熵和联合熵等。
条件熵是在给定前一个或多个符号条件下,输出符号的熵。
应用场景
广泛应用于文件存储、网络传输、多媒体处理等领域,如JPEG图片压缩、MP3音频压缩等。
数据压缩原理
通过去除数据中的冗余信息,将数据压缩至更小的存储空间,提高存储和传输效率。
数据压缩
加密原理
通过特定的加密算法将明文转换为密文,确保信息在传输过程中的保密性。
第三章 信息论基础知识(Part2)

信息论基础知识主要内容:信源的数学模型 信源编码定理 信源编码算法 信道容量 通信的容限第 1 页 2011-2-21引言一、信息论的研究范畴 信息论是研究信息的基本性质及度量方法,研究信息的获取、传输、存储和处理的一般规律的科学。
狭义信息论:通信的数学理论,主要研究信息的度量方 法,各种信源、信道的描述和信源、信道的编码定理。
实用信息论:信息传输和处理问题,也就是狭义信息 论方法在调制解调、编码译码以及检测理论等领域的应用。
广义信息论,包括信息论在自然和社会中的新的应用, 如模式识别、机器翻译、自学习自组织系统、心理学、生物 学、经济学、社会学等一切与信息问题有关的领域。
第 2 页 2011-2-21二、信息论回答的问题通信信道中,信息能够可靠传 输的最高速率是多少?噪声信道编码定理 噪声信道编码定理信息进行压缩后,依然可以从已压 缩信息中以无差错或低差错恢复的 最低速率是多少?香农信源编码理论 香农信源编码理论最佳系统的复杂度是多少?第 3 页2011-2-21三、香农的贡献香农(Claude Elwood Shannon,1916~2001年), 美国数学家,信息论的创始人。
创造性的采用概率论的方法来研究通信中的问题,并且对 信息给予了科学的定量描述,第一次提出了信息熵的概念。
1948年,《通信的数学理论》(A mathematical theory of communication ) 以及1949年,《噪声下的通信》标志了信息论的创立。
1949年,《保密通信的信息理论》,用信息论的观点对信息保密问题做了 全面的论述,奠定了密码学的基础。
1959年,《保真度准则下的离散信源编码定理》,它是数据压缩的数学基 础,为信源编码的研究奠定了基础。
1961年发表“双路通信信道”,开拓了多用户信息理论(网络信息论)的研 究;第 4 页 2011-2-21四、信息论发展历史1924年 奈奎斯特(Nyquist,H.)总结了信号带宽和信息速率之 间的关系。
二次扩展信源的熵

二次扩展信源的熵:
H ( X ) H ( X ) p(i )log 2 p(i ) 3
2 i 1
9
2、离散平稳有记忆信源的概念及其信源熵
离散平稳有记忆信源:输出的符号序列是平稳随机序 列,并且符号之间是相关的,即不是统计独立的信源。 数学模型为:
X X1 X 2 X 3
例3.2
设有一离散无记忆信源X,其概率空间为 x1 x2 x3 X 1 1 1 P X 2 4 4 求该信源的熵率及二次扩展信源的熵。
注意:题目中的概率空间不是离散多符号无记忆信源 的概率空间,而是其对应的离散单符号信源的概率空 间。 该例题是对离散平稳无记忆信源求熵率的一个练习,
二次扩展信源的概率空间:
X 2 1 ( x1 x1 ) 2 ( x1 x2 ) 3 ( x1 x3 ) 4 ( x2 x1 ) 5 ( x2 x2 ) 2 1/ 8 1/ 8 1/ 8 1/16 P( X ) 1/ 4 6 ( x2 x3 ) 7 ( x3 x1 ) 8 ( x3 x2 ) 9 ( x3 x3 ) 1/16 1/ 8 1/16 1/16
X X1 X 2 X 3
离散单符号信源的 N 次平稳无记忆扩展信源( N 次无记忆扩展信源)
它是一种N 次扩展信源,其每次输出的是 N 长符号序 列,数学模型为 N 维离散随机变量序列(随机矢量)
X X1 X 2 X N
其中每个随机变量之间统计独立。由平稳性知,每个 随机变量统计特性相同,故该信源又可表示为:
比特/号
2) 如果不考虑符号间的相关性,则信源熵为
1 4 11 H ( X ) H ( , , ) 1.542 比特/符号 4 9 36
第三章离散信源及离散熵

电子科技大学
H(X) = −∑p(xi )lbp(xi )
i =1
4
1 1 1 1 1 1 = − lb − lb − lb × 2 2 2 4 4 8 8
2011-3-13
1 1 1 1 1 1 = lb2 + lb4 + lb8 = + × 2 + × 3 2 4 4 2 4 4 bol = 1.75(bit / sym )
2011-3-13
1、离散平稳信源及其数学模型 对于多符号离散信源发出的符号序列 X1X2 L 如果任意两个不同时刻k …, 如果任意两个不同时刻k和l,k=1,2, …, l=1,2, …,其概率分布相同,即 …,其概率分布相同, P(Xk ) = P(Xl ) 则称该多符号离散信源为一维离散平稳 信源。 信源。
该信源的离散熵
2011-3-13
H(X1X2 ) = −∑p(ai )lbp(ai )
= −∑∑p(xi1 xi 2 )lbp(xi1 xi 2 )
i1 =1i 2 =1 n n n n
n2
电子科技大学
i =1
= −∑∑p(xi1 xi 2 )lbp(xi1 )p(xi 2 / xi1 )
i1 =1i 2 =1
电子科技大学
H(X) = −∑p(i)lbp(i)
i =1
6
1 1 bol = − lb × 6 = lb6 = 2.585(bit / sym ) 6 6
2011-3-13
例2,求某一天简单的天气气象这一信源 的离散熵。 的离散熵。 该信源的数学模型为: 解: 该信源的数学模型为:
) ) ) 雨 x1(晴 x2(阴 x3( ) x4(雪 X 1 1 1 P(X) = 1 2 4 8 8
信息与编码第3章 信源及信源熵5

解:为了计算方便,假设每类中汉字出现 是等概的,得表
类别 1 2 3 4
汉字个数 140 625-140=485 2400-625=1775 7600
所占概率 0.5 0.85-0.5=0.35 0.997-0.85=0.147 0.003
每个汉字的概率 0.5/140 0.35/485 0.147/1775 0.003/7600
H1=H(X) =9.773 bit/汉字 H0=13.288 bit/汉字
1 H1 0.264
H0
分析
该例题是求在不考虑符号间相关性的条件下求 剩余度,所以只要求出信源熵和极大熵即可。
总结
1、信源的相关性 2、信源的利用率和剩余度
第三章 信源及信源熵
主要学习内容
一、信源的分类及其数学模型 二、离散单符号信源、离散多符号信源的概念
及其信源熵 三、离散平稳无记忆信源、离散平稳有记忆信
源的概念及其信源熵 四、马尔科夫信源及其信源熵 五、信源的相关性、利用率和剩余度
1、信源的相关性
含义:也就是信源输出符号间的相互依赖关系 如何度量:用信源符号的利用率和剩余度
剩余度产生的原因
1)信源符号间的相关性,相关度越大,符号间的依 赖关系就越大,信源的极限熵H∞就越小,剩余度就 越大。
2)信源输出消息的不等概分布使信源的极限熵H∞减 小。
当信源输出符号间不存在相关性,且输出符号的概 率分布为等概分布时,信源的极限熵H∞达到最大, 等于H0
英文信源
H0=4.76 H1=4.03 H2=3.32 H3=3.1
H5=1.65
H =1.4
H 1.4 0.29
H0 4.76
1 0.71
5种文字在不同近似程度下的熵
信息论第3章信源及信息熵

举例
数学描述
离散信源 (数字信源)
连续信号
文字、数据、 离散化图象
离散随机变量 序列
跳远比赛的结果、语音 连续随机变量
信号抽样以后
序列
波形信源 (模拟信源)
语音、音乐、热噪声、 图形、图象
不常见
随机过程
表3.1 信源的分类
3.1 信源的分类及其数学模型
我们还可以根据各维随机变量的概率分布是否随时间的推移 而变化将信源分为平稳信源和非平稳信源,根据随机变量间 是否统计独立将信源分为有记忆信源和无记忆信源。
定义3.2 随机变量序列中,对前N个随机变量的联合熵求平
均:
HN
(X)
1 N
H ( X1X 2
XN)
称为平均符号熵。如果当N
时上式极限存在,则
lim
N
H
N
(X)
称为熵率,或称为极限熵,记为
def
H
lim
N
H
N
(
X
)
3.3.1 离散平稳无记忆信源
离散平稳无记忆信源输出的符号序列是平稳随机序列,并且
H(X ) H(X1X2 XN ) H ( X1) H ( X2 | X1) H ( X3 | X1X 2 ) H ( X N | X1X 2 X N1)
定理3.1 对于离散平稳信源,有以下几个结论:
(1)条件熵 H (X N | X1X 2 X N1) 随N的增加是递减的;
(2)N给定时平均符号熵大于等于条件熵,即
s1
si p(s j
| si )
s q
m
状态空间由所有状态及状态间的状态转移概率组成。通过引
入状态转移概率,可以将对马尔可夫信源的研究转化为对马 尔可夫链的研究。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X
P(
X
)
x1 p1
x2 p2
... xq
...
pq
q
且 0 pi 1, pi 1
i 1
3.2 离散单符号信源
信源输出信息能力
信源的平均自信息量(信息熵):信源输出的所有消息的自
信息的统计平均值。
q
H ( X ) E log p(xi ) p(xi ) log p(xi )
掷骰子: 为六元信源。
X 1
P(
X
)
p1
2 p2
3 p3
4 p4
5 p5
6
p6
,且
i
6 1
pi
1
则该信源的熵为:
6
H(X) pi log pi i 1
3.3 离散多符号信源
定义
离散多符号信源:输出为符号序列。
用离散随机变量序列(随机矢量)表示,即:
举例
X
X1X2 XN
以8位电话号码为研究对象的试验
信 源
平稳信源
离散平稳信源
离散有记忆信源
连续平稳信源
记忆长度无限长:H 记忆长度有限(马尔可夫信源):Hm
1
非平稳信源
3.2 离散单符号信源
定义
输出单个离散取值的符号的信源称为离散单符号信源。 是最简单也是最基本的信源,是组成实际信源的基本单元。 用一个离散随机变量表示。
数学模型
布完全相同,即对于任意的 N 0, 1, 2, ,X i X i1 X iN 和 X j X j1 X jN 具有相同的概率分布。也就是:
P(Xi ) P(X j ) P( Xi Xi1) P( X j X j1)
P( X i X i1 X iN ) P( X j X j1 X jN )
中文自然语言文字
离散多符号信源的实质
不是多个信源
而是以由一个信源发出的多个符号为研究对象的等价信源。
3.3 离散多符号信源
理清与离散多符号信源相关的几种常见信源的关系:
离散平稳信源
离散多符号信源输出的随机变量序列的统计特性往往比 较复杂,分析起来比较困难。
为了便于分析,假设信源输出的是平稳随机序列,即:
第三章 信源及信源熵
3.1 信源的分类及其数学模型 3.2 离散单符号信源 3.3 离散多符号信源
3.3.1 离散平稳信源 3.3.2 离散平稳无记忆信源 3.3.3 离散平稳有记忆信源 3.3.4 马尔可夫信源
3.4 信源的相关性和剩余度
3.1 信源的分类及其数学模型
信源的分类
➢ 分类1:根据信源输出的消息在时间和取值上是离散或连续分。
时间(空间) 取值 信源种类
举例
数学描述
离散
离散信源 离离散随机变量序列
离散
连续
连续信号
跳远比赛的结果、 连续随机变量序列 语音信号抽样以后
连续
连续
波形信源 (模拟信源)
语音、音乐、热噪 声、图形、图像
随机过程
连续 离散
不常见
3.1 信源的分类及其数学模型
➢ 分类2:根据各维随机变量的概率分布是否随时间的推移而变化分。 1)平稳信源 2)非平稳信源
➢ 分类3:根据随机变量间是否统计独立分。 1)有记忆信源 2)无记忆信源
3.1 信源的分类及其数学模型
➢ 实际信源分类:
离散无记忆信源:H (X) NH (X)
HX1 HX2 HXN
H
X2
X 1
H
X3 X 2
H
XN
X N 1
H X3 X 2 X 1 H X 4 X 2 X3 H X N X X N2 N1
举例1
i 1
二元信源X 输出符号只有两个,设为0和1。输出符号发生的
概率分别为p和q,p+q=1。即信源的概率空间为
X
则该信源的熵为:
P
0 p
1 q
H(X) p log p q log q
p log p ( 1 p)log ( 1 p) H(p)
3.2 离散单符号信源
举例2
第三章 信源及信源熵
信源
编码器
信道
译码器
信宿
噪声源
信源的主要问题:
➢ 信源的描述(数学建模); ➢ 信源输出信息能力的定量分析(信源熵); ➢ 信源信息的有效表示(信息编码)。
第三章 信源及信源熵
信源
编码器
信道
译码器
信宿
噪声源
信源的主要问题:
➢ 信源的描述(数学建模); ➢ 信源输出信息能力的定量分析(信源熵); ➢ 信源信息的有效表示(信息编码)。
之间是统计独立的,即: 称该多符号信源为离散无记忆信源的N次扩展信源。
举例 以8位电话号码为研究对象的试验
一般情况下,信源在不同时刻发出的符号之间是相互 依赖的,这种信源就为有记忆信源。
3.3 离散多符号信源
离散平稳有记忆信源 实际上,许多信源发出的符号往往只与前若干个符号的
依赖关系强,而与更前面符号的依赖关系弱。因此,在研究 分析时可限制随机序列的记忆长度。
序列的统计特性与时间的推移(起点)无关。
实际中很多信源也满足这个假设。 举例 以8位电话号码为研究对象的试验
均为离散平 稳信源
中文自然语言文字
离散平稳信源又分为无记忆信源和有记忆信源。
3.3 离散多符号信源
离散平稳无记忆信源 信源发出的各个符号彼此是统计独立的。 对于多符号信源X=(X1 X2 …XN),各随机变量Xi(i=1,2, …,N)
i N 1
P X jN
X X X j j1
j N 1
X jN )
离散平稳信源的条件概率分布与时间起点无关,只与关联长度N 有关。
3.3.1 离散平稳信源
推论2
P(Xi ) P(X j ) P( Xi Xi1) P( X j X j1)
P( X i X i1 X iN ) P( X j X j1 X jN )
即各维联合概率分布均与时间起点无关的信源称为离散平稳信源。
3.3.1 离散平稳信源
P(Xi ) P(X j )
推论1
P( Xi Xi1) P( X j X j1)
P
X i1
X i
P X j1 X j
P( X i X i1
X iN ) P( X j X j1
P
X iN
X X X i i1
当记忆长度为m+1时,称这种有记忆信源为m阶马尔可夫 信源,即:
信源每次发出的符号只与前m个符号有关,与更前面的 符号无关。
举例(离散平稳有记忆信源) 中文自然语言文字
3.3.1 离散平稳信源
定义:对于随机变量序列 X1, X 2, , X n , ,在任意两个不同
时刻 i 和 j ( i 和 j 为大于1的任意整数)信源发出消息的概率分