信息论与编码(清华出版社)第5章信源编码-Qtech

合集下载

信息论与编码Chapter 5

15
5.2 无失真信源编码
更一般的弱大数定理
C SWUST 2011 - All rights reserved
16
5.2 无失真信源编码
AEP( Asymptotic Equipartition Property) 渐进等同分割原理
n→∞
等同分割-> 等概率-> 最大熵定理-> 定长编码定理
C SWUST 2011 - All rights reserved
信源编码
source coding
C SWUST 2011 - All rights reserved
西南科大信息工程学院—马强
引子
信源熵：H∞ (X)是理论上传输信源所需的最少比特数；实际中存在信息冗余，如何减少或消除这些冗余？信息率失真函数：在一定失真允许下，所需要的传输信源的最小比特数；如何来实现这一过程？信源编码：无失真信源编码(第一极限定理)、限失真信源编码(第三极限定理)、信道编码定理(第二极限定理)
C SWUST 2011 - All rights reserved
27
5.2 无失真信源编码
香农编码方法 Fano编码方法 Huffman编码方法
Huffman编码注意： Huffman编码注意：
1. 如何使得码方差变得很小？ 1. 如何使得码方差变得很小？ 2. 初始编码时，符号数目的个数应该满足什么条件？ 2. 初始编码时，符号数目的个数应该满足什么条件？ 28 3. 长序列编码，可以使平均码长降低 SWUST 2011 - All rights reserved 3. 长序列编码，可以使平均码长降低
17
5.2 无失真信源编码
AEP的另外一种描述

信息论与编码原理信源编码

信息论与编码原理信源编码
信息论是一门涉及了信息处理的学科，它研究信息生成、传输、接收、存储、利用等过程的一般性理论。

它探讨涉及信息的一切问题，强调掌握
信息所必需的体系性的体系知识，其主要内容有：信息的定义、信息测度，信息的熵，信息编码，信息的可计量性，信息传输，信息和随机性，信息
编译，信息安全，信息认证，解码准确性，信息的保密，校验，系统复杂性，信息的加密等。

信源编码是一种在信息论中常用的编码技术，其目的是用最少的信息
量表示最多的信息内容，以提高信息发送效率。

它主要包括概率信息源编
码和确定性信息源编码两种。

概率信息源编码是根据一个信息源的发生概率来编码，是根据发出信
息的概率来决定编码方式的。

它根据一个消息源中发出的不同信息的概率
来决定信息的编码，并确定每种信息的编码长度。

在这种情况下，越高概
率的信息，编码长度越短。

确定性信息息源编码，是根据一个消息源中出现特定信息的概率确定
编码方式的。

在这种情况下，编码长度取决于消息源的熵，也就是期望的
信息量。

信源编码的基本思想是以最小的编码来传输最多的信息量。

信息论第五章信源编码习题答案

0
1111110
7
x8
0.0078125
1
1111111
7
(3)
香农编码效率：
费诺编码效率：
(4)
xi
p(xi)
编码
码字
ki
x1
0.5
0
0
1
x2
0.25
1
1
1
x3
0.125
2
0
20
2
x4
0.0625
1
21
2
x5
0.03125
2
0
220
3
x6
0.015625
1
221
3
x7
0.0078125
2
0
2220
100
x5
0.15
0.74
3
101
x6
0.1
0.89
4
1110
x7
0.01
0.99
7
1111110
1)
0.0 --- 0.000000
2)
0.2*2 = 0.4 0
0.4*2 = 0.8 0
0.8*2 = 1.6 1
3)
0.39 * 2 = 0.78 0
0.78 * 2 = 1.56 1
0.56 * 2 = 1.12 ki
x1
0.2
0
0
00
2
x2
0.19
1
0
010
3
x3
0.18
1
011
3
x4
0.17
1
0
10
2
x5
0.15
1

信息论与编码(清华出版社)第5章信源编码-Qtech (2)

2
第5章信源编码章
由于信源符号之间存在分布不均匀和相关由于信源符号之间存在分布不均匀和相关使得信源存在冗余度冗余度，性，使得信源存在冗余度，信源编码的主要任务就是减少冗余，提高编码效率。要任务就是减少冗余，提高编编码的基本途径有两个：信源编码的基本途径有两个：使序列中的各个符号尽可能地互相独立，使序列中的各个符号尽可能地互相独立，即解除相关性；即解除相关性；使编码中各个符号出现的概率尽可能地相等，即概率均匀化。相等，即概率均匀化。
32
5.2 无失真信源编码
反之，反之，当 K < H L (X ) 时，不可能构成无失真的编码，也就是不可能做一种编码器，真的编码，也就是不可能做一种编码器，能使收端译码时差错概率趋于零。能使收端译码时差错概率趋于零。
K = H L (X ) 时，则为临界状态，可能无失真，则为临界状态，可能无失真，
23
5.1 编码的定义
克劳夫特不等式只是用来说明唯一可译码克劳夫特不等式只是用来说明唯一可译码是否存并不能作为唯一可译码的判据。是否存在，并不能作为唯一可译码的判据。
24
5.2 无失真信源编码
信源输出 X＝(X1X2…Xl…XL)，＝， Xl∈{a1，a2，…，ai，…，an} ，，编码为 Y＝(Y1Y2…Yk… YkL)，＝， Yk∈{b1，b2，…，bj，…，bm}。，，。要求能够无失真或无差错地译码，同时传要求能够无失真或无差错地译码，无失真或无差错地译码时所需要的信息率最小送Y时所需要的信息率最小时所需要的
4
第5章信源编码章
信源编码的基础是信息论中的两个编码定理：信源编码的基础是信息论中的两个编码定理：

信息论与编码第五章习题参考答案

5.1某离散无记忆信源的概率空间为采用香农码和费诺码对该信源进行二进制变长编码，写出编码输出码字，并且求出平均码长和编码效率。

解：计算相应的自信息量1)()(11=-=a lbp a I 比特 2)()(22=-=a lbp a I 比特 3)()(313=-=a lbp a I 比特 4)()(44=-=a lbp a I 比特 5)()(55=-=a lbp a I 比特 6)()(66=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特 7)()(77=-=a lbp a I 比特根据香农码编码方法确定码长1)()(+<≤i i i a I l a I平均码长984375.164/6317128/17128/1664/1532/1416/138/124/112/1L 1=+=⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=由于每个符号的码长等于自信息量，所以编码效率为1。

费罗马编码过程5.2某离散无记忆信源的概率空间为使用费罗码对该信源的扩展信源进行二进制变长编码，(1) 扩展信源长度，写出编码码字，计算平均码长和编码效率。

(2) 扩展信源长度，写出编码码字，计算平均码长和编码效率。

(3) 扩展信源长度，写出编码码字，计算平均码长和编码效率，并且与(1)的结果进行比较。

解：信息熵811.025.025.075.075.0)(=--=lb lb X H 比特/符号（1）平均码长11=L 比特/符号编码效率为%1.81X)（H 11==L η（2）平均码长为84375.0）3161316321631169（212=⨯+⨯+⨯+⨯=L 比特/符号编码效率%9684375.0811.0X)（H 22===L η（3）当N=4时，序列码长309.3725617256362563352569442569242562732562732256814=⨯+⨯+⨯⨯+⨯⨯+⨯⨯+⨯+⨯⨯+⨯=L平均码长827.04309.34==L %1.98827.0811.0X)（H 43===L η可见，随着信源扩展长度的增加，平均码长逐渐逼近熵，编码效率也逐渐提高。

信息论与编码chapter5

渐进均分特性
典型序列的概率估计
设 x G 1 ( 满足公式 5 .3 )
log p ( x ) N H (X )
N [ H ( X ) ] log p ( x ) N [ H ( X ) ]
设取2为底 2 N [ H ( X ) ] p ( x ) 2 N [ H ( X ) ]
（适用于离散信源的编码）
限失真信源编码：信源符号不能通过编码序列无差错地恢复。
（可以把差错限制在某一个限度内）
信源编码的目的：提高传输有效性，即用尽可能短的码符号序列来代表信源符号。
§5.1 信源编码的相关概念
本节主要内容
一、信源编码器二、码的分类三、分组码
§5.1.1 信源编码器
将信源符号集中的每一个符号固定映射成一个码字的码分组码单符号信源编码器
第五章无失真信源编码
主要内容
本章主要介绍无失真信源编码定理与一些重要的无失真信源编码方法
一、概述二、定长码三、变长码
四、哈夫曼编码
信源编码：将信源符号序列按一定的数学规律映射成由码符号组成的码序列的过程。信源译码：根据码序列恢复信源序列的过程。无失真信源编码：即信源符号可以通过编码序列无差错地恢复。
若不满足上式 =
H (X
N
l N
l l
log r H ( X )
;Y )
N
l
) H (X
N
/ Y ) H (Y ) lH (Y ) l log r
H (X
) NH ( X )
H (X
N
/ Y ) NH ( X ) l log r 0

信息论与编码——第五章

信道编码的任务是构造出以最小多余度代价换取最大抗干扰性能的“好码”，使系统具有一定的纠错能力和抗干扰能力，降低误码率
差错控制系统分类
前向纠错(FEC)：发送端信息经纠错编码后再进行传送，接收端通过纠错译码自动纠正传递过程中的错误；这里的“前向” 指纠错过程在接收端独立进行不存在信息的反馈
译码规则
F2
:
⎧ ⎨ ⎩
F2 F2
(0) (1)
= =
0 1
p F2 we
= 1 − { p[F (0)0] +
p[F (1)1]}
= 1 − p(00) − p(11) = 1 − 0.36 − 0.54 = 0.1
译码规则
F3
:
⎧ ⎨ ⎩
F3 F3
(0) (1)
= =
1 0
p F3 we
= 1 − { p[F (0)0] +
pb
1
pb
1
其中：P{e = 1} = pb , P{e = 0} = pb
c
r
差错图案
e
e = (e1e2 Kei Ke je j+1 Kel Ken )
编码信道
0 pb
pb
pb 1
pb
0
r = c + e mod 2
P{e = 1} = pb
1
P{e = 0} = pb
c
r
e
差错图案（错误图样）：码字 c 的每一码元经过编码信道由于噪声或干扰引起的差错序列，即：
非系统码：信息位打乱，与编码前不同
按校验码字对差错的处理能力按抗干扰模式分
分
纠随机差错码
检错码：仅能检测误码

信息论与编码(第五章)

线性码
线性码是一类重要的纠错码，其生成矩阵和校验矩阵都是线性矩阵。线性码具有较好的代数结构和高效的编码与解码算法。
循环码
循环码是一类重要的纠错码，其生成多项式和校验多项式都是循环的。循环码具有较低的编码复杂度和较好的检错性能。
卷积码
卷积码是一种动态纠错码，适用于连续传输的信号。卷积码通过对输入信号进行连续处理，能够提供更好的纠错性能和更低的编码复杂度。
互信息的性质
互信息具有可加性、可乘性和可数性，同时互信息还具有非负性，即对于任何两个随机变量，其互信息值都不小于 0。
条件互信息的概念
条件互信息是在一个随机变量给定的条件下，两个随机变量之间的相关性。
条件互信息的性质
条件互信息具有可加性、可乘性和可数性，同时条件互信息还具有非负性，即对于任何两个随机变量和一个给定的随机变量，其条件互信息值都不小于0。
根据编码方式的不同，可以将纠错码分为卷积码和分组码。卷积码适用于连续传输的信号，而分组码适用于离散的块状信号。
03
线性码
线性码的生成矩阵与校验矩阵
生成矩阵
线性码的生成矩阵是用于将信息比特转化为码字的矩阵，其定义了码字的生成方式。
校验矩阵
校验矩阵是用于计算码字校验位的矩阵，通过校验矩阵可以确定码字的正确性。
线性码的编码方法
线性编码
线性码的编码方法是将信息比特通过生成矩阵转换为码字的过程，生成的码字具有线性的性质。
编码规则
线性码的编码规则是按照特定的算法，将信息比特转换为具有固定长度的码字，确保生成的码字满足线性关系。
线性码的解码方法
错误检测与纠正
线性码的解码方法包括错误检测和纠正，通过校验矩阵可以检测出码字中的错误，并采取相应的措施纠正错误。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2
i 1
4
Ki
2 2
1
2
2
2
2
3
9 1 8
22
因此不存在满足这种Ki的唯一可译码。
5.1 编码的定义
{1，01，001，000}
惟一可译码；
0 0 0 1 1 1
{1，01，101，000} 不是惟一可译码；均满足克劳夫特不等式
a1=1 a2=01
a4=000
a3=001
只有分组码才有对应的码表，而非分组码中则不存在码表。
9
5.1 编码的定义
如图5-1所示，如果信源输出符号序列长度L＝1，信源符号集A(a1，a2，…，an)；信源概率空间为
X a1 P p(a1) an p(a2 ) p(an ) a2
若将信源X通过二元信道传输，就必须把信源符
H L ( X) 1 KL log m L
L取无限长
38
5.2
例
无失真信源编码
设离散无记忆信源概率空间为
a2 a3 a 4 a5 a6 a7 a8 X a1 P ＝0.4 0.18 0.1 0.1 0.07 0.06 0.05 0.04
H ( X ) pi log pi 2.55 比特/符号
本节内容

编码的定义无失真信源编码定长编码定理变长编码定理
1
第5章信源编码
编码分为信源编码和信道编码，其中信源编码又分为无失真和限失真。
一般称
无失真信源编码定理为第一极限定理；信道编码定理（包括离散和连续信道）称为第
二极限定理；
限失真信源编码定理称为第三极限定理。
2
第5章信源编码
40
5.2
无失真信源编码
H(X ) ＝ 0.90, H(X )
8
0.28
2 ( X ) D[ I ( xi )] pi (log pi ) 2 [ H ( X )] 2 7.82(bit) 2
i 1
10－6 若要求译码错误概率
2(X ) 7.82 L 9.8 10 7 10 8 2 0.28 2 10 6
25
5.2
无失真信源编码
Yk平均每个符号的最大信息量为log m
KL长码字的最大信息量为KLlog m
则传送一个信源符号需要的信息率平均为
KL 1 K log m log M L L
M m
KL
M为Y所能编成码字的个数；
26
5.2
无失真信源编码
所谓信息率最小，就是找到一种编码方式使 K 最小。
i 1
8
39
5.2
无失真信源编码
对信源符号采用定长二元编码，要求编码效率为＝90％，若取L＝1，则可算出
K H L( X )

＝2.55 90%=2.83比特/符号
每个符号用2.83比特进行定长编码，共有
22.83 7.11 7 种可能性。那么，信源符号中
就有一种符号无对应码字。即使发生概率最小的a8, 其Pe＝0.04 太大！
无失真编码定理限失真编码定理
∆无失真编码只适用于离散信源 ∆对于连续信源，只能在失真受限制的情况下进
行限失真编码
5
第5章信源编码
本章讨论离散信源编码，首先从无失真编码定理出发，重点讨论以香农码、费诺码
和霍夫曼码为代表的最佳无失真码。然后
介绍限失真编码定理。
最后简单介绍一些其它常用的信源编码方

i 1
4
2 K i 21 2 2 23 23 1
23
5.1 编码的定义
克劳夫特不等式只是用来说明唯一可译码
是否存在，并不能作为唯一可译码的判据。
24
5.2
无失真信源编码
信源输出 X＝(X1X2…Xl…XL)， Xl{a1，a2，…，ai，…，an} 编码为 Y＝(Y1Y2…Yk… YkL)， Yk{b1，b2，…，bj，…，bm}。要求能够无失真或无差错地译码，同时传送Y时所需要的信息率最小
信源信源符号出符号ai 现概率p(ai) a1 p(a1)
码表码1
00
码2
0
a2 a3 a4
p(a2) p(a3) p(a4)
01 10 11
01 001 111
表5-1 变长码与定长码
12
5.1 编码的定义
（1）奇异码和非奇异码若信源符号和码字是一一对应的，则该码为非奇异码。反之为奇异码。如表5-2中的码限值，而L足够大时，译码几乎必定出错。
31
5.2
无失真信源编码
定长编码定理说明，
K L log m LH L ( X) H ( X)
码字所能携带的信息量大于信源序列输出的信息量，则可以使传输几乎无失真，当然条件是L足够大。
32
5.2
无失真信源编码
反之，当 K H L (X ) 时，不可能构成无失真的编码，也就是不可能做一种编码器，能使收端译码时差错概率趋于零。
K H L (X ) 时，则为临界状态，可能无失真，
也可能有失真。
33
5.2
无失真信源编码
2
(X ) 差错概率：Pe 2 L
式中 2 (X) E{[ I (x i ) H (X)] 2 } 为自信息方差， 2 ( X ) 和 2 均为定值时，只要为一正数。当 L足够大，Pe可以小于任一正数。即，
无失真信源编码定理研究的内容:
最小信息率为多少时，才能得到无失真的译码？
若小于这个信息率是否还能无失真地译码？
27
5.2
无失真信源编码
无失真的信源编码定理
定长编码定理
变长编码定理
28
5.2

无失真信源编码
定长编码定理 K是定值，且惟一可译码。
29
惟一可译码的判断方法

首先，观察是否是非奇异码。其次，计算是否满克劳夫特不等式将码画成一棵树图，观察是否满足即时码的树图的构造，若满足则是惟一可译码。计算出分组码中所有可能的尾随后缀集合F，观察F中有没有包含任一码字，若无则为惟一可译码；若有则一定不是惟一可译码。
H(X ) H(X ) K 1 log m log m
43
5.2
无失真信源编码
离散平稳无记忆序列变长编码定理：对于平均符号熵为HL(X)的离散平稳无记忆信源，必存在一种无失真编码方法，使平均信息率满足不等式
H L (X) K H L (X)
其中为任意小正数。
44
5.2
法。
6
5.1 编码的定义
信源编码器信道
码表
图5-1 信源编码器示意图
7
5.1 编码的定义
信源编码是指信源输出符号经信源编码器编码后转换成另外的压缩符号；
无失真信源编码：可精确无失真地复制信
源输出地消息。
8
5.1 编码的定义
将信源消息分成若干组，即符号序列xi， xi＝(xi1xi2…xil…xiL)， xilA={a1，a2，…，ai，…，an} 每个符号序列xi依照固定码表映射成一个码字yi， yi＝(yi1yi2…yil…yiL)， yilB={b1，b2，…，bi，…，bm} 这样的码称为分组码，有时也叫块码。
13
5.1 编码的定义
表5-2 码的不同属性
信源符号 ai a1 a2 符号出现概率 p(ai) 1/2 1/4 码1 0 11 码2 0 10 码3 1 10 码4 1 01
a3
a4
1/8
1/8
00
11
00
01
100
001
1000 0001
14
5.1 编码的定义
（2）唯一可译码任意有限长的码元序列，只能被唯一地
17
5.1 编码的定义
非分组码
码分组码奇异码非唯一可译码非奇异码唯一可译码即时码(非延长码) 非即时码
18
5.1 编码的定义
通常可用码树来表示各码字的构成
0 1
0
1
0
1
0
0 1 0
1
1 0
0
1 0
1
1 0
0
1 0
1
1 0
0
1 0
1
1
二进码树
19
5.1 编码的定义
0 1 2
0
1
2
0 1
无失真信源编码
用变长编码来达到相当高的编码效率，一般所要求的符号长度L可以比定长编码小得多。
45
5.2
无失真信源编码
编码效率总是小于1，可以用它来衡量各种编码方法的优劣。
为了衡量各种编码方法与最佳码的差距，定义码的剩余度为
1 1
HL (X ) KL log m L 1 HL (X ) K
分割成一个个的码字，便称为唯一可译
码。
如，{0,10,11}是唯一可译码。
15
5.1 编码的定义
唯一可译码中又分为非即时码和即时码：非即时码：如果接收端收到一个完整的码字后，不能立即译码，还需等下一个码字开始接收后才能判断是否可以译码，这样的码叫做非
即时码。
16
5.1 编码的定义
即时码：只要收到符号就表示该码字已完整，可以立即译码。即时码又称为非延长码，任意一个码字都不是其它码字的前缀部分，亦叫做异前缀码。
需要同时对100M个信源符号一起编码！
41
5.2
无失真信源编码
变长编码定理在变长编码中，码长K是变化的