第五章信源编码

合集下载

第5章无失真信源编码定理

如果我们要对信源的N次扩展信源进行编码，也必须满足
qN rl ，两边取对数得： l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例：对英文电报得32个符号进行二元编码，根据上述关系：
l log 32 5 log 2
我们继续讨论上面得例子，我们已经知道英文的极限熵是1.4bit,远小于5bit，也就是说，5个二元码符号只携带 1.4bit的信息量，实际上，5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短，提高信息传输率
0.8112
0.4715
若采用等长二元编码，要求编码效率 0.96 ，允许错误率
105 ，则： N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号出现概率码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码：是以提高通信系统的安全性为目的的编码。通常通过加密和解密来实现。从信息论的观点出发，“加密”可视为增熵的过程，“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支，其理论基础是信源编码的两个定理。无失真信源编码定理：是离散信源/数字信号编码的基础；限失真信源编码定理：是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码：以提高通信有效性为目的的编码。通常通过压缩信源的冗余度来实现。采用的一般方法是压缩每个信源符号的平均比特数或信源的码率。即同样多的信息用较少的码率传送，使单位时间内传送的平均信息量增加，从而提高通信的有效性。

第5章信源编码

无失真信源编码：可精确无失真地复制信源输出的消息
第5章信源编码
编码器的作用
将信源符号集 X 中的符号符号集 y 中的码元一对应的码字。
变换成由码组成的长度为 Ki 的一
码字集合叫做代码组Y；码字
为该码字的码长，记为 Ki 。
第5章信源编码
所含码元的个数称
分组码将信源消息分成若干组，即符号序列，每个符号序列依照固定码表映射成一个码字，这样的码称为分组码，有时也叫块码。只有分组码才有对应的码表，而非分组码中则不存在码表。例：
• 任一即时码都可用树图法来表示。 • 当码字长度给定，即时码不是唯一的。
该码树从根到终端节点所经路径上，每一个中间节点皆为码字，因此码 3 不是即第5时章信码源编，码但它是唯一可译码。
若将信源 X 通过二元信道传输，就必须把信源符号ai 变换成由0 、 1符号组成的码符号序列，这个过程就是信源编码。第5章信源编码
定长码固定长度的码，码中所有码字的长度都相同。
变长码可变长度码，码中的码字定长码变长码长短不一。
若 0 、 01 都是码字，译码时如何分离？
分组码 / 块码将信源符号集中的每个符号映射成一个固定的码字。分组码必须具有某些属性，才能保证在接收端能够迅速可靠地译码第5章。信源编码
第5章信源编码
信源编码无失真编码无失真信源编码定理限失真编码限失真信源编码定理
无失真 ( 冗余度压缩编码 ) ：仅对信源的冗余度进行压缩，不改变信源的熵。无失真编码是可逆的，即当信源符号变换成代码后，可从代码无失真地恢复出原信源符号。只适用于离散信源。
限失真 ( 熵压缩编码 ) ：在失真受限的情况下进行限失真编码。在连续信源的情况下，由于信源的信息量趋于无限，显然不能用离散符号序列来完成无失真编码，而只能进行限失真编码。

第5章：信源编码

可以看出，编码效率并不是很高。
4、费诺编码

将概率按从大到小的顺序排列，令：
p(x1)≥ p(x2)≥…≥ p(xn)

按编码进制数将概率分组，使每组概率尽可能接近或相
等。如编二进制码就分成两组，编 m 进制码就分成 m
组。

给每一组分配一位码元。将每一分组再按同样原则划分，重复步骤 2 和 3，直至概率不再可分为止。
麦克米伦不等式：设信源为 U u1 , u2 ,, un ，对其进行r 元信源编码，相应码字长度为 l1 , l2 ,, ln ，则唯一可译码存在的充要条件是：
r
i 1
n
li
1

不同编码方式的衡量标准
平均码长：对离散无记忆信源进行信源编码，设编码后各个码字的码长分别为

信源熵为：H(X)=2.75(比特/符号) 平均码长为：
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 （比特／符号）

编码效率为η=1。之所以如此，因为每次所分两组的概率恰好相等。
5、哈弗曼编码哈夫曼(Huffman) 编码是一种效率比较高的变长无失真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即时码

即时码的判决准则
克拉夫特不等式：设信源为 U u1 , u2 ,, un ，对其进行r 元信源编码，相应码字长度为 l1 , l2 ,, ln ，则即时码存在的充要条件是：
r
i 1
n
li
1

唯一可译码的判决准则
2、编码的分类信源编码可看成是从信源符号集到码符号集的一种映射，即将信源符号集中的每个元素（可以是单符号，也可以是符号序列）映射成一个长度为n的码字。对于同一个信源，编码方法是多种的。【例5.1】用{u1 ，u2 ，u3，u4， } 表示信源的四个消息，码符号集为{0,1}，表1列出了该信源的几种不同编码。表1 同一信源的几种不同编码信源消息 u1 u2 u3 各消息概率 q(u1) q(u2) q(u3)

第五章信源编码(编码定义及定长编码)

所以送一个信源符号x需要的平均信息率为：
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义：各个码字码长都相等的码定长码中每个码字长度相等，所以只要定长码是非奇异
码，则必为唯一可译码
非奇异码唯一可译码
即时码
非奇异码唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码：按照码符号的顺序，从根节点依次查询到终端节点，就得到对应的信源符号。再从根节点对剩下的码符号序列做相同的处理，直到处理完码符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点二阶节点三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。

第五章信源编码

第五章信源编码信息论基础第五章信源编码本章主要讨论的问题：5.1 离散信源编码5.1.1 编码器5.1.2分组码5.1.3定长码5.1.4 变长码5.2 连续信源编码5.3 相关信源编码简介信源编码：以提高通信有效性为目的的编码。

通常通过压缩信源的冗余度来实现。

采用的方法是压缩每个信源符号的平均比特数或信源的码率。

即同样多的信息用较少的码率传送，使单位时间内传送的平均信息量增加，从而提高通信的有效性。

信源编码理论是信息论的一个重要分支，其理论基础是信源编码的两个定理。

–无失真信源编码定理：是离散信源/数字信号编码的基础；–限失真信源编码定理：是连续信源/模拟信号编码的基础，如语音、图像等信号。

信源编码的分类：离散信源编码、连续信源编码和相关信源编码三类。

–离散信源编码：独立信源编码，可做到无失真编码；–连续信源编码：独立信源编码，只能做到限失真信源编码；–相关信源编码：非独立信源编码。

编码器编码器可以看作这样一个系统，它的输入端为原始信源S ，其符号集为；而信道所能传输的符号集为。

编码器的功能是用符号集X 中的元素，将原始信源的符号变换为相应的码字符号，所以编码器输出端的符号集为称为码字，为码字的码元个数，称为码字的码字长度，简称码长。

码字的集合C 称为码书。

称为码元。

12{,,...,}q S S S S =12{,,...,}r X x x x =12{,,...,}q S s s s =12{,,...,}r X x x x =编码器12:{,,...,}q C W W W 12:{,,...,}q C w w w i S i w i w i L i w i w i x例：二元信道的信源编码器：码符号集X={0,1}，如果要将信源通过二元信道传输，必须将信源编成二元码，这也是最常用的一种码。

等长码非等长码非奇异码非奇异码等长码与变长码码中各个码字都是由同样多个码元构成的，称为等长码，反之，称为变长码。

第5章信源编码第1讲无失真信源编码定长编码定理 2016

00 01 10 11
0 01 001 111
12/62
余映云南大学
5.1 编码的定义
• 采用分组编码方法，需要分组码具有某些属性，以保证在接收端能够迅速准确地将码译出。 • 下面讨论分组码的属性：
余映云南大学
13/62
5.1 编码的定义
• (1) 奇异码和非奇异码
– 若信源符号和码字是一一对应的，则该码为非奇异码；反之为奇异码。 – 例如表中码1是奇异码，其他是非奇异码。
信源符号出现概率码1 码2 码3 码4
A B C D
1/2 1/4 1/8 1/8
0 11 00 11
余映云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
18/62
5.1 编码的定义
• (3) 即时码和非即时码
– 唯一可译码又分为非即时码和即时码。 – 即时码是一种没有一个码字构成另一码字前缀的码。在译码时没有延迟，收到一个完整码字后就能立即译码。 – 如果收到一个完整码字后，不能立即译码，还需等下一个码字开始接收后才能判断是否可以译码，这样的码叫做非即时码。
信源符号
出现概率
码1
码2
码3
码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
余映云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
14/62
5.1 编码的定义
• (2) 唯一可译码和非唯一可译码
– 若任意有限长的码元序列，只能被唯一地分割成一个个的码字，则称为唯一可译码。 – 例如{0, 10, 11}是一种唯一可译码。 – 因为任意一串有限长码序列， – 如100111000

信息论与编码第5章信源编码技术

哈夫曼码的主要特点 1、哈夫曼码的编码方法保证了概率大的符号对应于短码，概率小的符号对应于长码，充分利用了短码； 2、缩减信源的两个码字的最后一位总是不同，可以保证构造的码字为即时码。 3、哈夫曼码的效率是相当高的，既可以使用单个信源符号编码，也可以对信源序列编码。 4、要得到更高的编码效率，可以使用较长的序列进行编码。
5.1.2费诺码
费诺码的基本思想： 1、按照累加概率尽可能相等的原则对信源符号进行分组：对于二元码，则每次分为两组; 对于d元码，则每次分为d个组。并且给不同的组分配一个不同的码元符号。 2、对其中的每组按照累计概率尽可能相等的原则再次进行分组，并指定码元符号，直到不能再分类为止。 3、然后将每个符号指定的码元符号排列起来就得到相应的码字。
算术编码
适用于JPEG2000,H.263等图像压缩标准。特点： 1、随着序列的输入，就可对序列进行编码 2、平均符号码长 L 满足
1 H (X ) L H (X ) N
（最佳编码）
3、需要知道信源符号的概率是对shanno-Fanno-Elias编码的改进。
累计分布函数的定义
H(X ) H(X ) L 1 log d log d
费诺码的最佳性
1、保证每个集合概率和近似相等，保证d个码元近似等概率，每个码字承载的信息量最大，码长近似最短。 2、是次最佳的编码方法，只在当信源符号概率满足：
p(ai ) d
时达最佳。
li
信源符号
a1 a2 a3 a4 a5 a6 a7 a8 a9
费诺二元码的编码步骤
1、将源消息符号按概率大小排序：
p1 p2 p3 pn
2、将依次排列的信源符号分为两大组，使每组的概率和尽可能相等，且每组赋与二进制码元“0”和 “1”。 3、将每一大组的信源符号再分为两组，使每组的概率和尽可能相等，且每组赋与二进制码元“0”和 “1”。 4、如此重复，直至每组只剩下一个符号。信源符号所对应的码字即费诺码。

第五章信源编码LVRH1010

解：将信源通过一个二元信道传输，就必须把信源符号si变换成由0，1符号组成的码符号序列，即进行编码。可以用不同的二元码符号序列与信源符号一一对应，就得到不同的码。
信源符号 P(si) s1 s2 s3 s4 P(s1) P(s2) P(s3) P(s4) 码1 00 01 10 11 码2 0 01 001 111 5.1 编码的定义定长码变长码二次扩展信源符号二次扩展码字 S1=S1S1 s2=S1S2 …… s4=S4S4 00 001 …… 111111
l ≥ log r q = 5
分析：考虑到符号出现的概率以及符号之间的相关性后，实际平均每分析个英文电报符号所提供的信息量约1.4bit，远小于5bit，因此定长编码后，每个码字只载1.5bit信息，5个二进制符号最大能载5bit信息，因此，定长编码的信息传输效率低。解决方案: 解决方案 (1)对于不会出现的符号序列不予编码，这样不会造成误差； (2)对于概率非常小的信源符号序列不予编码，这样可能会造成一定误差，但当信源符号序列N足够大，误差概率非常小
第五章信源编码五
问题
• 对信源有两个重要问题 1. 信源输出的信息量的度量问题度量问题；度量问题 2. 如何更有效地有效地表示信源输出的问题输出的问题；有效地输出的问题
信源输出的符号序列，经过信源编码，变换成适合信道传输的符号序列，同时，在不失真或允许一定失真的条件下，用尽可能少的码符号来传递信源消息，提高信息传输的效率。
i =1 8
a7 0.05
a8 , 0.04
HL (X ) 2 .55 得K = = 2.83bit / 符号 90 % K 即每个符号用 2.83bit 进行定长二元编码，共有 2 2.83 = 7.11种可能性若取 L = 1，据 η = 根据 η = H( X ) = 0.9 ⇒ ε = 0 .28 H (X ) + ε

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0101
00010
00011
H (X ) 2 .5 5 (b it/sig n ) K 2.61
H(X) 97.7% K
若采用定长编码，码长K3,则编码效率
＝2.55＝85％
3 可见，哈夫曼编码的效率提高了12.7％。
例设有离散无记忆信源
P(X X)0 a.1 4
a2 0.2
a3 0.2
a4 0.1
4 把pa(aj )用二进制表示，用小数
点后的 k位作为 ai的码字
例
设有一单符号离散无记忆信源
P(X X) 0.a2 1 50a .2 2 50 a.3 20a .1 4 50 a.5 10a .0 6 5
试对该信源编二进制香农码。
编码过程
（1）
j1
pa(aj ) p(ai )
a 6 0.04
00 01 10
0
0 1
1
110 1110 1111
H (X ) 2 .3 5 (b it/sig n )
6
K p(ai)ki 2.4 i1
H(X)H(X)97.92%
RK
费诺码比较适合于每次分组概率都很接近的信源。
5.1.3 赫夫曼编码
1 将信源符号按概率由大到小顺序排队； 2 给两个概率最小的符号各分配一个码位，
将其概率相加后合并作为一个新的符号，与剩下的符号一起，称为缩减信源；
3 将缩减信源符号仍按概率由大到小顺序排队；
4 重复步骤2、3直至概率和为1。
例设有一单符号离散无记忆信源
P (X X ) 0 a .1 40 a .1 2 8 0 a .3 10 a .4 10 a .0 5 7 0 a .0 60 a .6 0 7 5 0 a .0 8 4
1 按信源符号的概率从大到小的顺序排队.)
2 令p(a0) 0，用pa(aj ),j i 1 j1 表示第 i个码字的累加 pa(a概 j ) 率p(ai ) 1 i1
3 lo 2 p ( a g i) k i 1 lo 2 p ( a g i)
试对该信源编二进制哈夫曼码。
a 1 0 .4
a 2 0 . 18
a 3 0 .1 a 4 0 .1
a 5 0 . 07 a 6 0 . 06
ax 77 0 . 05
a 8 0 . 04
编码过程
0.6
0.37 0
0.23
1
0.19
0
1
0.13
0
1
0
0.09
1
0
1
0
1
0
11
001
011 0000
0100
组合编码可获得较高的编码效率：
游程编码
赫夫曼编码
5.1.6 冗余位编码
冗余位信源序列中不携带信息的符号。多元信源序列： x 1 ,x 2 , ,x m 1 ,y , ,y ,x m 1 1 , ,x m 2 ,y ,
6
K p(ai)ki 2.7 i1
H (X)H (X)89.63%
RK
5.1.2 费诺编码
1 按信源符号的概率从大到小的顺序排队
不妨设 p (a 1 ) p (a 2 ) ...... p ( a n )
2 对概率按m进行分组，使每组概率尽可能相等
3 给每个分组分配一个码元 4 对每个分组重复2、3步，直到不可分
5.1.5 游程编码
游程：指数字序列中连续出现相同符号的一段。在二元信源中，连续的一段‘0’称为一个‘0’游程，‘0’的个数称为此游程的长度，同样，也有‘1’游程。
游程序列：用交替出现的‘0’游程、‘1’ 游程的长度，来表示任意二元序列而产生的一个新序列。它和二元序列是一个一一对应的变换。
i0
pa (a j ) ki 码字
a 1 0 .25
0
2 00
a 2 0 .25 0 .25 2 01
a 3 0 .2 0 .5 3 100
a 4 0 .15 0 .7 3 101
a 5 0 .1 0 .85 4 1101
a 6 0 .05 0 .95 5 11110
H(X)2.42
K R Llog2mK
第1 第2章：信源熵第3章：信道容量
第5章：信源编码
第7章：密码体制的安全性测度
信源编码
➢ 信源编码是以提高通信的有效性为目的编码。
➢ 通常通过压缩信源的冗余度来实现。
➢ 采用的一般方法是压缩每个信源符号的平均比特数或信源的码率。同样多的信息用较少的码率来传送，使单位时间内传送的平均信息量增加，从而提高通信的有效性。
为止
例
设有一单符号离散无记忆信源
P (X X ) 0a .3 1 20a .2 2 20a .1 3 80a .1 4 60a .0 5 80a .0 6 4
试对该信源编二进制费诺码。
编码过程
a 1 0.32
0
a 2 0.22 0 1
a 3 0.18
0
a 4 0.16
a 5 0.08 1 1
a5 0.1
用两种不同的方法对其编二进制huffman码
方法一方法二
两种不同的编码方法得到的码字和码长的对比
信源符号 ai a1 a2 a3 a4 a5
概率p(ai) 码字Wi1 码长Ki1 码字Wi2 码长K’i2
0.4 1
1 00
2
0.2 01
2 10
2
0.2 000
3 11
2
0.1 0010
信源编码的基本途径有两个：
➢使序列中的各个符号尽可能地互相独立，即解除相关性；
➢使编码中各个符号出现的概率尽可能地相等，即概率均匀化。
5.1.2 香农编码
设有离散无记忆信源
å 轾犏 a1
犏臌 p(a1)
a2 ..... p(a2) .....
p(aann),i= n1p(ai)=1
香农编码方法的步骤
0001……
31132131……
➢若已知二元序列以0起始，从游程序列很容易
恢复成原来的二元序列
➢游程序列是多元序列，各长度可按赫夫曼编
码或其它方法处理以达到压缩码率的目的。
➢游程编码只适用于二元序列，对于多元信源，
一般不能直接利用游程编码
因为游程变换是一一对应的可逆变换，所以游程变换后，熵不变。
4 010
3
0.1 0011
4 011
3
平均码长和编码效率
7
K p(ai)ki 2.2 i1
H(X) 96.5%
K
两种编码方法编出的码字的码长方差比较
7
l2E[(kiK)2] p(ai)(kiK)2 i1
2 l1
1.36
2 l2
0.16
结论：
进行赫夫曼编码时，为得到码方差最小的码，应使合并的信源符号位于缩减信源序列尽可能高的位置上，以减少再次合并的次数，充分利用短码。

第五章信源编码

第5章无失真信源编码定理

第5章信源编码

第5章：信源编码

第五章信源编码(编码定义及定长编码)

第五章 信源编码

第5章 信源编码 第1讲 无失真信源编码 定长编码定理 2016

信息论与编码第5章 信源编码技术

第五章 信源编码LVRH1010

第五章信源编码

第5章信源编码第1讲无失真信源编码定长编码定理 2016

信息论与编码第5章信源编码技术

第五章信源编码LVRH1010