第五章信源编码
第5章无失真信源编码定理

如果我们要对信源的N次扩展信源进行编码,也必须满足
qN rl , 两边取对数得: l log q
l
N log r
N 表示平均每个信源符号所需的码符号个数。
5.2 等长码
例:对英文电报得32个符号进行二元编码,根据上述关系:
l log 32 5 log 2
我们继续讨论上面得例子,我们已经知道英文的极限 熵是1.4bit,远小于5bit,也就是说,5个二元码符号只携带 1.4bit的信息量,实际上,5个二元符号最多可以携带5bit 信息量。我们可以做到让平均码长缩短,提高信息传输率
0.8112
0.4715
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
105 ,则: N 4.13107
也就是长度要达到4130万以上。
5.5 变长码
1、唯一可译变长码与及时码
信源符号 出现概率 码1
码2
码3
码4
s1
1/2
0
0
1
1
s2
1/4
11
10
10
01
s3
1/8
00
00
密码:是以提高通信系统的安全性为目的的编码。通常通过加 密和解密来实现。从信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
5.1 编码器
信源编码理论是信息论的一个重要分支,其理论基础是信源编 码的两个定理。 无失真信源编码定理:是离散信源/数字信号编码的基础; 限失真信源编码定理:是连续信源/模拟信号编码的基础。
5.1 编码器
信源编码:以提高通信有效性为目的的编码。通常通过压缩信 源的冗余度来实现。采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息用较少的码率传送, 使单位时间内传送的平均信息量增加,从而提高通信的有效性。
第5章信源编码

第5章信源编码
编码器的作用
将信源符号集 X 中的符号 符号集 y 中的码元 一对应的码字 。
变换成由码 组成的长度为 Ki 的一
码字集合叫做代码组Y;码字
为该码字的码长,记为 Ki 。
第5章信源编码
所含码元的个数称
分组码 将信源消息分成若干组,即符号序列,每个符号 序列依照固定码表映射成一个码字,这样的码称 为分组码,有时也叫块码。只有分组码才有对应 的码表,而非分组码中则不存在码表。 例:
• 任一即时码都可用树图法来表示。 • 当码字长度给定,即时码不是唯一的。
该码树从根到终端节点所经路径上, 每一个中间节点皆为码字,因此码 3 不是即第5时章信码源编,码 但它是唯一可译码。
若将信源 X 通过二元信道传输,就必须把信源符 号ai 变换成由0 、 1符号组成的码符号序列,这个 过程就是信源编码。第5章信源编码
定长码 固定长度的码,码中所 有码字的长度都相同。
变长码 可变长度码,码中的码字 定长码 变长码长短不一。
若 0 、 01 都是码字,译码时如何分离?
分组码 / 块码将信源符号集中的每个符号映射成一个固 定的码字。分组码必须具有某些属性,才能保证在接 收端能够迅速可靠地译码第5章。信源编码
第5章信源编码
信源编码 无失真编码 无失真信源编码定理 限失真编码 限失真信源编码定理
无失真 ( 冗余度压缩编码 ) :仅对信源的冗余度进行 压缩,不改变信源的熵。无失真编码是可逆的,即当 信源符号变换成代码后,可从代码无失真地恢复出原 信源符号。只适用于离散信源。
限失真 ( 熵压缩编码 ) :在失真受限的情况下进行限 失真编码。在连续信源的情况下,由于信源的信息量 趋于无限,显然不能用离散符号序列来完成无失真编 码,而只能进行限失真编码。
第5章:信源编码

可以看出,编码效率并不是很高。
4、费诺编码
将概率按从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)
按编码进制数将概率分组,使每组概率尽可能接近或相
等。如编二进制码就分成两组,编 m 进制码就分成 m
组。
给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤 2 和 3,直 至概率不再可分为止。
麦克米伦不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则唯一可译码 存在的充要条件是:
r
i 1
n
li
1
不同编码方式的衡量标准
平均码长:对离散无记忆信源进行信源编码,设编码后各个 码字的码长分别为
信源熵为:H(X)=2.75(比特/符号) 平均码长为:
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 (比特/符号)
编码效率为η=1。之所以如此,因为每次所分两组的 概率恰好相等。
5、哈弗曼编码 哈夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即 时 码
即时码的判决准则
克拉夫特不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则即时码存在 的充要条件是:
r
i 1
n
li
1
唯一可译码的判决准则
2、编码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例5.1】 用{u1 ,u2 ,u3,u4, } 表示信源的四个消息,码符号集 为{0,1},表1列出了该信源的几种不同编码。 表1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 各消息 概率 q(u1) q(u2) q(u3)
第五章信源编码(编码定义及定长编码)

所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。
第五章 信源编码

第五章信源编码信息论基础第五章信源编码 本章主要讨论的问题:5.1 离散信源编码5.1.1 编码器5.1.2分组码5.1.3定长码5.1.4 变长码5.2 连续信源编码5.3 相关信源编码简介信源编码:以提高通信有效性为目的的编码。
通常通过压缩信源的冗余度来实现。
采用的方法是压缩每个信源符号的平均比特数或信源的码率。
即同样多的信息用较少的码率传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。
信源编码理论是信息论的一个重要分支,其理论基础是信源编码的两个定理。
–无失真信源编码定理:是离散信源/数字信号编码的基础;–限失真信源编码定理:是连续信源/模拟信号编码的基础,如语音、图像等信号。
信源编码的分类:离散信源编码、连续信源编码和相关信源编码三类。
–离散信源编码:独立信源编码,可做到无失真编码;–连续信源编码:独立信源编码,只能做到限失真信源编码;–相关信源编码:非独立信源编码。
编码器编码器可以看作这样一个系统,它的输入端为原始信源S ,其符号集为;而信道所能传输的符号集为。
编码器的功能是用符号集X 中的元素,将原始信源的符号变换为相应的码字符号,所以编码器输出端的符号集为称为码字,为码字的码元个数,称为码字的码字长度,简称码长。
码字的集合C 称为码书。
称为码元。
12{,,...,}q S S S S =12{,,...,}r X x x x =12{,,...,}q S s s s =12{,,...,}r X x x x =编码器12:{,,...,}q C W W W 12:{,,...,}q C w w w i S i w i w i L i w i w i x例:二元信道的信源编码器:码符号集X={0,1},如果要将信源通过二元信道传输,必须将信源编成二元码,这也是最常用的一种码。
等长码非等长码非奇异码非奇异码 等长码与变长码码中各个码字都是由同样多个码元构成的,称为等长码,反之,称为变长码。
第5章 信源编码 第1讲 无失真信源编码 定长编码定理 2016

00 01 10 11
0 01 001 111
12/62
余 映 云南大学
5.1 编码的定义
• 采用分组编码方法,需要分组码具有某些属性, 以保证在接收端能够迅速准确地将码译出。 • 下面讨论分组码的属性:
余 映 云南大学
13/62
5.1 编码的定义
• (1) 奇异码和非奇异码
– 若信源符号和码字是一一对应的,则该码为非奇异码; 反之为奇异码。 – 例如表中码1是奇异码,其他是非奇异码。
信源符号 出现概率 码1 码2 码3 码4
A B C D
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
18/62
5.1 编码的定义
• (3) 即时码和非即时码
– 唯一可译码又分为非即时码和即时码。 – 即时码是一种没有一个码字构成另一码字前缀的码。 在译码时没有延迟,收到一个完整码字后就能立即译 码。 – 如果收到一个完整码字后,不能立即译码,还需等下 一个码字开始接收后才能判断是否可以译码,这样的 码叫做非即时码。
信源符号
出现概率
码1
码2
码3
码4
a1 a2 a3 a4
1/2 1/4 1/8 1/8
0 11 00 11
余 映 云南大学
0 10 00 01
1 10 100 1000
1 01 001 0001
14/62
5.1 编码的定义
• (2) 唯一可译码和非唯一可译码
– 若任意有限长的码元序列,只能被唯一地分割成一个 个的码字,则称为唯一可译码。 – 例如{0, 10, 11}是一种唯一可译码。 – 因为任意一串有限长码序列, – 如100111000
信息论与编码第5章 信源编码技术

哈夫曼码的主要特点 1、哈夫曼码的编码方法保证了概率大的符号对 应于短码,概率小的符号对应于长码,充分 利用了短码; 2、缩减信源的两个码字的最后一位总是不同, 可以保证构造的码字为即时码。 3、哈夫曼码的效率是相当高的,既可以使用单 个信源符号编码,也可以对信源序列编码。 4、要得到更高的编码效率,可以使用较长的序 列进行编码。
5.1.2费诺码
费诺码的基本思想: 1、按照累加概率尽可能相等的原则对信源符号 进行分组: 对于二元码,则每次分为两组; 对于d元码,则每次分为d个组。 并且给不同的组分配一个不同的码元符号。 2、对其中的每组按照累计概率尽可能相等的原 则再次进行分组,并指定码元符号,直到不能 再分类为止。 3、然后将每个符号指定的码元符号排列起来就 得到相应的码字。
算术编码
适用于JPEG2000,H.263等图像压缩标准。 特点: 1、随着序列的输入,就可对序列进行编码 2、平均符号码长 L 满足
1 H (X ) L H (X ) N
(最佳编码)
3、需要知道信源符号的概率 是对shanno-Fanno-Elias编码的改进。
累计分布函数的定义
H(X ) H(X ) L 1 log d log d
费诺码的最佳性
1、保证每个集合概率和近似相等,保证d个码元近 似等概率,每个码字承载的信息量最大,码长近似 最短。 2、是次最佳的编码方法,只在当信源符号概率满足:
p(ai ) d
时达最佳。
li
信源符号
a1 a2 a3 a4 a5 a6 a7 a8 a9
费诺二元码的编码步骤
1、将源消息符号按概率大小排序:
p1 p2 p3 pn
2、将依次排列的信源符号分为两大组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 3、将每一大组的信源符号再分为两组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 4、如此重复,直至每组只剩下一个符号。 信源符号所对应的码字即费诺码。
第五章 信源编码LVRH1010

解:将信源通过一个二元信道传输,就必须把信源符号si变换 成由0,1符号组成的码符号序列,即进行编码。可以用不同 的二元码符号序列与信源符号 一一对应,就得到不同的码。
信源符号 P(si) s1 s2 s3 s4 P(s1) P(s2) P(s3) P(s4) 码1 00 01 10 11 码2 0 01 001 111 5.1 编码的定义 定长码 变长码 二次扩展信源符号 二次扩展码字 S1=S1S1 s2=S1S2 …… s4=S4S4 00 001 …… 111111
l ≥ log r q = 5
分析:考虑到符号出现的概率以及符号之间的相关性后,实际平均每 分析 个英文电报符号所提供的信息量约1.4bit,远小于5bit,因此定长编码 后,每个码字只载1.5bit信息,5个二进制符号最大能载5bit信息 ,因 此,定长编码的信息传输效率低。 解决方案: 解决方案 (1)对于不会出现的符号序列不予编码,这样不会造成误差; (2)对于概率非常小的信源符号序列不予编码,这样可能会造成一 定误差,但当信源符号序列N足够大,误差概率非常小
第五章 信源编码 五
问题
• 对信源有两个重要问题 1. 信源输出的信息量的度量问题 度量问题; 度量问题 2. 如何更有效地 有效地表示信源输出的问题 输出的问题; 有效地 输出的问题
信源输出的符号序列,经过信源编码,变换成 适合信道传输的符号序列,同时,在不失真或允许 一定失真的条件下,用尽可能少的码符号来传递信 源消息,提高信息传输的效率。
i =1 8
a7 0.05
a8 , 0.04
HL (X ) 2 .55 得K = = 2.83bit / 符号 90 % K 即每个符号用 2.83bit 进行定长二元编码,共 有 2 2.83 = 7.11种可能性 若取 L = 1,据 η = 根据 η = H( X ) = 0.9 ⇒ ε = 0 .28 H (X ) + ε
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
00010
00011
H (X ) 2 .5 5 (b it/sig n ) K 2.61
H(X) 97.7% K
若采用定长编码,码长K3,则编码效率
=2.55=85%
3 可见,哈夫曼编码的效率提高了12.7%。
例 设有离散无记忆信源
P(X X)0 a.1 4
a2 0.2
a3 0.2
a4 0.1
4 把pa(aj )用二进制表示,用小数
点 后 的 k位 作 为 ai的 码 字
例
设有一单符号离散无记忆信源
P(X X) 0.a2 1 50a .2 2 50 a.3 20a .1 4 50 a.5 10a .0 6 5
试对该信源编二进制香农码。
编码过程
(1)
j1
pa(aj ) p(ai )
a 6 0.04
00 01 10
0
0 1
1
110 1110 1111
H (X ) 2 .3 5 (b it/sig n )
6
K p(ai)ki 2.4 i1
H(X)H(X)97.92%
RK
费诺码比较适合于每次分组概率都很接近 的信源。
5.1.3 赫夫曼编码
1 将信源符号按概率由大到小顺序排队; 2 给两个概率最小的符号各分配一个码位,
将其概率相加后合并作为一个新的符号, 与剩下的符号一起,称为缩减信源;
3 将缩减信源符号仍按概率由大到小顺序 排队;
4 重复步骤2、3直至概率和为1。
例 设有一单符号离散无记忆信源
P (X X ) 0 a .1 40 a .1 2 8 0 a .3 10 a .4 10 a .0 5 7 0 a .0 60 a .6 0 7 5 0 a .0 8 4
1 按信源符号的概率从大到小的顺序排队.)
2 令p(a0) 0,用pa(aj ),j i 1 j1 表 示 第 i个 码 字 的 累 加 pa(a概 j ) 率p(ai ) 1 i1
3 lo 2 p ( a g i) k i 1 lo 2 p ( a g i)
试对该信源编二进制哈夫曼码。
a 1 0 .4
a 2 0 . 18
a 3 0 .1 a 4 0 .1
a 5 0 . 07 a 6 0 . 06
ax 77 0 . 05
a 8 0 . 04
编码过程
0.6
0.37 0
0.23
1
0.19
0
1
0.13
0
1
0
0.09
1
0
1
0
1
0
11
001
011 0000
0100
组合编码可获得较高的编码效率:
游程编码
赫夫曼编码
5.1.6 冗余位编码
冗余位 信源序列中不携带信息的符号。 多元信源序列: x 1 ,x 2 , ,x m 1 ,y , ,y ,x m 1 1 , ,x m 2 ,y ,
6
K p(ai)ki 2.7 i1
H (X)H (X)89.63%
RK
5.1.2 费诺编码
1 按信源符号的概率从大到小的顺序排队
不妨设 p (a 1 ) p (a 2 ) ...... p ( a n )
2 对概率按m进行分组,使每组概率尽 可能相等
3 给每个分组分配一个码元 4 对每个分组重复2、3步,直到不可分
5.1.5 游程编码
游程:指数字序列中连续出现相同符号的一 段。在二元信源中,连续的一段‘0’称为一 个‘0’游程,‘0’的个数称为此游程的长度, 同样,也有‘1’游程。
游程序列:用交替出现的‘0’游程、‘1’ 游程的长度,来表示任意二元序列而产生的一 个新序列。它和二元序列是一个一一对应的变 换。
i0
pa (a j ) ki 码字
a 1 0 .25
0
2 00
a 2 0 .25 0 .25 2 01
a 3 0 .2 0 .5 3 100
a 4 0 .15 0 .7 3 101
a 5 0 .1 0 .85 4 1101
a 6 0 .05 0 .95 5 11110
H(X)2.42
K R Llog2mK
第1 第2章:信源熵 第3章:信道容量
第5章:信源编码
第7章:密码体制的安全性测度
信源编码
➢ 信源编码是以提高通信的有效性为目的 编码。
➢ 通常通过压缩信源的冗余度来实现。
➢ 采用的一般方法是压缩每个信源符号的 平均比特数或信源的码率。同样多的信 息用较少的码率来传送,使单位时间内 传送的平均信息量增加,从而提高通信 的有效性。
为止
例
设有一单符号离散无记忆信源
P (X X ) 0a .3 1 20a .2 2 20a .1 3 80a .1 4 60a .0 5 80a .0 6 4
试对该信源编二进制费诺码。
编码过程
a 1 0.32
0
a 2 0.22 0 1
a 3 0.18
0
a 4 0.16
a 5 0.08 1 1
a5 0.1
用两种不同的方法对其编二进制huffman码
方法一 方法二
两种不同的编码方法得到的码字和码长的对比
信源符号 ai a1 a2 a3 a4 a5
概率p(ai) 码字Wi1 码长Ki1 码字Wi2 码长K’i2
0.4 1
1 00
2
0.2 01
2 10
2
0.2 000
3 11
2
0.1 0010
信源编码的基本途径有两个:
➢使序列中的各个符号尽可能地互相 独立,即解除相关性;
➢使编码中各个符号出现的概率尽可 能地相等,即概率均匀化。
5.1.2 香农编码
设有离散无记忆信源
å 轾 犏 a1
犏 臌 p(a1)
a2 ..... p(a2) .....
p(aann),i= n1p(ai)=1
香农编码方法的步骤
0001……
31132131……
➢若已知二元序列以0起始,从游程序列很容易
恢复成原来的二元序列
➢游程序列是多元序列,各长度可按赫夫曼编
码或其它方法处理以达到压缩码率的目的。
➢游程编码只适用于二元序列,对于多元信源,
一般不能直接利用游程编码
因为游程变换是一一对应的可逆 变换,所以游程变换后,熵不变。
4 010
3
0.1 0011
4 011
3
平均码长和编码效率
7
K p(ai)ki 2.2 i1
H(X) 96.5%
K
两种编码方法编出的码字的码长方差比较
7
l2E[(kiK)2] p(ai)(kiK)2 i1
2 l1
1.36
2 l2
0.16
结论:
进行赫夫曼编码时,为得到码方差最小的 码,应使合并的信源符号位于缩减信源序 列尽可能高的位置上,以减少再次合并的 次数,充分利用短码。