信息论与编码第5章 信源编码技术

合集下载

信息论与编码Chapter 5

信息论与编码Chapter 5

15
5.2 无失真信源编码
更一般的弱大数定理
C SWUST 2011 - All rights reserved
16
5.2 无失真信源编码
AEP( Asymptotic Equipartition Property) 渐进等同分割原理
n→∞
等同分割-> 等概率-> 最大熵定理-> 定长编码定理
C SWUST 2011 - All rights reserved
信源编码
source coding
C SWUST 2011 - All rights reserved
西南科大信息工程学院—马强
引子
信源熵:H∞ (X)是理论上传输信源所需的最少比 特数;实际中存在信息冗余,如何减少或消除这 些冗余? 信息率失真函数:在一定失真允许下,所需要的 传输信源的最小比特数;如何来实现这一过程? 信源编码:无失真信源编码(第一极限定理)、限 失真信源编码(第三极限定理)、信道编码定理(第 二极限定理)
C SWUST 2011 - All rights reserved
27
5.2 无失真信源编码
香农编码方法 Fano编码方法 Huffman编码方法
Huffman编码注意: Huffman编码注意:
1. 如何使得码方差变得很小? 1. 如何使得码方差变得很小? 2. 初始编码时,符号数目的个数应该满足什么条件? 2. 初始编码时,符号数目的个数应该满足什么条件? 28 3. 长序列编码,可以使平均码长降低 SWUST 2011 - All rights reserved 3. 长序列编码,可以使平均码长降低
17
5.2 无失真信源编码
AEP的另外一种描述

《信息论与编码》课件第5章 信源编码技术

《信息论与编码》课件第5章 信源编码技术
(3)将每一大组的信源符号再分成两组,使划分后 的两个组的概率之和尽可能近似相等,并将各组分 别赋予一个二进制码元“0”和“1”。 (4)如此重复,直至每个组只剩下一个信源符号为 止。
❖ 例5.2对例5.1的信源进行费诺编码,具体编码过程如下
消息符 号
概率
a1
0.20
a2
0.19
a3
0.18
a4
0.17
编码效率为
H (X ) 2.61 0.953
L 2.74
➢ 显然,费诺码要比上述香农码的平均码长小,编码效率高。
➢ 从上面的例子可以看出,p(a4)<p(a2),而码长L4<L2,从 统计角度来看,平均码长一定不是最短的;
➢ 如果将两个符号对应的码字互换,这样编码得到的平均码长
肯定小于原来的平均码长。尽管如此,费诺码的平均码长仍
10 2
11 2 010 3
011 3
方法1 方法2
❖ 根据两种方法的编码结果,计算两种哈夫曼码的平 均码长,结果是两种编码方法的平均码长相等,即
7
L p(ai )li =2.2 码元/符号 i 1
编码效率也相等,都为 H (X ) =0.965
,L
但是两种码的质量不完全相同,编码质量可以用码方差衡量,即
a5
0.15
a6
0.10
a7
0.01
第一次 分组
0
1
第二次 分组
0 1 0
1
第三次 分组
0 1 0
1
第四次 分组
0 1
二元码字
00 010 011 10 110
1110
1111
码长
2 3 3 2 3
4

第5章:信源编码

第5章:信源编码

可以看出,编码效率并不是很高。
4、费诺编码

将概率按从大到小的顺序排列,令:
p(x1)≥ p(x2)≥…≥ p(xn)

按编码进制数将概率分组,使每组概率尽可能接近或相
等。如编二进制码就分成两组,编 m 进制码就分成 m
组。

给每一组分配一位码元。 将每一分组再按同样原则划分,重复步骤 2 和 3,直 至概率不再可分为止。
麦克米伦不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则唯一可译码 存在的充要条件是:
r
i 1
n
li
1

不同编码方式的衡量标准
平均码长:对离散无记忆信源进行信源编码,设编码后各个 码字的码长分别为

信源熵为:H(X)=2.75(比特/符号) 平均码长为:
K (0.25 0.25) 2 0.12 2 3 0.0625 4 4 2.75 (比特/符号)

编码效率为η=1。之所以如此,因为每次所分两组的 概率恰好相等。
5、哈弗曼编码 哈夫曼(Huffman) 编码是一种效率比较高的变长无失 真信源编码方法。
0 1
即时
s2
任何一个码字不是其它码字的延长或前缀
即 时 码

即时码的判决准则
克拉夫特不等式:设信源为 U u1 , u2 ,, un ,对其进行r 元信源编码,相应码字长度为 l1 , l2 ,, ln ,则即时码存在 的充要条件是:
r
i 1
n
li
1

唯一可译码的判决准则
2、编码的分类 信源编码可看成是从信源符号集到码符号集的一种映射,即将 信源符号集中的每个元素(可以是单符号,也可以是符号序列)映 射成一个长度为n的码字。对于同一个信源,编码方法是多种的。 【例5.1】 用{u1 ,u2 ,u3,u4, } 表示信源的四个消息,码符号集 为{0,1},表1列出了该信源的几种不同编码。 表1 同一信源的几种不同编码 信 源 消息 u1 u2 u3 各消息 概率 q(u1) q(u2) q(u3)

信息论与编码第5章限失真信源编码

信息论与编码第5章限失真信源编码
4 1 0
第一节 失真测度
• 以上所举的三个例子说明了具体失真度的定义. 一般情况下根据实际信源的失真, 可以定义不同 的失真和误差的度量.
• 另外还可按照其他标准, 如引起的损失、风险、 主观感受上的差别大小等来定义失真度d(ui,vj).
• 从实用意义上说, 研究符号实际信源主观要求的、 合理的失真函数是很重要的.
第一节 失真测度
设信源变量为U={u1,…,ur}, 接收端变量为 V={v1,…,vs}, 对于每一对(u,v), 指定一个非负 函数
d(ui,vj)≥0 称为单个符号的失真度(或称失真函数). 失真函数用来表征信源发出符号ui, 而接收端再现 成符号vj所引起的误差或失真. d越小表示失真越小, 等于0表示没有失真.
➢ 应该指出, 研究R(D)时, 条件概率p(v|u)并没有 实际信道的含义. 只是为了求互信息的最小值而引 用的、假想的可变试验信道. ➢ 实际上这些信道反映的仅是不同的有失真信源编 码或信源压缩. 所以改变试验信道求平均互信息最 小值, 实质上是选择编码方式使信息传输率为最小.
率失真理论与信息传输理论的对偶关系
– 接收端获得的平均信息量可用平均互信息量I(U;V)表示;
– 这就变成了在满足保真度准则的条件下 D D 找平均互信息量I(U;V)的最小值.
,寻
– 因为BD是所有满足保真度准则的试验信道集合, 即可以 在D失真许可的试验信道集合BD中寻找某一个信道 p(vj|ui), 使I(U;V)取最小值.
本章所讨论的内容是量化、数模转换、频带 压缩和数据压缩的理论基础.
前言
本章主要介绍信息率失真理论的基本内容, 侧 重讨论离散无记忆信源.
首先给出信源的失真度和信息率失真函数的定 义与性质, 然后讨论离散信源的信息率失真函数计 算. 在这个基础上论述保真度准则下的信源编码定 理.

第五章信源编码(编码定义及定长编码)

第五章信源编码(编码定义及定长编码)

所以送一个信源符号x需要的平均信息率为:
K KL logm L
信息率最小就是找到一种编码方式使
KL logm L
最小。
5.2.1定长编码定理
定义:各个码字码长都相等的码 定长码中每个码字长度相等,所以只要定长码是非奇异
码,则必为唯一可译码
非奇异码 唯一可译码
即时码
非奇异码 唯一可译码
即时码
变长码
等长码
消息
概率
C1
C2
C3
C4
C5
C6
u1
1/2
000
0
0
0
1
01
u2
1/4
001
01
10
10
000
001
u3
1/16
010
011
110
1101 001
100
u4
1/16
011
0111 1110 1100 010
101
u5
1/16
100
01111 11110 1001 110
110
u6
1/16
101
解码:按照码符号的顺序,从根节点依次查询到终端节点,就得到对应的 信源符号。再从根节点对剩下的码符号序列做相同的处理,直到处理完码 符号序列中所有的码符号
对应表中的码4分析
A01Fra bibliotek01
1
0
0
1
0
10 1
0
1
000
001 010
011 100 101 110
111
一阶节点 二阶节点 三阶节点
唯一可译码存在的充要条件
我们之后介绍的是二元信道中的编码。

第五章 信源编码

第五章 信源编码

第五章信源编码信息论基础第五章信源编码 本章主要讨论的问题:5.1 离散信源编码5.1.1 编码器5.1.2分组码5.1.3定长码5.1.4 变长码5.2 连续信源编码5.3 相关信源编码简介信源编码:以提高通信有效性为目的的编码。

通常通过压缩信源的冗余度来实现。

采用的方法是压缩每个信源符号的平均比特数或信源的码率。

即同样多的信息用较少的码率传送,使单位时间内传送的平均信息量增加,从而提高通信的有效性。

信源编码理论是信息论的一个重要分支,其理论基础是信源编码的两个定理。

–无失真信源编码定理:是离散信源/数字信号编码的基础;–限失真信源编码定理:是连续信源/模拟信号编码的基础,如语音、图像等信号。

信源编码的分类:离散信源编码、连续信源编码和相关信源编码三类。

–离散信源编码:独立信源编码,可做到无失真编码;–连续信源编码:独立信源编码,只能做到限失真信源编码;–相关信源编码:非独立信源编码。

编码器编码器可以看作这样一个系统,它的输入端为原始信源S ,其符号集为;而信道所能传输的符号集为。

编码器的功能是用符号集X 中的元素,将原始信源的符号变换为相应的码字符号,所以编码器输出端的符号集为称为码字,为码字的码元个数,称为码字的码字长度,简称码长。

码字的集合C 称为码书。

称为码元。

12{,,...,}q S S S S =12{,,...,}r X x x x =12{,,...,}q S s s s =12{,,...,}r X x x x =编码器12:{,,...,}q C W W W 12:{,,...,}q C w w w i S i w i w i L i w i w i x例:二元信道的信源编码器:码符号集X={0,1},如果要将信源通过二元信道传输,必须将信源编成二元码,这也是最常用的一种码。

等长码非等长码非奇异码非奇异码 等长码与变长码码中各个码字都是由同样多个码元构成的,称为等长码,反之,称为变长码。

第5章信源编码(1)

第5章信源编码(1)
普通高等教育"十五"国家级规划教材《信息论与编码》 曹雪虹等编著
2
第5章 信源编码 章
信源编码的基础是信息论中的两个编码定理: 信源编码的基础是信息论中的两个编码定理: 无失真编码定理 限失真编码定理 编码定理不但证明了必定存在一种编码方法,可使代码 编码定理不但证明了必定存在一种编码方法, 的平均长度可任意接近但不低于符号熵, 的平均长度可任意接近但不低于符号熵,而且还阐明了 达到这一目的,就要使概率与码长相匹配. 达到这一目的,就要使概率与码长相匹配.
2
+2
2
+2
3
9 = >1 8
因此不存在满足这种K 的唯一可译码. 因此不存在满足这种 i的唯一可译码.
普通高等教育"十五"国家级规划教材《信息论与编码》 曹雪虹等编著
17
5.1 编码的定义
{1,01,001,000} 惟一可译码 {1,01,101,000}不是惟一可译码 不是惟一可译码 均满足克劳夫特不等式
15
5.1 编码的定义
唯一可译码存在的充分和必要条件 唯一可译码存在的充分和必要条件 存在
m -K i ≤ 1 各码字的长度K 应符合克劳夫特不等式 克劳夫特不等式: 各码字的长度 i 应符合克劳夫特不等式: ∑
i =1 n
其中m是进制数; 是信源符号数 是信源符号数. 其中 是进制数;n是信源符号数. 是进制数 如果码是唯一可译码,则必满足该不等式; 如果码是唯一可译码,则必满足该不等式; 如果满足不等式,则这种码长的唯一可译码一定存在, 如果满足不等式,则这种码长的唯一可译码一定存在, 但并不表示所有满足不等式的码一定是唯一可译码; 但并不表示所有满足不等式的码一定是唯一可译码; 该不等式是唯一可译码存在的充要条件, 该不等式是唯一可译码存在的充要条件,而不是唯一可 存在的充要条件 译码的充要条件. 译码的充要条件.

第五章信源编码

第五章信源编码

(每个符号有m种可能值)进行定长编码。对任意的 0,0
只要
KLHL(X)ε L logm
,则:当L足够大时,必可使译码差
错小于 (几乎无失真编码);反之,当 KLHL(X)2ε L logm
时,译码差错一定是有限值,而当L足够大时,译码几乎必定 出错(译码错误概率接近于1)。
1、解释: KL/L-----编码时,每个信源符号输出的 码长。即每个信源符
其中:左边--KL长码字所能携带的最大信息量, 右边--L长信源序列携带的信息量。
定理表明,只要码字所能携带的信息量大于信源序列输出的信 息量,则可以实现几乎无失真编码,当然条件是L足够大。 反之,不可能实现无失真的编码,也就是不可能做一种编码 器,能使收端译码时差错概率趋于零。
2、举例: (1 单 ) 符号 X A 信 {a1,a源 2...8} ., .n,a 8 ,等,L 概 1 。 分 H 1(X )H (X )lb3 8b /信 it 源符号。 若进行二进B制 {0编 ,1}m ,码 2,据定理,只要 K LLKLH lo(X g)m 3码元 /信源符号,就 无可 失以 真实 编现 码 事实上 3位,二进制码确实示 可8种 以信 表源符号。
或映射规则 元 b 转 j,j换 1,2..m 成 .构由 成码 的码 (也元 称序 为列
y i,i1,2..n.L。
f:xiyi
码K 长 L, i i1,2..n.L .; 平 均_KL 码 nL长 KLPi(: yi)码/元 符 号 序
i1 _
定长编 KL1 码 KL: 2...K .L .L n.KL, KLKL
注:奇异码一定非惟一可译。(非奇异码则不一定)
4、即时码和非即时码:
收到一个完整的码字后能立即译码,或曰及时可译---即时码
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

哈夫曼码的主要特点 1、哈夫曼码的编码方法保证了概率大的符号对 应于短码,概率小的符号对应于长码,充分 利用了短码; 2、缩减信源的两个码字的最后一位总是不同, 可以保证构造的码字为即时码。 3、哈夫曼码的效率是相当高的,既可以使用单 个信源符号编码,也可以对信源序列编码。 4、要得到更高的编码效率,可以使用较长的序 列进行编码。
5.1.2费诺码
费诺码的基本思想: 1、按照累加概率尽可能相等的原则对信源符号 进行分组: 对于二元码,则每次分为两组; 对于d元码,则每次分为d个组。 并且给不同的组分配一个不同的码元符号。 2、对其中的每组按照累计概率尽可能相等的原 则再次进行分组,并指定码元符号,直到不能 再分类为止。 3、然后将每个符号指定的码元符号排列起来就 得到相应的码字。
算术编码
适用于JPEG2000,H.263等图像压缩标准。 特点: 1、随着序列的输入,就可对序列进行编码 2、平均符号码长 L 满足
1 H (X ) L H (X ) N
(最佳编码)
3、需要知道信源符号的概率 是对shanno-Fanno-Elias编码的改进。
累计分布函数的定义
H(X ) H(X ) L 1 log d log d
费诺码的最佳性
1、保证每个集合概率和近似相等,保证d个码元近 似等概率,每个码字承载的信息量最大,码长近似 最短。 2、是次最佳的编码方法,只在当信源符号概率满足:
p(ai ) d
时达最佳。
li
信源符号
a1 a2 a3 a4 a5 a6 a7 a8 a9
费诺二元码的编码步骤
1、将源消息符号按概率大小排序:
p1 p2 p3 pn
2、将依次排列的信源符号分为两大组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 3、将每一大组的信源符号再分为两组,使每组的概 率和尽可能相等,且每组赋与二进制码元“0”和 “1”。 4、如此重复,直至每组只剩下一个符号。 信源符号所对应的码字即费诺码。
例5.2对例5.1的信源进行费诺编码,,具体编码过程参 见表5.2
根据每个信源符号的码长,得到每个符号的平均码长 7 为 L p(ai )li 2.74 码元/符号

i 1
用树码表示的费诺码编码过程
a1 , a2 ,, a7
0 1
a1 , a2 , a3
7
编码过程 0.4 0.4 0 0.2 1
码字 码长
Wi
0.6 0 0.4 1
li
2 2 2 3 3
}
0 1
}
}
}
1.0
00 10 11 010 011
方法2
合并后的 概率尽量 往上
根据两种方法的编码结果,计算两种哈夫曼码 的平均码长,相等,即
L p(ai )li =2.2 码元/符号
i 1 7
例5.4 设有离散无记忆信源的概率空间为
X a1 a2 a3 a4 a5 p 0.4 0.2 0.2 0.1 0.1
信源符号 概率
ai a1 a2 a3 a4 a5
p ( ai )
0.4 0.2 0.2 0.1 0.1 0.4 0.2 0.2 0 0.2 1
算术编码
对于长为n的符号序列 ( X 1 , X 2 ,...X n ) 序列个数共有 比如0,1) 分别是 对应概率
2
n
个(若每个符号可取2个值,
X1, X 2 ,..., X k ,....X 2n
p( X1 ), p( X 2 ),...p( X k ),...p( X 2n )
序列k的累计分布函数
5.1.1 香农码
香农码的根据:离散无记忆信源的自信息量 设离散无记忆信源所对应的概率空间为
X a1 p ( x) p (a ) 1 a2 p(a2 ) ar p(ar )
对应码字的长度Li应该满足下列关系
符号自信 息量
I ( xi ) li I ( xi ) 1
对信源
a1 X p1 a2 p2 ... ... aK pK
且假定 p1 p2 ... pK
对aK-1和aK的码字最后一位分别指定0、1,然后合并, 产生辅助符号a’k-1,做一辅助集 0 ' ' ' ‘ a a a a ... a k-1 k-1 ' 1 2 K 1 X ' ' ' ak 1 p1 p2 ... pK 1
H(X ) 编码效率也相等,都为 =0.965 L 两种码的质量不完全相同,用码方差衡量,即

2 2 l2 E ( l L ) p ( a )( l L ) i i i i 1
r
l12 1.36 l 22 0.16 由于方法2的码方差比方法1的码方差小许多, 所以方法2编码质量好。
0 1.0
0.39 1
信源符号 概率
0.26
0.26
a1 a2 a3 a4 a5 a6 a7
0.20 0.19 0.18 0.17 0.15 0.10 0.01
码字 码长li
0.19
0.18 0.17
10 11 000 001
2 2 3 3
0
010
3
0110 4
0111 4
平均码长
L p(ai )li 2.72 比特 / 符号
i
这样就可以保证对于每个信源符号而言,码字长度是 最佳的 。
香农码编码方法 (1)将信源消息符号按其出现的概率大小依次排列为
p1 p2 pn
(2)确定每个信源符号的码长,同时保证码长为满足下 列不等式的整数 lbp(ai ) li lbp(ai ) 1 (3)为了编成唯一可译码,计算第i个消息的累加概率
1
a1
00 0
a2 , a3
a4
0 110
a5 , a6 , a7
1
a2
010
a3
011
1
10
a5
0
a6 , a7
1
1110
a6
1111
a7
编码效率为

总结:
H ( X ) 2.61 0.953 2.74 L
1、费诺码要比上述香农码的平均码长小,编码 效率高。 2、从上面的例子可以看出,p(a4)<p(a2),而码 长L4<L2,从统计角度来看,平均码长一定不是 最短的; 如果将两个符号对应的码字互换,这样编码 得到的平均码长肯定小于原来的平均码长。 3、费诺码的平均码长满足
编码过程 0.4 0.4 0 0.2 1
码字 码长
Wi
0.6 0 0.4 1
li
1 2 3 4 4
方法1
}
0 1
}
}
}
1.0
1 01 000 0010 0011
信源符号 概率
ai a1 a2 a3 a4 a5
p ( ai )
0.4 0.2 0.2 0.1 0.1 0.4 0.2 0.2 0 0.2 1
第5章 信源编码技术
5.1 最佳变长编码
回顾: 1、根据信源编码理论,将能够荷载一定信息量, 且码字的平均长度最短,可分离的变长码字 集合称为最佳变长码。 2、最佳变长码编码的基本原则是:概率大的信 源符号分配短的码字,而概率小的信源符号 分配长码字,从而使得平均码长最短。 具有代表性变长编码方法有:香农码,费诺码 和哈夫曼码等。
' ' pk nk ( p K 1 p K )
K 1
n ' ( p K 1 p K )
辅助集平均码长
二元码的哈夫曼编码步骤
(1)将信源消息符号按其出现的概率大小依次排列为 p1 p2 pn (2)取两个概率最小的两个信源符号分别分配码元0和1, 并将这两个概率相加作为一个新符号的概率,与未 分配的二进符号的符号一起重新进行概率排序。 (3)对重排后的两个概率最小符号重复步骤(2)的 过程。 (4)不断继续上述过程,直到最后两个符号配以0和1 为止。 (5)从最后一级开始,反向搜索参与编码的符号,得 到各个信源符号所对应的码元序列,即相应的码 字。
F ( X k)
累计分布函数的计算
递推公式
F (ua) F (u ) p(u ) F (a) p(ua) p(u ) p(a)
u :已输入序列
a :当前输入符号
算术编码
将[0,1)分割成小区间,如长为n的二元序列,分为 2n个区间,用区间[F(u),F(u)+p(u))表示序列u, 实际取F(u)。将F(u)截短,截断长度为
i 1 7
编码效率
H ( X ) 2.61 0.96 L 2.72
关于哈夫曼编码的讨论 1、每次对信源缩减时,赋予信源最后两个概率 最小的符号,分配码元0和1是可以任意的, 即大概率符号或者合并后的符号集合可以分 配码元0也可以是1,这种选择任意性可以得 到不同的哈夫曼码,但不会影响码字的长度。 2、对信源进行缩减时,如果两个概率最小的符 号合并后的概率与其它信源符号的概率相同, 应当放在上面,以便减少更多符号分配更长 码的可能。
例5.3 对例5.1的信源符号进行哈夫曼编码, 给出编码过程,每个信源符号的码字,码 长,求平均码长、编码效率。
哈夫曼编码过程
0.39 0.35 0.35 0 0.26 1 0.20 0.19 0.18 0.17 0.15 0 0.11 1 1 0.20 0.20 0.19 0 1 0 1
0.61
概率
0 2
1
1/ 3 1/ 9 1/ 9 1/ 9 1/ 9 1/ 9 1 / 27 1 / 27 1 / 27
相关文档
最新文档