4 无失真信源编码及其定理

合集下载

第5章 无失真信源编码定理

第5章 无失真信源编码定理
i Bi (Wi1 ,Wi2 ,,WiN ), i S N ,Wil C
• 8)惟一可译码 若任意一串有限长的码符号序列只能被惟 一地译成所对应的信源符号序列,则此码称为 惟一可译码(或称单义可译码)。否则就称为 非惟一可译码或非单义可译码。 若要使某一码为惟一可译码,则对于任意 给定的有限长的码符号序列,只能被惟一地分 割成一个个的码字。
• 7)码的N次扩展码 假定某一码,它把信源 S {s , s ,, s } 中的符 号 s i 一一变换成码C中的码字Wi ,则码C的N次 扩展码是所有N个码字组成的码字序列的集合。
1 2 q
• 例如:若码 C {W ,W ,,W } 满足: si Wi ( xi1 , xi 2 ,, xil ), si S , xil X 则码C的N次扩展码集合B {B , B ,, B
i
• (3) 变长码
若一组码中码字的码长各不相同(即码字 长度l i 不等),则称为变长码 . 如表中“编码1”为等长码,“编码2”为变长 码。
信源符号si s1 s2 s3 s4 符号出现概率p(si) p(s1) p (s2) p (s3) p (s4) 编码1 00 01 10 11 编码2 0 01 001 101
• 输入是信源符号集: S {s1 , s2 ,, sq } • x为编码器所用的编码符号集,包含r个元素 { x1 , x 2 ,..., x r },称为码符号(码元) . • 由码符号 x i组成的输出序列Wi 称为码字. 其长度 l i 称为码字长度或码长,全体码字Wi 的集 合C称为码或码书 . • 编码器将信源符号集中的信源符号s i(或长为N i )变成由码符号组成的长为 l 的信源符号序列 的与信源符号一一对应的输出序列。即 :

信息论基础第四章 离散信源的无失真编码

信息论基础第四章 离散信源的无失真编码

信源编码有关概念 (1)平均码长
L p(a i )l i
i 1
q
单位:码符号/信源符号 意义:每个源符号平均需要的码符号数。 编码后每个信源符号平均用 L个码符号表示。 (2)信息传输率(平均每个码符号携带的信息量)
R
H(X ) L
16
L 越短,信息传输率就越高。
(3)最佳码(紧致码) 最佳码:对于某一信源和某一码符号集,若有一唯一可 译码,其平均码长小于所有其他唯一可译码的 平均码长,则该码称为最佳码。(最短唯一可 译码) 无失真信源编码的基本问题就是找到最佳码,最 佳码的平均码长为理论极限。
i 1 i 1
证明:
q


i 1
q
r li p i log pi

i 1
q
r li pi ( 1) pi
r
i 1
q
li
pi 1 1 0
i 1
q
H(S) H ( S ) L log r 0 L log r
18i l i log r
等长非奇异码一定是唯一可译码 ak a1 a2 a3 a4 p(ak) 0.5 0.25 0.125 0.125 码A 00 01 10 11 码B 00 01 00 10
5
等长编码及其定理
对信源S的N次扩展信源SN进行等长编码 若S = { s1, s2,…, sq},则N次扩展信源S N= { a1, a2,…, aqN}, 共有qN个符号序列。 设码符号集为X = { x1, x2,…, xr},长度为l 的码符号序列Wi = (xi1 xi2 … xil), xi1, xi2,…, xil∈X。
异前缀码等价于即时码

无失真的信源编码

无失真的信源编码
7/13/2013 7/31
[例]有一单符号离散无记忆信源

对该信源编二进制香农码。其编码过程如表所示。 二进制香农编码
xi x1 x2 x3 x4 x5 x6 p(xi) 0.25 0.25 0.20 0.15 0.10 0.05 pa(xj) 0.000 0.250 0.500 0.700 0.85 0.95 ki 2 2 3 3 4 5 码字 00 01 100 101 1101 11110 0.000 =(0.000)2 0.250 =(0.010)2 0.500 =(0.100)2 0.700 =(0.101)2 0.85 =(0.1101)2 0.95 =(0.11110)2
7/13/2013 4/31
信源编码概述
信源的原始信号绝大多数是模拟信号,因此,信源编码的 第一个任务是模拟和数字的变换,即:A/D,D/A。 抽样率取决于原始信号的带宽:fc = 2 w,w为信号带宽。 抽样点的比特数取决于经编译码后的信号质量要求: SNR = 6 L(dB),L为量化位数 但是,由于传输信道带宽的限制,又由于原始信源的信号 具有很强的相关性,则信源编码不是简单的A/D,D/A, 而是要进行压缩。为通信传输而进行信源编码,主要就是 压缩编码。 信源编码要考虑的因素:
只含(n-2)个符号的缩减信源S2。
重复上述步骤,直至缩减信源只剩两个符号为止,此时所剩两个符 号的概率之和必为1。然后从最后一级缩减信源开始,依编码路径向
前返回,就得到各信源符号所对应的码字。
7/13/2013 16/31
[例] 设单符号离散无记忆信源如下,要求对信源编二进制哈夫曼码。
7/13/2013
7/13/2013
2/31
信源编码:提高通信有效性。通常通过压缩信源的

信息论课件第五章_无失真信源编码

信息论课件第五章_无失真信源编码

由此可见,当考虑信源符号之间依赖关系后,有 些信源符号序列不会出现,这样信源符号序列 个数会减少,再进行编码时,所需平均码长就可 以缩短. 英文 等长编码定理给出了信源进行等长编码所需 码长的理论极限值.
5.3 渐进等分割性和ε典型序列
渐进等分割性AEP是弱大数定理的直接推论 大数定理:若X1,X2,…,Xn是独立同分布的随机变 1 量,只要n足够大, ∑ X接近于数学期望E(X)。 n
α i (i = 1,..., q N ) 现在需要把这些长为N的信源符号序列
变换成长度为l的码符号序列 Wi = ( xi1 xi2 ...xil ), ( xi1 ,..., xil ∈ X )
根据前面的分析,若要求得编得的等长码是惟一 可译码则必须满足
qN ≤ rl (5.2)
此式表明,只有当l长的码符号序列数(rl)大于或 等于N次扩展信源的符号数(qN)时,才可能存在等 长非奇异码. 对式(5.2)两边取对数,则有
例如,表5.1中码1是惟一可译码,而码2是 非惟一可译码。 因为对于码2,其有限长的码符号序列能译 成不同的信源符号序列。如:0010,可译成 s1s2s1或s3s1,显然不是惟一的。 下面,我们分别讨论等长码和变长码的最佳 编码问题,也就是是否存在一种惟一可译编 码方法,使平均每个信源符号所需的码符号 最短。也就是无失真信源压缩的极限值。
sik ∈ S ( k = 1, 2,..., N ) xik ∈ X ( k = 1, 2,..., li )
这种码符号序列Wi,称为码字。长度li称为码字长 度或简称码长。所有这些码字的集合C称为码(或 称码书)此码为r元码或称r进制码。
编码就是从信源符号到码符号的一种映射 若要实现无失真编码,必须这种映射是一一 对应的、可逆的。

信息论与编码第4章无失真信源编码

信息论与编码第4章无失真信源编码

0
2
1
w1 0 1 2 0 1 2
01
2w2
w3 w4
0
1
2
w5
w6 w7 w8
w9 w10 w11
0级节点 1级节点 2级节点
3级节点
25
4.3 变长编码
码树编码方法
(1)树根编码的起点; (2)每一个中间节点树枝的个数编码的进制数; (3)树的节点编码或编码的一部分; (4)树的终止节点(端点、树叶)码; (5)树的节数码长; (6)码位于多级节点变长码; (7)码位于同一级节点码等长码;
设离散无记忆信源X的熵为H(X), 若对长为N的信源符号序 列进行等长编码,码长为L , 码元符号个数为m. 则对任意的
>0, >0, 只要
L log m H ( 率小于。
反之,当
L log m H ( X ) 2
N
时, 则译码差错概率一定是有限值(不可能实现无失真编 码), 而当N足够大时, 译码错误概率近似等于1。
概率分布 0.5 0.25 0.125 0.125
码1:C1 码2:C2 码3:C3
00
0
0
码4:C4 1
码5:C5 1
01
11
10
10
01
10
00
00
100
001
11
11
01
1000
0001
等长码 非唯一 非 唯 唯一可译 及时码 可译 一可译
11
4.1 无失真信源编码的概念
关系 即时码一定是唯一可译码 唯一可译码一定是非奇异码 定长的非奇异码一定是唯一可译码 非定长的非奇异码不一定是唯一可译码
一般地,平均码长: L 3.322 (N ) N

无失真信源编码定理

无失真信源编码定理
离散信源无失真编码
内容提要 用尽可能少的符号来传输信源消息,目的是提高传输 效率,这是信源编码应考虑的问题,等长编码定理给 出了等长编码条件下,其码长的下限值,变长编码定 理(香农第一定理)给出了信源无失真变长编码时其 码长的上、下限值。
信源编码包括两个功能:
(1) 将信源符号变换成适合信道传输的符号;
15
K =
∑ p ( x )l
i i =1
q
i
它是每个信源符号平均需用的码元数。
2. 平均每个码元携带的信息量---即编码后信道的信息传输速率为
3.
编码后每秒钟信道的信息传输速率为 Rt =
H (S ) (S R= K

比特/码符号
H (S ) tK 比特/秒
K ↓⇒ Rt ↑
对某一信源来说,若有一个唯一可译码,其平均长度小于所有 其它的唯一可译码的平均长度,则该码称为紧致码,或称最佳 码。无失真变长信源编码的基本问题就是要找最佳码。
η=
H L (U ) R
则可实现无失真传输
四、编码效率:
设U=X
最佳编码效率为
HL (X ) η= HL (X ) + ε
无失真信源编码定理从理论上阐明了编码效率接近于1的理想 编码器的存在性,它使输出符号的信息率与信源熵之比接近于1, 但要在实际中实现,则要求信源符号序列的L非常大进行统一编码 才行,这往往是不现实的。
i =1
对信源符号采用定长二元编码,要求编码效率 η = 90% 无记忆信源有 H L ( X ) = H ( X ) 因此
12
H(X ) η= = 90% H (X ) + ε
可以得到
ε = 0.28
如果要求译码错误概率

信息论.第4章无失真信源编码

信息论.第4章无失真信源编码

S N
1
P
p(1 )
2 ... p(2 ) ...
qN
p(qN )
扩展信源熵为H(SN),
5
用码符号集X=(x1,…,xr)对SN 编码,则总可以找到
一种编码方法,构成唯一可译码,使信源S中的一
个信源符号所需要的码字平均长度满足
H (S) 1 LN H (S) log r N N log r
N log r 则当N足够大时,译码错误概率趋于1。
3
信源编码效率 编码速率:对于定长编码,编码速率定义为
R L log r N
编码效率:
H(S)
R
4
变长无失真信源编码定理(香农第一定理)
设离散无记忆信源
S
P
s1 p( s1 )
s2 p(s2 )
... ...
sq
p(
sq
)
其信源熵为H(S),它的N次扩展信源SN为
l log q log r
2
定长信源编码定理
设有离散无记忆信源,熵为H(S) ,若对信源的长为N 的符号序列进行定长编码,设码字是从r个码符号集中选 取L个码元构成,对于 > 0 只要满足
L H(S)
N log r 则当N足够大时,可实现译码错误概率任意小的等长编
码,近似无失真编码。
反之,若 满足 L H (s) 2
i 1
克拉夫特证明不等式为即时码存在的充要条件; 麦克米伦证明不等式为唯一可译码存在的充要条件。
1
简单信源S存在唯一可译定长码的条件为:
q r l l log q
log r
N次扩展信源SN存在唯一可译定长码的条件为:
qN rL
L log r N log q来自L log q N log r

无失真信源编码定理

无失真信源编码定理
2 i 1
D[ I ( si )] pi (log pi )2 [ H ( S )]2
1 3 4 (log 4) 2 (log ) 2 0.8112 0.4715 4 4 3
若采用等长二元编码,要求编码效率 0.96 ,允许错误率
7 105 ,则: N 4.13 10
称为编码效率。
H (S )
H (S ) H (S ) R' H (S )

1

5.4 等长信源编码定理
例:设离散无记忆信源: S
s 1 P( s) 3 4 s2 1 4
ቤተ መጻሕፍቲ ባይዱ
H (S )
1 3 4 log 4 log 0.811 4 4 3
设信源52等长码若不考虑符号间的依赖关系可得码长l2若考虑符号间的依赖关系则对此信源作二次扩展可见由于符号间依赖关系的存在扩展后许多符号出现的概率为0此信源只有4个字符可得码长52等长码我们仍以英文电报为例在考虑了英文字母间的相关性之后我们对信源作n次扩展在扩展后形成的信源也就是句子中有些句子是有意义的而有些句子是没有意义的我们可以只对有意义的句子编码而对那些没有意义的句子不进行编码这样就可以缩短每个信源符号所需的码长
3、变长码:
若一组码中所有码字的长度各不相同,称为变长码。 4、非奇异码: 若一组码中所有码字都不相同,称为非奇异码。
5.1 编码器
5、奇异码:
若一组码中有相同的码字,称为奇异码。 6 、同价码: 每个码字占相同的传输时间
7、码的N次扩展:
若码
C :{W1 ,W2 ,...,Wq } ,
码 B :{Bi (Wi1Wi 2 ...WiN )} 则称码B为
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4.4 等长信源编码定理

例 设离散无记忆信源


信源熵 自信息方差
1 3 4 H ( S ) log 4 log 0.811(bit symbol ) 4 4 3
2 2 2
s1 , s2 S 3 1 P( s) , 4 4
D I ( si ) pi (log pi ) H ( S )
引言

信源编码理论是信息论的一个重要分支, 其理论基础是信源编码的两个定理。 无失真信源编码定理:是离散信源/数字信 号编码的基础; 限失真信源编码定理:是连续信源/模拟信 号编码的基础。
引言

信源编码的分类:离散信源编码、连续信 源编码和相关信源编码三类。 离散信源编码:独立信源编码,可做到无 失真编码; 连续信源编码:独立信源编码,只能做到 限失真信源编码; 相关信源编码:非独立信源编码。
第四章 无失真信源编码

4.1 编码器及码的分类


4.2 等长码
4.4 等长信源编码定理 4.5变长码 4.6变长信源编码定理
4.7霍夫曼码和其它编码方法 4.8几种实用的无失真信源编码 小结
第四章 无失真信源编码


本章的重、难点内容 1、理解等长码和等长信源编码定理 2、理解和掌握变长码及变长码编码定理 3、理解Huffman编码、费诺码、香农码 4、了解几种实用的无失真信源编码方法,包括 (MH编码、算术编码、LZ码)
4.4 等长信源编码定理

所以等长编码定理告诉我们:只要码字传输的信 息量大于信源序列携带的信息量,总可实现几乎 无失真编码。 l 令 它是编码后平均每个信源符号能 载荷的最大信息量,称为编码信息率。 可见,当编码信息率大于信源的熵时,才能实现 几乎无失真编码。 为衡量编码效果,引入编码效率。
l R log r N N log r H ( S )
4.4 等长信源编码定理

信源序列长度N必须满足:
N D I (si )
2
2 H 2 (S ) (1 2 )
D I (si )


该式给出了在已知方差和信源熵的条件下,信源 序列长度N与最佳编码效率和允许错误概率的 关系。 允许错误概率越小,编码效率要求越高,则信源 序列长度N就必须越长。 实际情况下,要实现几乎无失真的等长编码,N 需要非常大。
非惟一可译 奇异码
非惟一可译 非奇异码
惟一可译 非奇异码
惟一可译 非奇异码

码4以“1”作为结束符号,起到逗号的作用,又 称为逗点码 。逗点码是一种即时码。
4.5 变长码

定义:如果一个码组中的任一个码字都不是另一 个码字的续长,或者说,任何一个码字都不是另 一个码字的前缀,则称为即时码也称非延长码或 前缀条件码。
4.1 编码器及码的分类

码的分类 二元码:若码符号集X={0,1},所得码字为一 些二元序列,则称二元码。[在二元信道中传输]

等长码(固定长度码):若一组码中所有码字的
长度都相同(即li=l,i=1,„,q),则称为等长码。

变长码:不满足等长码条件的码组称为变长码。
4.1 编码器及码的分类
s2
s3 s4 信源 a1 a2 a3 a4 码
00=W1W1=B1 001=W1W2=B2 0001=W1W3=B3 0111=W1W4=B4
4.1 编码器及码的分类



惟一可译码:若码的任意一串有限长的码符号序 列只能被惟一地译成所对应的信源符号序列,则 此码称为惟一可译码(单义可译码)。否则就称 为非惟一可译码或非单义可译码。 表1中码1是惟一可译码,而码2是非惟一可译码。 因为对于码2,其有限长的码符号序列能译成不 同的信源符号序列。如码符号序列0010,可译成 s1s2s1或s3s1,就不惟一了。 问题:怎样才能做到无失真编码即惟一可译码?

4.5 变长码

即时码:在译码时无需参考后续的码符号就能立 即作出判断,译成对应的信源符号的惟一可译码
信源符号 s1 s2 s3 s4 出现概率 1/2 1/4 1/8 1/8 码1 0 11 00 11 码2 0 10 00 01 码3 1 10 100 1000 码4 1 01 001 0001


即序列长度达4130万以上,这在实际中很难实现。 因此,一般来说,当N有限时,高传输效率的等 长码往往要引入一定的失真和错误,它不能像变 长码那样可以实现无失真编码。 下面介绍变长码,及其编码定理。
4.5 变长码


4.5.1 的编码效率; 变长码往往在N不很大时就可编出效率很高而且 无失真的码。 等长码:非奇异 惟一可译 变长码:任意有限长N次扩展码是非奇异 惟 一可译
非奇异码 唯一可译 码
s1
奇异码 非惟一可 译码
s2
s3 s4
01
10 11
11
10 11
4.2 等长码



等长编码惟一可译的必要条件:q N r l 其中: q为信源符号数,r为符号集中的码元数,l为 码长。 例如: 若信源符号数 q=4,进行二元等长编码,则码符 号个数为 r =2。信源S存在惟一可译等长码的条 件是码长 l≥2。 若q=8,r =2,l≥3。
引言

信源编码:以提高通信有效性为目的的编 码。通常通过压缩信源的冗余度来实现。 采用的一般方法是压缩每个信源符号的平 均比特数或信源的码率。即同样多的信息 用较少的码率传送,使单位时间内传送的 平均信息量增加,从而提高通信的有效性。
引言

信道编码:是以提高信息传输的可靠性为 目的的编码。通常通过增加信源的冗余度 来实现。采用的一般方法是增大码率/带宽。 与信源编码正好相反。 密码:是以提高通信系统的安全性为目的 的编码。通常通过加密和解密来实现。从 信息论的观点出发,“加密”可视为增熵 的过程,“解密”可视为减熵的过程。
所有码 非奇异码 惟一可译码 即时码
4.5 变长码

4.5.2 即时码的树图构造法 构造即时码的一种简单方法是树图法。
码4 1 01 001 0001 s1 s2 s3 s4
4.1 编码器及码的分类

编码:信息的组织方式 编码的实质:对信源的原始符号按一定的 数学规则进行变换。 编码的目的: 信源编码:提高信息传输的有效性 信道编码:提高信息传输的可靠性

本章不考虑干扰问题
4.1 编码器及码的分类

无失真编码器结构框图
信源
S {S1, S2 ,..., Sq }
4.4 等长信源编码定理

定理4.3 (等长信源编码定理): 一个熵为H(S)的离 散无记忆信源,若对信源长为N的符号序列进行 等长编码,设码字是从r个字母的码符号集中选 取l个码元组成。对于任意ε>0,只要满足:
l H (S ) N log r


则当N足够大时,可实现几乎无失真编码,即译 码错误概率能为任意小。反之,若 l H ( S ) 2 当N足够大时,译码错误概率近 N log r 似为1,不可能实现无失真编码。
4.2 等长码
N l q r 对 两边取对数得 N log q l log r

平均每个信源符号所需的码符号个数
l log q N log r

上式表明:对于等长惟一可译码而言,平均每个 信源符号至少需要用 logq/logr个码符号来表示。 即:每个信源符号所需最短码长为 logq/logr个。
码字Wi: 由xj (j=1,2,„,r)组成的长度为 li 的序列, Wi与si一一对应。 码字长度 (码长): Wi的长度li 编码器:将信源符号si变换成Wi的设备 信源编码 信源编码:把信源符号si映射为码字Wi的过程。 无失真编码:映射是一一对应、可逆的。 信源编码基本思想:尽可能缩短出现概率大的信 源符号的码字
i 1

若对信源S采用等长二元编码,要求编码效率 η=0.96,允许错误概率 105
3 3 2 1 1 2 (log ) (log ) (0.811) 2 0.4715 4 4 4 4
4.4 等长信源编码定理
0.4715 (0.96)2 7 4.13 10 则得 N (0.811)2 0.042 105
4.2 等长码


若要实现无失真编码,不但要求信源符号si与码 字Wi是一一对应的,而且要求码符号序列的反变 换也是惟一的。即所编的码必须是惟一可译码。 对于等长码来说,若等长码是非奇异码,则它的 任意有限长N次扩展码一定也是非奇异码。 等长非奇异码一定是惟一可译码。
信源符号 码1 00 码2 00
4.4 等长信源编码定理

说明:定理4.3是在平稳无记忆离散信源的条件 下得出,但它同样适合于平稳有记忆信源 。

当进行二元编码时,r=2,则:
等长编码时平均每个 信源符号所需的二元 码符号的理论极限
l H (S ) N
信源等 概分布 时
l log q N

一般情况下,信源符号并非等概率分布,且符号 之间有很强的关联性,故信源的熵H(S)<<logq。

非奇异码:若一组码中所有码字都不相同(即所 有信源符号映射到不同的码符号序列,不同信源 符号可分辨),则称为非奇异码。

奇异码:反之,若码组中含有相同的码字则为奇 异码。

同价码:若码符号集X:{x1,x2,„,xr}中每个码符 号所占的传输时间都相同,则所得的码为同价码。
4.1 编码器及码的分类



4.4 等长信源编码定理
H (S ) H (S ) 称 l R log r N
相关文档
最新文档