第三章 信源编码-离散无记忆源等长编码
信源编码等长码

● 根
0
º
0
1● 1●
0 1
10
º
0
110
º
111
º
码字是从树根节点出发到达终节点所对应的码符号序列
•
码的分类结构图
奇异码 非奇异码
唯一可译码
非唯一可译码
等长码
非等长码
即时码
延时码
• 平均码长
码字长度
n nm P(Cm )
码 , 或单义可译码。否则,就称为非唯一可译码或非 单义可译码。
例如,表3.1中码1是唯一可译码,而码2是非唯一可
译码。因为对于码2,其有限长的码符号序列能译成 不同的信源符号序列。如码符号序列为0010,可译 成s1s2s1或s3s1,就不唯一了。
唯一可译码 非唯一 可译码
表3.1
唯一可译码
[定义] 若W中任一有限长的码字序列 (即有限长的一 串W),可以被唯一地分割成一个一个码字,就称为是单义 可译或唯一可译的,W也叫做单义代码。 从扩展性定义:码的任意N次扩展码都是非奇异码,则唯一可译
• 求信息传输速率。
7 i=0
H X =-p(x i )log(p(x i )) 2.75log2 2.75(比特/符号) 1 1 1 n 2 2 2 3 2 4 2.75 (码元/符号) 4 8 16 信源特殊分 H X 2.75 RD = =1(比特/码元时间) 布,每个消 2.75 n 息的概率
码C: 0 10
110
111
4、码C是唯一可译的,因为任一串有限长的码字w, 如 100111011010 只能被分割成 10,0,111,0,110,10 任何其他分割方法都会产生一些不属于代码W的 码字(如1,001,11,011,010);
第3章 离散无失真信源编码优秀课件

惟一可译码
延长码(前缀码)
某些码字是其他 码字的前缀,或 者说,某些码字 后面增加一些码 元就可以变成其 他码字
延长码不全是惟一可译码 非延长码一定是惟一可译码
非延长码 (异前缀码)
码中的任何一个 码字都不是其他 码字的前缀,或 者说,任一个码 字后面增加一些 信道符号(码元) 都不可能变成另 一个码字
内容提要
用尽可能少的符号来传输信源消息,目的是提高传输效 率,这是信源编码应考虑的问题,这章讨论在不允许失真情况 下的信源编码。等长编码定理给出了等长编码条件下,其码长 的下限值,变长编码定理(香农第一定理)给出了信源无失真 变长编码时其码长的上、下限值。本章还介绍了三种通用信源 编码方法:香农编码法、费诺编码法和霍夫曼编码法。
2, …, M)都是一个D进制符号串,设c1,c2,…,cM 对应的码 长分别是n1,n2,…,nM,则存在惟一可译码的充要条件是
M
Dni
1
(克拉夫特不等式)
i 1
克拉夫特不等式所说的充要条件是对于码长组合而言的,而不是 对于码字本身。也就是说,满足克拉夫特不等式的码长组合一定 能构成惟一可译码,但满足克拉夫特不等式的码不一定是惟一可 译码。
如: 中 0022 01101 01101 11001 11001 国 0948
二.码的分类
信源编码可看成是从信源符号集到码符号集的一种映射,即将信源符 号集中的每个元素(可以是单符号,也可以是符号序列)映射成一个长度 为n的码字。对于同一个信源,编码方法是多种的。
【例3.1.2】 用{ a, b, c, d }表示信源的四个消息,码符号集为{0,1},下表列
出了该信源的几种不同编码。
第6讲——离散无记忆信源等长编码2014

即当L足够大时, I L 将以概率1取值为H(U)。
推论1(特定序列出现的概率)
若 u L TU (L, ) ,则 2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ] 即
P r uL T U ( L, ) 1
无扰编码定理
N R log D, 编码速率 L
若R>H(U),则R是可达的;若R<H(U) ,则R是 不可达的。 对于给定的离散无记忆信源,若D元码的速率R超过 信源的熵,即 N / L log D [ H (U ) ],则存在有编码 方法,当L足够大时就能使译码错误概率任意小。
信源及其分类
【分类方法】 按照某时刻信源输出消息的取值集合的离散性和连续性, 信源可分为离散信源和连续信源; 按照信源输出消息的所对应的随机序列的平稳性,信源可 分为平稳信源和非平稳信源; 按照信源输出消息的所对应的随机序列中随机变量前后之 间有无依赖关系,信源可分为无记忆信源和有记忆信源。
离散无记忆信源的等长编码
2
L ( H (U ) )
TU (L, ) 2 L[ H (U ) ]
TU (L, ) 2L[ H (U ) ]
2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ]
uL TU ( L. )
有 1
p(uL )
I (u L ) log p(u L ) log p(ul ) [ log p(ul )] I (ul )
其中, I (ul ) 是信源从字母集A中独立选出某个字母所获得的 信息量。
l
l
信源编码_3

X:信源
x :信号单元、消息、信源符号
W:代码、码组或码书
w:码字
A:构成码字的符号集
a :码元、符号、字符
X = {x1 , x2 , ..., xn }
信源符号集
编编码码器器
W = {w1 , w2 , ..., wn }
码字
A = {a1 , a 2 , ..., a m }
码符号集
Coding Theory 3-5
② X~W对应关系:顺序的一一对应关系:
R2 = {( x1, w1 )( x2, w2 ),( x3, w3 ),( x4, w4 )}
定长码 变长码 信源符号 码1 码2
x1
00 0
x2
01 01
x3
10 001
x4
11 111
Coding Theory 3-8
编码分类
非奇异码:所有信源符号映射到不同的码字
冗余度越低,信源输出信号携带信息的有效性越高,反之越低
0 ≤ Hn ( X ) ≤ Hn−1( X ) ≤ K ≤ H1( X ) ≤ H0 ( X ) = log m < ∞
Coding Theory 3-2
信源编码
3、信源输出信息的有效表示:如何用适当的码 符号有效表示信源输出的信息
无失真信源编码:可完整地恢复原信源符号 有失真信源编码:引入量化,按一定的失真度恢复源 符号序列,同时保留尽可能多的信息量
10
111
111 0111 111
11
Coding Theory 3-12
分组码
1、非奇异码:码中所有码字各不相同
码A是奇异码,有两个码字相同,所以信源符号与码字不是一 一对应的,一定不是唯一可译码(虽然有最小码长)
第三章 无失真离散信源编码解析

10
3.2 离散无失真信源编码定理
一、香农理论对数据压缩的指导意义
1、数据压缩的途径 途径一:使序列中的各个符号尽可能地互相
独立,即解除相关性,去冗余; 途径二:使编码中各个符号出现的概率尽可
能地相等,即概率均匀化。
2、数据压缩的理论极限
11
3.2 离散无失真信源编码定理
二、编码的指标
1. 平均码长
第三章 无失真离散信源编码
1
3.1 基本概念
例1:
N个消息集合 X={a、b、c… z、空格…}
信源 编码器
信道基本 符号(0、1)
N个代码组集合 C={c1、 c2、…cN}
2
3.1 基本概念
一、信源编码的定义:
信源编码是以提高通信的ቤተ መጻሕፍቲ ባይዱ效性为目的编码。
信源编码
适合信道传输 减少冗余度
3
3.1 基本概念
5
3.1 基本概念
二、信源编码的分类
(1) 二元码和r元码 若码符号集 X {0,1},编码所得码字为一些
适合在二元信道中传输的二元序列,则称二元码。 二元码是数字通信与计算机系统中最常用的一种 码。若码符号集共有 r 个元素,则所得之码称为 r 元码。
6
3.1 基本概念
二、信源编码的分类
(2) 基本源编码和N次扩展源编码 (3) 无失真编码 和有失真编码
• 信源熵: H ( X ) = 1/4 log4 +3/4 log3/4 = 0. 811 bit / 信源符号
若用二元定长编码 (0,1) 来构造一个即时码:
• 平均码长: • 编码效率:
二元码符号 / 信源符号 L1 1
R H (x) 0.811L bit/code
第三章 信源编码(一)离散信源无失真编码

离散无记忆源的等长编码
在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 当R<H(U1)时,无论怎样编码都是有错编码。这是 因为R<H(U1)≤logK。 (如果H(U1)=logK,则以上两种情形已经概括了全部情 形。但如果H(U1)<logK,则还有一种情形) 当logK>R>H(U1)时,虽然无论怎样编码都是有错编 码,但可以适当地编码和译码使译码错误的概率pe 任意小。这就是所谓“渐进无错编码”。
如何证明?
弱、强e典型序列集
定义3.2.1:令H(U)是集{U, p(ak)}的熵,e是正数,集合
TU ( L, e ) {uL : H (U ) e I L H (U ) e }
定义为给定源U输出的长为L的典型序列集。 ——弱e-典型序列集 定义3.2.2:令H(U)是集{U, p(ak)}的熵,e是正数,集合 定义为给定源输出的长为L的e-典型序列集,其中Lk 是在L长序列中符号ak出现的次数 ——强e-典型序列集
3.2 离散无记忆源的等长 编码
离散无记忆源
字母表A={a1,…,aK},概率分别为p1,…,pK,长为L 的源输出序列uL={u1,…,uL},共有KL种序列 码符号字母表B={b1,…,bD},以码符号表示源输 出序列,D元码 等长D元码,能够选择的不同码字的个数为DN, 不等长D元码的个数,能够选择的不同码字的
设给定编码设备的编码速率R0=0.5。则 R0>0.037587148=H(U)。 希望: ①2元编码的实际编码速率R≤R0; ②译码错误的概率不超过ε。其中取 ε=0.1; ε=0.05; ε=0.01。
DMS的等长编码
信息论与编码第三版 第3章

(2)增强通信的可靠性: 综上所述,提高抗干扰能力往往是以降低信息传输效率为代价
信息论与编码
信源编码的概念:对信源的原始符号按一定的数学规则进行变换的一种
代码。
信源编码包括两个功能:
(1)将信源符号变换成适合信道传输的符号; {b1, b2,…, bD}是适合 编码输出码字cm = cm1 cm2 … {a1, a2, …, (2)压缩信源冗余度,提高传输效率。 ak}为信 信道传输的D个符号, cmn, c mk∈{b1, b2,…, bD}, 源符号集,序列中 用作信源编码器的 k = 1, 2 , …, n ,n表示码字 每一个符号uml都取 信源编码模型: 编码符号。 长度,简称码长。 自信源符号集。
1 1 1 n 2 2 2 3 4 4 2.75 (码元/符号) 4 8 16
RD
H X n
2.75 1 (比特/码元时间) 2.75
信息论与编码
§3.2 等长码及等长编码定理
一.等长编码定理
考虑对一简单信源S进行等长编码,信源符号集有K个符号,码符号集 含D个符号,码字长度记为n。对信源作等长无差错编码,要得到惟一可译 码,必须满足下式:
扩展信源
信源编码器
信道符号(码符号)集{b1,b2,...bD}
信源符号集{a1,a2,...ak}
原码的N次扩展码是将信源作N次扩展得到的新信源符号序列u(N) =u1 …uN = (u11 u12 … u1L) … (uN1 uN2 … uNL),对应码符号序列c(N) =c1 …cN = (c11 c12 … c1n) … (cN1 cN2 … cNn) ,记集合C (N) = {c1(N), c2(N), …},C (N) 即原码C的N次扩展码。
ch3离散无记忆信源的无损编码

算术编码(AC)
初始时设S=Φ ,F(Φ)=0,p(Φ)=1。 计算序列的积累概率和序列的概率。
F ( Sur ) F ( S ) p( S ) F (ur ) p( Sur ) p( S ) p(ur )
1 计算码长 L log p ( S )
序列
Φ
1 11 111 1110 11101 111010 1110101 11101011
F(S) 0 0.01 0.0111 0.100101 0.100101 0.1001101011 0.1001101011 0.10011100000001 0.1001110011110111
P(S) 1 0.11 0.1001 0.011011 0.00011011 0.0001010001 0.000001010001 0.00000011110011 0.0000001011011001
离散无记忆信源的等长编码
Shannon等长信源编码定理 熵为H(U)的离散无记忆信源,对信源输 出长度为L的输出序列进行编码,假设编码字 符表有D个符号,则当
N L[ H (U ) L ] / log D
时,信源可以实现无损编码。反之若
N L[ H (U ) L ] / log D
将信源的K个符号按概率递减次序排列。 将两个概率最小的信源符号合并成一个新符号,
新符号的概率值为两个信源符号概率值的和。 依次类推,直至信源最后只剩下一个符号。 将每次合并的两个信源符号分别用0和1表示。 由后向前返回,就得到各信源符号对应的码字。
D元Huffman编码步骤:
增补D-M个概率为0的虚拟符号,其中M由下式给出:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 信源编码——离散信源无失真编码
本章分析问题:在信宿要求无失真接收时,或所有信源信息无损的条件下,离散信源输出的表示——即信源编码问题。
内容:信源分类,信息速率的计算,编码定理,有效编码方法等。
一、信源及其分类 1. 离散信源和连续信源
离散信源表示:…U-2U-1U0U1U2…
其中UL随机变量,取值范围:A={a1,a2,…ak} 2.无记忆源和有记忆源
无记忆源:各UL彼此统计独立
简单信源:各UL彼此统计独立且服从同一概率分布 P(UL=ak)=Pk,k=1,2,…,K
∑
=K
k 1
Pk=1
有记忆源:各UL取值相关。
UL=(U1,U2,…,UL)∈UL,其概率分布由L维随机矢量表示,P(UL=a)=P(U1=ak1,…,UL=akL) 3.平稳信源:概率分布与起始下标无关
P(U1=ak1,…,UL=akL)=P(Ut+1=ak1,…,UL=akL)
4.各态历经源:信源输出的随机序列具有各态历经性。
5.有限记忆源:用条件概率P(UL,UL-1,UL-2,UL-m)表述。
m为记忆阶数。
6.马尔可夫源:有限记忆源可用有限状态马尔可夫链描述,当m=
1时为简单马尔可夫链。
7.时间离散的连续源:各随机变量UL取值连续。
8.随机波形源:时间和取值上均连续的信源;由随机过程u(t)描述,时间或频率上有限的随机过程可展开成分量取值连续的随机矢量表示,即时间上离散,取值连续的信源。
9.混合信源
二、离散无记忆源的等长编码
离散无记忆源:DMS
L长信源输出序列:UL=(U1,U2,…,UL),Ul取值{a1,a2,…ak},共KL种不同序列。
对每个输出序列用D元码进行等长编码,码长为N,则可选码共有DN个。
1.单义可译码或唯一可译码:
条件:DN≥KL=M,即N≥LlogK/logD
N/L:每个信源符号所需的平均码元数;N/L→3.322;2.信息无损编码要求:
设每个信源符号的信息量为H(U),则L长信源序列的最大熵值为LH(U),编码时由于D个码元独立等概时携带信息量最大,使码长最短。
则信息无损编码的最小码长为:
NlogD≥LH(U)
注:计算H(U)时,需要考虑L→∞,L为有限值时,平均每符号的信息量将在H(U)附近摆动。
则:选L足够长,使NlogD≥L[H(U)+εL]
ε
L
:与L 有关的正数,当L ∞→时,ε
L
0→。
注:这种编码不一定保证单义可译,但非单义可译所引起的误差可渐进为任意小。
3. 序列划分
(1) L 长无记忆信源DMS 的信息量: a. 概率:P(U L )=P(U 1, U 2, … ,U L )=∏=L
l 1P(U l )
b. 消息序列U L 的自信息量:
I(U L )=-logP(U L )=-log ∏=L
l 1
P(U l )=∑=L
l 1
[-logP(U l )]=∑=L
l 1
I(U l ).
c. I(U l )含义:信源从取值集A 中独立选出某个字母所获得的信息量;
d. 消息符号的平均信息量:I L =I(U L )/L;
e. 信源中每符号的熵:H(U)=-∑=K
k 1p(a k )logp(a k );
f. 信源中各符号信息量I(a k )的方差:
ζI 2
=∑=K
k 1
p(a k )[ I(a k )- H(U)]
2
=
∑
=K
k 1
p(a k )[log p(a k )] 2- H 2 (U)
g .根据弱大数定理:对任意的ε>0有
P r [
I(U L )/L- H(U)>ε]< ζI 2/(1-ε2)=δ
P r [I(U L )/L- H(U) ≤ε] ≥1-δ
选δ=ε,得:P r [I(U L )/L- H(U) ≤ε] ≥1-ε 即:当L 足够大时,I L =I(U L )/L 以概率1取值H(U)。
2. 典型序列集:
a. T U (L,ε)={U L : H(U)-ε≤I L ≤ H(U)+ε}是长为L 的弱ε-典型序列集。
b. T U (L,ε)={U L : L(p(a k )-ε)≤I L ≤L(p(a k )+ε);a k ∈U}为给定信源输出的长为L 的强ε-典型序列集。
例子:扔硬币事件中,正反面出现概率当试验次数足够大时各为一半。
C.上述的补集为非典型序列。
d. 信源划分定理:
给定信源{U,p(a k )}和ε>0,当L ∞→时,P r {T U (L,ε)}→1,或对所有的ε>0,存在正整数L 0,当L> L 0时,有P r {U L ∈T U (L,ε)}≥1-ε. e. 典型序列出现的概率(渐进等概序列):
2
]
)([ε+-U H L ≤P[T U (L,ε)]≤2])([ε--U H L
即:P[T U (L,ε)]≈2)
(U LH -
证明:略。
g. 典型序列的数目: (1-ε)2
]
)([ε-U H L ≤T U (L,ε)数目≤2
]
)([ε+U H L
即:T U (L,ε)数目≈2)
(U LH
证明:略。
h. 个别非典型序列的概率不一定比个别典型序列的概率低,甚至高得多。
非典型序列的数目不一定少。
当L 很长时,典型序列的数目往往远少于非典型序列数目。
3.离散无记忆源的编码定理:
a.编码速率:R=
L
1logM=
L
N logD,M=D N
b.
可达速率:对给定信源和编码速率R和任意ε>0,若存在L0、编码和译码变换,使当码长L> L0时,译码错误概率位Pe<ε,
则R时可达的,否则R是不可达的。
c.
定理:R>H(U),则R可达;R<H(U),则R不可达。
此为无扰编
码的正、反定理。
由定理可知:R>H(U)⇒NlogD>LH(U)
即:N/L≥H(U)/logD
上述条件成立时,对典型序列一对一编码,能使译码错误概率
在L足够大时为任意小。
即:N/L≥H(U)/logD时,能够保证信源输出的信息量全部载入
码字,使Pe→0,但代价为L足够长,实现复杂,译码时延长。
H(U)/logD为表示每个信源符号所需的最少码符号数,它是等
长编码的理论极限。
4.编码效率
η=H(U)/R≤1
编码速率R可理解为:单个信源符号经过编码后,表示单个信源符号的码元数目所含的信息量,它必须大于等于信源符号的实际熵。