3.1离散无记忆信源等长编码

合集下载

第6讲——离散无记忆信源等长编码2014

I (u L ) Pr H (U ) 1 L
即当L足够大时， I L 将以概率1取值为H(U)。
推论1(特定序列出现的概率)
若 u L TU (L, ) ，则 2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ] 即
P r uL T U ( L, ) 1
无扰编码定理
N R log D, 编码速率 L
若R>H(U)，则R是可达的；若R<H(U) ，则R是不可达的。对于给定的离散无记忆信源，若D元码的速率R超过信源的熵，即 N / L log D [ H (U ) ]，则存在有编码方法，当L足够大时就能使译码错误概率任意小。
信源及其分类
【分类方法】按照某时刻信源输出消息的取值集合的离散性和连续性，信源可分为离散信源和连续信源；按照信源输出消息的所对应的随机序列的平稳性，信源可分为平稳信源和非平稳信源；按照信源输出消息的所对应的随机序列中随机变量前后之间有无依赖关系，信源可分为无记忆信源和有记忆信源。
离散无记忆信源的等长编码
2
L ( H (U ) )
TU (L, ) 2 L[ H (U ) ]
TU (L, ) 2L[ H (U ) ]
2 L[ H (U ) ] p(uL ) 2 L[ H (U ) ]
uL TU ( L. )
有 1

p(uL )
I (u L ) log p(u L ) log p(ul ) [ log p(ul )] I (ul )
其中， I (ul ) 是信源从字母集A中独立选出某个字母所获得的信息量。
l
l

第三章离散源无失真编码

第三章离散信源无失真编码3.2离散无记忆信源，熵为H[x]，对信源的L 长序列进行等长编码，码字是长为n 的D 进制符号串，问：（1）满足什么条件，可实现无失真编码。

（2）L 增大，编码效率也会增大吗？解：（1）当log ()n D LH X ≥时，可实现无失真编码；（2）等长编码时，从总的趋势来说，增加L 可提高编码效率，且当L →∞时，1η→。

但不一定L 的每次增加都一定会使编码效率提高。

3.3变长编码定理指明，对信源进行变长编码，总可以找到一种惟一可译码，使码长n 满足D X H log )(≤n <D X H log )(+L 1,试问在n >D X H log )(+L1时，能否也找到惟一可译码？解：在n >D X H log )(+L1时，不能找到惟一可译码。

证明：假设在n >D X H log )(+L1时，能否也找到惟一可译码，则由变长编码定理当n 满足D X H log )(≤n <D X H log )(+L 1，总可以找到一种惟一可译码知：在n ≥DX H log )( ① 时，总可以找到一种惟一可译码。

由①式有：Ln ≥L X H )(logD ② 对于离散无记忆信源，有H(x)=LX H )( 代入式②得：n L≥ D x H log )(即在nL≥Dx H log )(时，总可以找到一种惟一可译码；而由定理给定熵H （X ）及有D 个元素的码符号集，构成惟一可译码，其平均码长满足D X H log )(≤n L <DX H log )(+1 两者矛盾，故假设不存在。

所以，在n >D X H log )(+L1时，不能找到惟一可译码。

3.7对一信源提供6种不同的编码方案：码1~码6，如表3-10所示（1）这些码中哪些是惟一可译码？（2）这些码中哪些是即时码？（3）对所有唯一可译码求出其平均码长。

解：码1：其二次扩展码是奇异码，如u1u2和u5u1对应的码字均为010；码2：是惟一可译码，非奇异等长码是惟一可译码，且是即时码，平均码长为3；码3：是延长码，是惟一可译码，但不是即时码，平均码长为n =∑=71iii n p =3.06 码4：是非延长码，故是惟一可译码，也是即时码；平均码长n =∑=71iii n p =3.06 码5：是数码，即非延长码，因此是即时码；平均码长n =∑=71iii n p =2.625 码6：是非延长码，故是惟一可译码，也是即时码；平均码长n =∑=71iii n p =3.125 综上所述，码2~6均为惟一可译码，码2、4、5、6是即时码。

第三章信源编码(一)离散信源无失真编码

离散无记忆源的等长编码
在无错编码的前提下，编码的最低代价当R≥logK时，能够实现无错编码。当R<H(U1)时，无论怎样编码都是有错编码。这是因为R<H(U1)≤logK。（如果H(U1)=logK，则以上两种情形已经概括了全部情形。但如果H(U1)<logK，则还有一种情形）当logK>R>H(U1)时，虽然无论怎样编码都是有错编码，但可以适当地编码和译码使译码错误的概率pe 任意小。这就是所谓“渐进无错编码”。
如何证明？

弱、强e典型序列集
定义3.2.1：令H(U)是集{U, p(ak)}的熵，e是正数，集合
TU ( L, e ) {uL : H (U ) e I L H (U ) e }
定义为给定源U输出的长为L的典型序列集。 ——弱e-典型序列集定义3.2.2：令H(U)是集{U, p(ak)}的熵，e是正数，集合定义为给定源输出的长为L的e－典型序列集，其中Lk 是在L长序列中符号ak出现的次数 ——强e-典型序列集
3.2 离散无记忆源的等长编码
离散无记忆源

字母表A={a1,…,aK},概率分别为p1,…,pK,长为L 的源输出序列uL={u1,…,uL}，共有KL种序列码符号字母表B={b1,…,bD},以码符号表示源输出序列，D元码等长D元码，能够选择的不同码字的个数为DN，不等长D元码的个数,能够选择的不同码字的
设给定编码设备的编码速率R0=0.5。则 R0>0.037587148=H(U)。希望： ①2元编码的实际编码速率R≤R0； ②译码错误的概率不超过ε。其中取 ε=0.1； ε=0.05； ε=0.01。
DMS的等长编码

第三章信源编码离散信源无失真编码-PPT精选文档

忆（简单）信源的不等长编码
②平均码字长度。设信源随机变量U的概率分布为{ak, p(ak), k=1~K}，事件ak对应的码字长度为nk，则平均码字长度为
n nk p(ak )
k 1
K
希望 n 小。解决方案：概率大的事件用短码字。 ③实时译码和容量限制。
第三章：信源编码（一）离散信源无失真编码
§3.1 §3.2 §3.3 码 §3.4 §3.5 信源及其分类离散无记忆（简单）信源的等长编码离散无记忆（简单）信源的不等长编最佳不等长编码算术编码和LZ编码
1
2019/2/28
§3.3 离散无记忆（简单）信源的不等长编码
（顺序地叙述以下的概念）（1）不等长编码的优越性总体上减少码字的长度。（2）不等长编码的特殊问题 ①唯一可译性，或者叫做可识别性。对于一个码，如果存在一种译码方法，使任意若干个码字所组成的字母串只能唯一地被翻译成这几个码字所对应的事件序列。这个码就被称为是唯一可译的。解决方案：适当地编码，使得每个码字都具有识别标记。（注解：一个唯一可译的、码字长度不超过N的D元码，其码字个数小于D(DN-1)/(D-1)个。这是因为两个码字c(1)和c(2) 连接成的字母串c(1)c(2) 不能是码字）
D
k 1
2019/2/28
K
nk
1
10
§3.3 离散无记忆（简单）信源的不等长编码
证明不妨设n1≤n2≤…≤nK。则各码字长度分别为n1、n2、…、nK的D元异字头码存在；当且仅当：存在这样一个D叉树，树上有n1级、n2级、…、nK级树梢；当且仅当：nK级D叉满树有不存在上下关系的n1级、n2级、…、 nK级节点；当且仅当： nK级D叉满树的树梢数量不小于

等长信源编码定理

信息论作业等长信源编码定理在信息传输过程中，绝大多数信道无法传输原始信息(比如汉字信息)，因此在传输信息时需要对信息进行编码转换，以便适合信道传输。

编码分为等长码和变长码，所谓等长码，就是对信源符号集的每个符号编码时的码字的长度是相同的。

本文主要针对等长信源编码进行相关讨论。

在对信源进行编码时，若要实现无失真的编码，这就要求信源符号与码字是一一对应的，即信源符号到码字的转换是唯一的，码字到信源符号的转换也是唯一的。

从理论上说，等长f非奇异码一定是唯一可译码，而且如果信源符号有q个，每个码元符号数为r个，则编码的码长l必须满足关系：l≥log q按照这个公式计算，英文电报有32个字符，如果采取二进制编码(码元符号为0和1)，则需要至少5位的码长，5位的码长所携带的信息量为5比特。

我们知道，当信源符号等概率分布，且信源符号之间无相关性时，信源所携带的平均信息量最大，如果32英文字符等概率出现，则携带的最大信息量正好是5比特，跟5位码长编码携带的信息量是一致的，但是，32个英文字符并不是等概率出现的，字符之间也是存在依赖性的，因此信源所携带的信息量则会远远低于5比特(实际应用中测量信息量为1.4比特)，那就意味着，如果考虑信源的实际概率分布空间和心愿符号之间的依赖性，若要携带信源的全部信息量，完全可以采用更短的码长进行编码，即对某一给定概率空间的信源，对其进行无失真等长编码时，必然存在一个码长的理论极限值。

等长信源编码定理则给出了这个理论极限值。

等长信源编码定理：一个熵为H(s)的离散无记忆信源，若对信源长为N的符号序列进行等长编码，设码字是从r个字母的码符号集中，选取l个码元组成，对于任意的ε>0，只要满足l≥H S+ε当N足够大时，可实现几乎无失真编码，即译码错误概率为任意小。

反之，若l N ≤H S−2εlog r则不可能实现无失真编码，而当N足够大时，译码错误概率近似于等于1 。

这个公式为最佳无失真等长编码指明了方向，即要求编码的码长最短而且保证译码的差错概率。

第三章离散信源无失真编码

(比特/码元时间)
3.2 等长码及等长编码定理
考虑对一简单信源S进行等长编码，信源符号集有K个符号，码符号集含D个符号，码字长度记为n。要得到惟一可译码，必须满足下式 K≤Dn 对单符号信源S的L次扩展信源S（L）进行等长编码，要得到码长为n的惟一可译码，必须满足 KL≤Dn （3-5）对式（3-5）两边取对数，得 n log K （3-6） L log D 对于那些出现概率极小的字符序列不予编码，这样可以减小平均码长，当然这样会带来一定的失真。下面的[定理3.1] 将证明，当满足一定的条件时，在L →∞时，译码错误概率pe →0
pe <δ(ε、δ为无穷小量)；反之，当现无差错编码。
n H X L log 时，则不可能实 D
编码效率 L[ H ( X ) ] n H X 1 定理3.1要求，即，可看出比值
LH ( X ) n log D
L log D
n log D
是一个小于1的无量纲纯数，定义它为等长编码的编码
定理3.1 等长编码定理设离散无记忆信源S ={x1 ，x2 ，…，xk} S ( L) {s1, s2 ,, sk L }，对的熵为H（X），S的L维扩展信源为信源输出的L长序列si ，i = 1, 2, …, kL 进行等长编码，码字是长度为n的D进制符号串，当满足条件 n H X ，则L →∞时， L log D 可使译码差错
显然，即时码是惟一可译码，而惟一可译码不一定是即时码。
即时码可用树图法来构造。
15
【例3.4】用树图法表示表3-2中的码3，如图3-3所示（D =2）。树根 0 深度编码 1 0 u1 u1：1 1 0 u2 u2：01 1 u3：001 u3 1 u4：0001 u

第三章信源编码-离散无记忆源等长编码

第三章信源编码——离散信源无失真编码本章分析问题：在信宿要求无失真接收时，或所有信源信息无损的条件下，离散信源输出的表示——即信源编码问题。

内容：信源分类，信息速率的计算，编码定理，有效编码方法等。

一、信源及其分类 1．离散信源和连续信源离散信源表示：…Ｕ－２Ｕ－１Ｕ０Ｕ１Ｕ２…其中ＵＬ随机变量，取值范围：Ａ＝｛ａ１，ａ２，…ａｋ｝２．无记忆源和有记忆源无记忆源：各ＵＬ彼此统计独立简单信源：各ＵＬ彼此统计独立且服从同一概率分布Ｐ（ＵＬ＝ａｋ）＝Ｐｋ，ｋ＝１，２，…，Ｋ∑=Kk 1Ｐｋ＝１有记忆源：各ＵＬ取值相关。

ＵＬ＝（Ｕ１，Ｕ２，…，ＵＬ）∈ＵＬ，其概率分布由Ｌ维随机矢量表示，Ｐ（ＵＬ＝ａ）＝Ｐ（Ｕ１＝ａｋ１，…，ＵＬ＝ａｋＬ）３．平稳信源：概率分布与起始下标无关Ｐ（Ｕ１＝ａｋ１，…，ＵＬ＝ａｋＬ）＝Ｐ（Ｕｔ＋１＝ａｋ１，…，ＵＬ＝ａｋＬ）４．各态历经源：信源输出的随机序列具有各态历经性。

５．有限记忆源：用条件概率Ｐ（ＵＬ，ＵＬ－１，ＵＬ－２，ＵＬ－ｍ）表述。

ｍ为记忆阶数。

６．马尔可夫源：有限记忆源可用有限状态马尔可夫链描述，当ｍ＝１时为简单马尔可夫链。

７．时间离散的连续源：各随机变量ＵＬ取值连续。

８．随机波形源：时间和取值上均连续的信源；由随机过程ｕ（ｔ）描述，时间或频率上有限的随机过程可展开成分量取值连续的随机矢量表示，即时间上离散，取值连续的信源。

９．混合信源二、离散无记忆源的等长编码离散无记忆源：ＤＭＳＬ长信源输出序列：ＵＬ＝（Ｕ１，Ｕ２，…，ＵＬ），Ｕｌ取值｛ａ１，ａ２，…ａｋ｝，共ＫＬ种不同序列。

对每个输出序列用Ｄ元码进行等长编码，码长为Ｎ，则可选码共有ＤＮ个。

１．单义可译码或唯一可译码：条件：ＤＮ≥ＫＬ＝Ｍ，即Ｎ≥ＬｌｏｇＫ／ｌｏｇＤＮ／Ｌ：每个信源符号所需的平均码元数；Ｎ／Ｌ→３．３２２；２．信息无损编码要求：设每个信源符号的信息量为Ｈ（Ｕ），则Ｌ长信源序列的最大熵值为ＬＨ（Ｕ），编码时由于Ｄ个码元独立等概时携带信息量最大，使码长最短。

信息论基础——信源编码

由离散无记忆信源熵定义，可计算出：
6
H (X ) p (x i)lo g 2p (x i) 2 .4 2 (比特 /符号 ) i 1
对上述信源采用香农编码的信息率为 R L L lo g 2 m 2 1 .7 lo g 2 2 2 .7 这里 L 1 ,m 2
3 011 (0.011)2
0.60
4 1001 (0.10011)2
0.775
4 1100 (0.110001)2
0.90
5 111001 (0.1110011)2
0.975 6 111110 (0.1111100)2
13
算术码—Shannon-Fano-Elias码
计算出给定信源香农码的平均码长
L 0 . 2 5 2 2 ( 0 . 2 0 . 1 5 ) 3 0 . 1 0 4 0 . 0 5 5 2 . 7 ( 比特 / 符号 )
若对上述信源采用等长编码，要做到无失真译码，每个符号至少要用3 个比特表示。相比较，香农编码对信源进行了压缩。
数据压缩和信源编码
3.1 等长码 3.2 变长编码 3.3 哈夫曼码 3.4 算术码 3.5 通用信源编码习题三
香农-费诺码 LZW算法
1
算术码—Shannon-Fano-Elias码
0.概述
是第一个能够找到的好的变长码.
原则：按照符号出现的概率从大到小排序，然后将其分成两个出现概率相同或几乎相同的子集—一个子集的编码均以0打头，另一个子集的编码均以1打头；然后把每个子集再分成两个更小的子集，同样确定所有码字的第二位，依次循环.
4 4
号字母表为U 0,1，求信源的算术码.
9

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3.1离散无记忆信源等长编码
几乎无失真等长编码
选择L 足够长，使
其中，
为与L 有关的正数，且当时有,才能不损失信息。

然而这样的编码不总能保证单义可译，但非单义可译所引起的错误可渐近为任意小。

反之，若，编码误差变得任意大。

]
)([log L U H L D N ε+≥L ε∞→L 0→L ε])([log L U H L D N ε−<
3.2 离散无记忆（简单）信源的等长编码编码速率
R=N log D/L
R=N log D/L≥log K
关于编码速率的说明：
表示一个长度为N的D元码字给一个长度为L的消息的每个符号所提供的信息量。

一个消息序列U L 每符号含有信息量算术平均为：
信源的熵为H(U)
设I (u l )的方差为3.2 离散无记忆（简单）信源的等长编码
()/()/L L l l
I I L I u L
==∑u ()()()
()()l k k k
E I u p a I a H U ==∑2
I σ()()()()
2
2()()I
l k k k
D I u p a I a H U σ==−∑
3.2 离散无记忆（简单）信源的等长编码
例信源发出的消息序列长度L=8。

长为8的序列是(a 1+a 2)8的展开式的所有项，共28个。

消息序列的概率是(p 1+p 2)8的二项展开式中的各项。

1
2~1/43/4l a a u ⎛⎞⎜⎟
⎝⎠
()()()12~1/4
3/4l I a I a I u ⎛⎞
⎜⎟
⎝⎠()0.81H U bit
=()()()()2
2
()()0.471
I
l k k k
D I u p a I a H U σ==−=∑()()()
888111/8I a I a I a ==()()()()35
8121235/8
I a a I a I a =+
3.2.2 信源划分定理
•典型序列集的定义
•令H(U)是集的熵，，
•定义为给定信源U 输出长为L 的典型序列集
它称作弱ε典型序列集；相应地，
的补集为非典型序列集。

3.2 离散无记忆（简单）信源的等长编码
{})(,k a p U 0>ε{}
εεε+≤≤−=)()(:),(U H I U H L T L L U u ()
()/,L
L
L L I
I L U
=∈u u ),(εL T U
令u L 是信源的长为L 的输出序列，其中，是序列中出现的次数。

称为强典型序列集。

例4次掷硬币试验强典型序列有{0011}, {1001}, {1100}, {1100}, {0011}, {1010}.
ε>{}
(,):[()][()]U L k k k T L L p a L L p a εεε=−≤≤+u k L k a {},()k U p a
例信源发出的消息序列长度L=8,对其二元随机编码。

I 8的数值：
2, 1.80, 1.60, 1.41, 1.21, 1.01, 0.811, 0.61, 0.415
12~1/43/4a a U ⎛⎞
⎜⎟
⎝⎠
()0.81H U bit
=87162534435261781121212121212122
a ,a a ,a a ,a a ,a a ,a a ,a a ,a a ,a
()()20.471
I k D I a σ==
()4435261781212
12
12
2
22
a a ,a a ,a a ,a a ,a 163/0.3679.
I
L σε
=若对共个序列编码,错误概率上限是
()()()()()()()8
7
6
2
5
3
01238
8
8
8
C 1/4C 1/43/4C 1/43/4C 1/43/40.027
e P =+++=261735121212
0.2a a ,a a ,a a
ε=弱典型序列是44352617812
12
12
12
2
0.4a a ,a a ,a a ,a a ,a
ε=弱典型序列是87162531121212
a ,a a ,a a ,a a
3.2 离散无记忆（简单）信源的等长编码
3.2.3 离散无记忆信源编码定理
•可达
•对于给定的信源和编码速率R 以及任意，若
存在有，
和，使当时，就称R 是可达的，否则称此R 不可达。

例掷硬币实验R=1bit 可达；R=0.5bit 不可达。

0>ε0L ()E ()D 0L L >ε<e p
复习
无失真等长编码的充要条件
信源符号{a 1,a 2,…,a K } 码字符号{0,1,…,D-1}长l 的消息序列a i1a i2…a il 长为N 的码字n 1n 2…n N
D N ≥K L
N log D /L ≥log K
编码速率R =N log D /L R ≥log K
典型序列集
典型序列的数量
(1-ε
)2L (H (U )-ε)≤|T U (L ,
ε)|≤2
L (H (U )+ε)特定典型序列出现的概率
若一个特定的事件(u 1u 2…u L )∈T U (L , ε)，则
2-L (H (U )+ε)≤P {(u 1u 2…u L )=(a i 1a i 2…a i L )}≤2-L (H (U )-ε)
Asymptotic Equipartition Property
{}
εεε+≤≤−=)()(:),(U H I U H L T L L U u
3.2 离散无记忆（简单）信源的等长编码
3.2.3 离散无记忆信源编码定理编码效率
最佳编码时，其
中，。

1
/)(≤=R U H η])(/[)(εη+=U H U H 0>ε
作业3.1 3.2。