第4章 离散无记忆信源无失真编码 4.5.1
第四章:无失真信源编码

ε
ε
ε
ε
L[ H (S )+ε ] GL ε ξ= L <2 n nL
=2
−L[ logn−H (S )−ε ]
logn−H (S )−ε >0
① Lim p( A ) =1 ε L→ ∞
信源序列集合S
② H(P , P ,LPL ) →H(P LP ε ) 1 2 1 M n
信源熵
Aε
③ P = L= P ε = 1/ Mε 1 M
大概率事件熵
Aε
• 对于 A 有性质: 有性质 ε Lim p( A ) = 0 ε L→ ∞
由此可见, 由此可见,信源编码只需对信源中少数落入典型大概率事件的集合的符 号进行编码即可。 号进行编码即可。而对大多数属于非典型小概率事件集合中的信源符号 无需编码. 无需编码
H∞ ≅ 1.4bit
§4.2定长编码定理-4-进一步理解 4.2定长编码定理 定长编码定理-
解决方法: 解决方法:
考察: 字母个数为n 字母之间相关长度为L的英文信源, 考察: 字母个数为n,字母之间相关长度为L的英文信源,其可能的字母序列 但其中大部分字母序列是无意义的字母组合,而且随着L 总数为 L ;但其中大部分字母序列是无意义的字母组合,而且随着L n 的增加,这种无意义序列的总数越来越大。 的增加,这种无意义序列的总数越来越大。 进行联合编码,即对字母序列编码, 进行联合编码,即对字母序列编码,且只对哪些有意义的字母序列 方法: 方法: 编码,即需编码的字母序列的总数<< nL ,则平均每个信源符号所 编码,即需编码的字母序列的总数 则平均每个信源符号所 需的码符号个数可以大大减少,从而提高了传输效率。 需的码符号个数可以大大减少,从而提高了传输效率。 !!但当 足够长后, 问题: 会引入一定的误差!!但当L足够长后 误差可以任意小。 问题: 会引入一定的误差!!但当 足够长后,误差可以任意小。
信息论基础第四章 离散信源的无失真编码

信源编码有关概念 (1)平均码长
L p(a i )l i
i 1
q
单位:码符号/信源符号 意义:每个源符号平均需要的码符号数。 编码后每个信源符号平均用 L个码符号表示。 (2)信息传输率(平均每个码符号携带的信息量)
R
H(X ) L
16
L 越短,信息传输率就越高。
(3)最佳码(紧致码) 最佳码:对于某一信源和某一码符号集,若有一唯一可 译码,其平均码长小于所有其他唯一可译码的 平均码长,则该码称为最佳码。(最短唯一可 译码) 无失真信源编码的基本问题就是找到最佳码,最 佳码的平均码长为理论极限。
i 1 i 1
证明:
q
i 1
q
r li p i log pi
i 1
q
r li pi ( 1) pi
r
i 1
q
li
pi 1 1 0
i 1
q
H(S) H ( S ) L log r 0 L log r
18i l i log r
等长非奇异码一定是唯一可译码 ak a1 a2 a3 a4 p(ak) 0.5 0.25 0.125 0.125 码A 00 01 10 11 码B 00 01 00 10
5
等长编码及其定理
对信源S的N次扩展信源SN进行等长编码 若S = { s1, s2,…, sq},则N次扩展信源S N= { a1, a2,…, aqN}, 共有qN个符号序列。 设码符号集为X = { x1, x2,…, xr},长度为l 的码符号序列Wi = (xi1 xi2 … xil), xi1, xi2,…, xil∈X。
异前缀码等价于即时码
信息论.第4章无失真信源编码

S N
1
P
p(1 )
2 ... p(2 ) ...
qN
p(qN )
扩展信源熵为H(SN),
5
用码符号集X=(x1,…,xr)对SN 编码,则总可以找到
一种编码方法,构成唯一可译码,使信源S中的一
个信源符号所需要的码字平均长度满足
H (S) 1 LN H (S) log r N N log r
N log r 则当N足够大时,译码错误概率趋于1。
3
信源编码效率 编码速率:对于定长编码,编码速率定义为
R L log r N
编码效率:
H(S)
R
4
变长无失真信源编码定理(香农第一定理)
设离散无记忆信源
S
P
s1 p( s1 )
s2 p(s2 )
... ...
sq
p(
sq
)
其信源熵为H(S),它的N次扩展信源SN为
l log q log r
2
定长信源编码定理
设有离散无记忆信源,熵为H(S) ,若对信源的长为N 的符号序列进行定长编码,设码字是从r个码符号集中选 取L个码元构成,对于 > 0 只要满足
L H(S)
N log r 则当N足够大时,可实现译码错误概率任意小的等长编
码,近似无失真编码。
反之,若 满足 L H (s) 2
i 1
克拉夫特证明不等式为即时码存在的充要条件; 麦克米伦证明不等式为唯一可译码存在的充要条件。
1
简单信源S存在唯一可译定长码的条件为:
q r l l log q
log r
N次扩展信源SN存在唯一可译定长码的条件为:
qN rL
L log r N log q来自L log q N log r
信息理论与编码 第四章 离散无记忆信源无失真编码

7
63
H (U ) i1 P(ui ) log P(ui ) 32 bit/符号
l l 3 码元/符号
c
H (U ) l log r
63 32
3 log 2
65.625%
提高编码效率的方法:对符号串进行编码,同时
引入一定的失真。
20
4、引入失真,提高编码效率
lN H (U )
N log r
4
11 11
l
P(ui )li
i 1
1 2 3 3 24 88
1.75 码元/符号
编码策略: 出现概率大的符
编码策略:采用等长
号采用较短的码字,出现概
的码字
率小的符号采用较长的码字7
3、信息率
信
U
源 {u1,u2 , ,uq}
编码器 f
W
X
{w1,w2 , ,wq} {x1,x2 , ,xr }
限定定长编码码长的最小值,因此最佳的定长编码效率为:
c
H (U ) l log r
H (U ) lN log r
H (U )
H (U )
(1c )H (U ) c
(4-3-9)
N
可以证明,差错率满足关系:Pe
2 (U N 2
)
信源自信息量的方差
2 (U ) E I (ui ) H (U )2 P(ui )log P(ui )2 H (U )2
f 是一 一对应 的映射
P(wi ) P(ui ) i 1,2, ,q
X
{x1,x2 , ,xr }
H(W ) H(U) bit/码字或 bit/符号
新信源X :H (X ) H (W ) H (U ) bit/码元
第4章 离散无记忆信源无失真编码

第4章离散无记忆信源无失真编码主要内容1、基本概念2、码的唯一可译性3、定长编码定理和定长编码方法4、变长编码定理5 变长编码方法6 几种实用的无失真信源编码1、基本概念信源发出的消息序列通常不能直接送给信道传输,需要经过信源编码和信道编码。
信道编码的目的是降低差错率,提高传送的可靠性。
信源编码的目的是为了降低冗余度,提高通信的有效性。
编码是一种映射,是将输入符号映射成码字。
无失真编码,映射一一对应,可逆。
编码器模型:码长:码字所含码元的个数定长编码:所有码字均有相同的码长,对应的码叫做定长码(FLC ,Fixed Length code);否则为变长编码。
编码器12{,,,}q u u u 12{,,,}r x x x WU12{,,,}q w w w X信源平均码长:码中所有码字码长的统计平均,即码元/符号编码效率:编码后的实际信息率与编码后的最大信息率之比冗余度:l l l2、码的唯一可译性(1)基本概念奇异码:一组码中含相同码字。
非奇异码:所有的码字都不相同。
唯一可译性:码字组成的任意有限长码字序列都能恢复成唯一的信源序列。
续长码:有些码字是在另一些码字后面添加码元得来的。
及时码:码字的最后一个码元出现时,译码器能立即判断一个码字已经结束,可以立即译码。
非续长码:任一码字都不是其它码字的延长。
唯一可译码定长非奇异码非续长码非奇异码5种不同的码35124121142183184()00001000100001001101001110011111110111111i P u W W W W W U u u u u(2)码树和Kraft不等式从树根开始,生长r个树枝,在节点处再各自生长r个树枝。
节点:树枝与树枝的交点。
l阶节点:经过l根树枝到达的节点。
整树:节点长出的树枝数等于r定理:对于任一r进制非续长码,各码字的码长必须满足Kraft不等式:反过来,若上式成立,就一定能构造一个r 进制非续长码。
第4章无失真信源编码

x1 p( x1
)
x2 ... p(x2 ) ...
xN p(xN
)
对单个信源符号 x1,x2,,xN 编码,码字分别为W1,W2,,WN ,各码字对应的码 长分别为 n1,n2,nN 。
因为信源符号与码字一一对应,所以
由此,码的平均码长可以写为:
p(Wi ) p(xi )
L p(ni )ni
则可以使传输几乎无失真。反之,当 L H N (X ) 时,不可能构成无失真的编码,也就是不可能做 一种编码器,能使接收端译码时差错概率趋于零。 L H N (X ) :某信源有 8 种等概率符号, N 1,则信源序列的最大熵为:
H1 (X ) log 2 8 3 比特
设 X i (X1, X 2 ,, X l ,, X N ) 是信源序列的样本矢量, X l {a1, a2 ,, ai ,, an} ,则共有 n N 种样本,我们把它分为两个互补的集 Aε 和 AεC,集 Aε 中的元素(样本矢量)有与之对应的不 同码字,而集 AεC 中的元素没有与之对应的输出码字,因而会在译码时发生差错。
可以用 LN 个符号 Y1,Y2 ,,Yk ,,YN L ,(每个符号有 m 种可能值)进行定长编码。对任意 ε>0,δ>0,只要
LN N
log r
≥ HN (X) + ε
则当 N 足够大时,必可使译码差错小于 δ;反之,当
(4-2)
LN N
log r ≤ H N (X ) + 2ε
(4-3)
时,译码差错一定是有限值,而当 N 足够大时,译码几乎必定出错。
其中: H 2 ——二元代码的码元熵;
H 2max——二元代码的码元最大熵,且 H 2max=1 比特/符号。
信息理论与编码_ 离散无记忆信源无失真编码_

3、编码器的输出f 是一一对应的映射i i P w P u i q()()1,2,, H W H U ()()bit/码字或bit/符号H W H U H X l l()()()bit/码元新信源X :编码后的信息率R :平均一个码元携带的信息量。
H W H U H X l l()()()bit/码元平均码长越小,每个码元携带的信息量就越多,传输一个码元就传输了较多的信息。
R X{,,,}12r x x x 编码器f12{,,,}q u u u 12{,,,}r x x x WU12{,,,}q w w w X信源4、编码效率为了衡量编码效果,定义编码效率:编码后的实际信息率与编码后的最大信息率之比。
max max ()()()()log log c R H X H U l H U R H X r l r注:编码效率实际上也是新信源X 的信息含量效率或熵的相对率。
新信源的冗余度也是码的冗余度:1c c X{,,,}12rx x x 编码器f12{,,,}q u u u 12{,,,}r x x x WU12{,,,}q w w w X信源5种不同的码i P u W W W W W U u u u u 351241234()1200001001401000010011810100111001118111110111111W 1: 定长码。
W 3: 变长码。
奇异码。
定长非奇异码肯定是UDC u u u u u u u u u u u u u12434321121211,00,10,010110,01,00,11,00,1,00,1W 2: 定长码。
W 4: 变长码。
W 5: 变长码。
非奇异码。
非奇异码。
非奇异码。
非奇异码。
续长码。
非续长码。
续长码。
及时码。
非及时码。
奇异码肯定不是UDC不是UDC非续长码肯定是UDC 是UDC非及时码。
非续长码。
W 3:1001001唯一可译码定长非奇异码非续长码非奇异码码奇异码非奇异码非唯一可译码唯一可译码定长非奇异码变长非续长码(部分)变长续长码4.3 定长编码定理和定长编码方法1、对信源输出的符号序列进行编码DMS编码器f12{,,,}q u u u 12{,,,}r x x x WU 12{,,,}q w w w XX12{,,,}r x x x DMS编码器f 12{,,,}N q 12{,,,}r x x x WNU 12{,,,}Nq w w w XX12{,,,}r x x x 对信源U 的单个符号进行编码对信源U 的N 长符号串进行编码对扩展信源U N 的单个符号进行编码12i i i iNu u u 1212,,,{,,,}i i iN q u u u u u u2、定长编码定理r 进制定长编码,码长为l N , 可用的码字数目:Nl r Nl Nrq唯一可译max max ()log ()log log N r H U l q H U N r r信息传输率编码效率()()/N H U R H X l Nmax ()()()log c NH X H U l H X r Nbit/码元DMS编码器f 12{,,,}Nq 12{,,,}r x x x W NU 12{,,,}N q w w w XX12{,,,}r x x x定长无失真编码定理:用r 元符号表对离散无记忆信源U 的N 长符号序列进行定长编码,N 长符号序列对应的码长为l N ,若对于任意小的正数ε,有不等式:就几乎能做到无失真编码,且随着序列长度N 的增大,译码差错率趋于0。
第4章 离散无记忆信源无失真编码 4.6

2014/6/30
2014/6/30
信息理论与编码
6
6
4.6 几种实用的无失真信源编码
截断处理的方法: (1)选取一个适当的n值,将游程长度定为 1,2,…,2n-1,2n 。对于游程大于 2n 的, 都要游程为2n 的码字来处理。 (2)将2n 个游程按概率大小进行huffman编 码,设游程为2n 的码字为C。 (3) 对大于2n 以上的游程编码。
010011001
010011010 011000 010011011 000000000001
0000001011010
0000001011011 0000001100100 0000001100101 000000000001
2014/6/30
2014/6/30
信息理论与编码
15
15
4.6 几种实用的无失真信源编码
2014/6/30
2014/6/30
信息理论与编码
5
5
4.6 几种实用的无失真信源编码
理论上游程长度从0至无穷大,实际中 建立一个一一对应的码表很困难。 一般来讲,很长的游程出现的概率很 小,当游程趋近于无穷时,出现的概率趋近 于 0。 实际应用中,对长游程不严格按照 huffman编码进行,而采用截断处理。将大 于一定长度的游程统一用定长码编码。
B #10 X #9 A#6U #13
字符数量由38个减少为14个。游程编码 可以缩短数据。
2014/6/30
2014/6/30
信息理论与编码
3
3
4.6 几种实用的无失真信源编码
对于二元信源,输出只有“0”和“1” 两个符号。 例:序列00010011111100000001… 由于只有两种信源符号,若规定序列从 “0”游程开始,则可以省掉标识符。 编码后:31267…(自然数) 一般传输信道为二元信道,假设 max[L(0),L(1)]=7,则变换后输出码字序列: 011 001 010 110 111…
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H (U ) 1.518 bit/符号
符号 概率 u1 0.45
1
1
0
码字 码长
(1.00)
1 01 00 1 2 2
u2
u3
3 i 1
0.35
0.20
(0.55) 0
l P ( ui )li 0.45 1 0.35 2 0.20 2 1.55 码元/符号
c
H (U ) 1.518 97.9% l log r 1.55 log 2
11
对二元符号串进行编码
符号 概率
u1 u1 u1 u2 u2 u1 u2 u2
0.2025 0.1575 0.1575 0.1225
1 1 1
0
0.28
0.4025 1 0.3175 1
码字
11
码长
2 3 3 3
4.5 变长编码方法
变长编码采用非续长码; •力求平均码长最小,此时编码效率最高,信 源的冗余得到最大程度的压缩; •对给定的信源,使平均码长达到最小的编码 方法称为最佳编码,编出的码称为最佳码; •三种变长编码方法:霍夫曼编码、费诺编码 以及香农编码; •霍夫曼编码是真正意义下的最佳编码。
1
4.5.1 霍夫曼编码
定长编码:{001,010,011,100,101,110,111} 变长编码:{1,01,001,0001,00001,000001,000000} 定长编码
l l 3 码元/符号
H(X ) H (U ) 63 32 0.65625 bit/码元 l 3
变长编码
l 63 32 码元/符号
2 2 i 1 q
12 ( l ) 1.4259
2 2 ( l ) 0.3059
8
r 进制霍夫曼编码
• 每次求缩减信源时,求r个最小概率之和,即 将r个概率最小的符号缩减为一个新符号,并 分别用 1,2,…r-1 码元表示,直到最后一次缩 减时,r 个概率之和为1终止。 • 新问题:缩减到最后时剩下不到 r 个符号了。 • 为保证平均码长最小,希望缩减到最后刚好 还剩下 r 个符号。为达到此目的,可给信源 添加几个无用的符号(概率为0的符号),使 得添加符号后的信源符号数 q 满足: q = (r-1)θ+ r
1.00 011
001 000
0.5975
0 0
u1 u3
u3 u1 u2 u3 u3 u2 u3 u3
9
0.09
0.09 0.07 0.07 0.04
1
0.16 0
0.20
1 1
0 0
101
0
0101 0100 1001 1000
0.11
0
3 4 4 4 4
H (U 2 ) 2 1.518 99.0% l2 P ( u j )l j 3.0675 码元/符号 c l2 log r 3.0675 log 2 j 1
P (ui )
0.35 0.30 0.20 0.10 0.04
0.005 0.005
1 1 1
1
0.65 1
码长 li 2
2 2 3 4 5 5
7
0
0.35
10 01 001 0001 00001 00000
1
0.15
0 0
0.05 0.01 0
0
0
l 0.35 2 0.30 2 0.20 2 0.10 3 0.04 4 0.005 5 0.005 5 2.21 码元/符号
5
码子不唯一(1)
u2 u3 u4 u5 u6 u7 U u1 P 0.35 0.30 0.20 0.10 0.04 0.005 0.005 U
2进制霍夫曼编码。 码元集:X={0, 1}
码字 Wi
符号 概率
ui u1 u2 u3 u4 u5 u6
P (ui )
12
1
1.00
1 1 1 1 1
2 23 24 25 26
2
1
01
1
1 1 1
0
12
12 1 23
0
2
0 0
001
0001 00001
3
4 5
1 24
0
1 26
1 25 0
000001
000000
H (U ) c l log r
63 32 63 32
6
6
100%
3
1 1 1 1 1 1 1 63 l 1 2 2 3 3 4 4 5 5 6 6 6 6 2 2 2 2 2 2 2 32
12
码元/符号
log 2
霍夫曼编码的基本特点
• 编出的码是非续长码:霍夫曼编码实际上构造了 一个码树,码树从最上层的端点开始构造,直到 树根结束,最后得到一个横放的码树,而且码字 在终端节点上。 • 平均码长最小:霍夫曼编码采用概率匹配方法来 决定各码字的码长,概率大的符号对应于短码, 概率小的符号对应于长码。 • 码字不唯一:每次对概率最小的两个符号求概率 之和形成缩减信源时,就构造出两个树枝,由于 给两个树枝赋码元是任意的,码字不唯一。 4
2
u U 1 P 1 U 2
u2 1 22
u3 1 23
u4 1 24
u5 1 25
u6 1 26
u7 1 6 2
2进制霍夫曼编码。 码元集:X={0, 1}
码字 Wi
1
符号 概率
ui
P (ui )
码长 li 1 2
u1 u2 u3 u4 u5 u6 u7
码字 码长 Wi li
2
P (ui )
l log r
2.35 93.8% 1.58 log 3
2 1
u1 u2 u3 u4 u5 u6 u7
0.32 0.22 0.18 0.16 0.08 0.04 0.00
2 2
1 1 2 2 3 3
(1.00)
1 02
(0.46)
1
0
01 002
(0.12)
1
0
001
0
10
l 0.32 1 0.22 1 0.18 2 0.16 2 0.08 3 0.04 3 1.58 码元/符号
符号串的霍夫曼编码
例:对如下DMS进行2进制霍夫曼编码,分别 对单个符号和二元符号串进行编码。
对 单 个 符 号 进 行 编 码
信源缩减的次数
9
u2 u3 u4 u5 u6 U u1 P U 0.32 0.22 0.18 0.16 0.08 0.04
q ( r 1) r 2 3
符号 概率 H (U ) c u
i
3进制霍夫曼编码。 码元集:X={0, 1, 2} ∴q=7
H(X ) H (U ) 63 32 1 bit/码元 l 63 32
c
H(X ) 0.65625 65.625% H max ( X ) log 2
c
H(X ) 1 100% H max ( X ) log 2
c 1 c 0.34375
c 1 c 0
码元/符号
码子不唯一(2)
u2 u3 u4 u5 u6 u7 U u1 P U 0.35 0.30 0.20 0.10 0.04 0.005 0.005
2进制霍夫曼编码。 码元集:X={0, 1}
码字 Wi 11
1.00
符号 概率
ui u1 u2 u3 u4 u5 u6 u7
0.35ቤተ መጻሕፍቲ ባይዱ
0.30 0.20
1 1 1 1
0
1 1
0.65
1
1.00
码长 li 1 2 3
01 001
0.10
0.04
0.005 0.005
0.05
0.01 0
0.35 0.15
0 0
0
0001
00001 000001
4
5 6
0
u7
000000
6
6
l 0.35 1 0.30 2 0.20 3 0.10 4 0.04 5 0.005 6 0.005 6 2.21
定长编码与变长编码冗余压缩效果比较
u U 1 P 1 U 2 u2 1 22 u3 1 23 u4 1 24 u5 1 25 u6 1 26 u7 1 6 2
H (U ) 63 32 bit/符号
1
H (U ) 63 32 1 0.3 H max (U ) log 7
二进制霍夫曼编码过程如下: (1)将信源符号按概率大小排序;
(2)对概率最小的两个符号求其概率之和,同 时给两符号分别赋予码元“0”和“1”;
(3)将“概率之和”当作一个新符号的概率, 与剩下符号的概率一起,形成一个缩减信 源,再重复上述步骤,直到“概率之和” 为1为止;
(4)按上述步骤实际上构造了一个码树,从树 根到端点经过的树枝即为码字。
码字 Wi 1
码长 li 1
码字 Wi 11
码长 li 2
01 001 0001 00001 000001 000000
2 3 4 5 6 6
10 01 001 0001 00001 00000
2 2 3 4 5 5
码字不同,码长也不 同,但平均码长相同, 因此编码效率相同。 码方差: