第8讲——离散无记忆信源等长编码
信源编码等长码

● 根
0
º
0
1● 1●
0 1
10
º
0
110
º
111
º
码字是从树根节点出发到达终节点所对应的码符号序列
•
码的分类结构图
奇异码 非奇异码
唯一可译码
非唯一可译码
等长码
非等长码
即时码
延时码
• 平均码长
码字长度
n nm P(Cm )
码 , 或单义可译码。否则,就称为非唯一可译码或非 单义可译码。
例如,表3.1中码1是唯一可译码,而码2是非唯一可
译码。因为对于码2,其有限长的码符号序列能译成 不同的信源符号序列。如码符号序列为0010,可译 成s1s2s1或s3s1,就不唯一了。
唯一可译码 非唯一 可译码
表3.1
唯一可译码
[定义] 若W中任一有限长的码字序列 (即有限长的一 串W),可以被唯一地分割成一个一个码字,就称为是单义 可译或唯一可译的,W也叫做单义代码。 从扩展性定义:码的任意N次扩展码都是非奇异码,则唯一可译
• 求信息传输速率。
7 i=0
H X =-p(x i )log(p(x i )) 2.75log2 2.75(比特/符号) 1 1 1 n 2 2 2 3 2 4 2.75 (码元/符号) 4 8 16 信源特殊分 H X 2.75 RD = =1(比特/码元时间) 布,每个消 2.75 n 息的概率
码C: 0 10
110
111
4、码C是唯一可译的,因为任一串有限长的码字w, 如 100111011010 只能被分割成 10,0,111,0,110,10 任何其他分割方法都会产生一些不属于代码W的 码字(如1,001,11,011,010);
第8讲——离散无记忆信源不等长编码

码字集
n
x1, x2 , , xr
k1
, nk2 , , nkr
xi B
nki n
总共 K r个序列,对其进行重新组合
Ai 表示含有i个码元的序列总数
则 i [rnmin , rnmax ]
nmax max n1 , n2 , , nK
nmin min n1, n2 , , nK
k1 1
K
D
k2 1 kr 1
K
K
( nk1 nk2 nkr )
rnmax
i rnmin
i A D i
rnmax K nK D Ai D i k 1 i rnmin
r
由码的唯一可译性,可知长度为i含r个码字的序列 必不相同,于是 Ai D i ,则
存在唯一可译的D元不等长 码满足
H (U L ) nL 1 log D H (U L ) 1 n L log D L H (U ) 1 n log D L
Shannon第一编码定理
——离散无记忆信源
任一唯一可译的D元不等长 码总满足
n H (U ) log D
存在唯一可译的D元不等长 码满足
k 1 K nk
pk 1 ,所以必存在码字长度为n1、n2、…、
k 1
K
nK的唯一可译D元不等长码。 另外,对红式右边求倒数取对数并进行概率加权得
K 1 H (U ) pk log pk log D nk 1 pk k 1 k 1 K
pk (nk 1) log D (n 1) log D
n H (U ) 1 log D L
信息论及编码理论基础(第三章)讲诉

2018/11/16
9
§3.2 离散无记忆(简单)信 源的等长编码
(9)在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 (DN≥KL) 当R<H(U1)时,无论怎样编码都是有错编码。这是因为 R<H(U1)≤logK。 (DN<KL) (如果H(U1)=logK,则以上两种情形已经概括了全部情形。 但如果H(U1)<logK,则还有一种情形) 当logK>R>H(U1)时,虽然无论怎样编码都是有错编码, 但可以适当地编码和译码使译码错误的概率pe任意小。这 就是所谓“渐进无错编码”。
EV1 qk loga
k 1
2018/11/16
qk
H (U1 )
13
§3.2 离散无记忆(简单)信 源的等长编码
取IL是(V1V2…VL)的如下函数: I L
1 L Vl L l 1
则 ① IL最终是(U1U2…UL)的函数; ② 1 L 1 L 1 EI L EVl H (U1 ) DI L D Vl 2 L l 1 L l 1 L
2018/11/16
12
§3.2 离散无记忆(简单)信 源的等长编码
设…U-2U-1U0U1U2…是离散无记忆(简单)信源的输出随机变 量序列。设U1的概率分布为
a1 a2 aK U1 ~ q q q K 1 2
取Vl是Ul的如下函数:当Ul=ak时, Vl=loga(1/qk)。则 ①随机变量序列…V-2V-1V0V1V2…相互独立,具有相同的概率 分布; K ② 1
2018/11/16 5
§3.2 离散无记忆(简单)信 源的等长编码
例:离散无记忆简单信源发出的随机变量序列为:…U-2U1U0U1U2…。其中U1的事件有3个:{晴, 云, 阴}。 (U1U2)有9个事件 {(晴晴),(晴云),(晴阴),(云晴),(云云), (云阴),(阴晴),(阴云), (阴阴)}。 用字母表{0, 1}对(U1U2)的事件进行2元编码如下: (晴晴)→0000,(晴云)→0001,(晴阴)→0011, (云晴)→0100,(云云)→0101,(云阴)→0111, (阴晴)→1100,(阴云)→1101,(阴阴)→1111。
ch3离散无记忆信源的无损编码

算术编码(AC)
初始时设S=Φ ,F(Φ)=0,p(Φ)=1。 计算序列的积累概率和序列的概率。
F ( Sur ) F ( S ) p( S ) F (ur ) p( Sur ) p( S ) p(ur )
1 计算码长 L log p ( S )
序列
Φ
1 11 111 1110 11101 111010 1110101 11101011
F(S) 0 0.01 0.0111 0.100101 0.100101 0.1001101011 0.1001101011 0.10011100000001 0.1001110011110111
P(S) 1 0.11 0.1001 0.011011 0.00011011 0.0001010001 0.000001010001 0.00000011110011 0.0000001011011001
离散无记忆信源的等长编码
Shannon等长信源编码定理 熵为H(U)的离散无记忆信源,对信源输 出长度为L的输出序列进行编码,假设编码字 符表有D个符号,则当
N L[ H (U ) L ] / log D
时,信源可以实现无损编码。反之若
N L[ H (U ) L ] / log D
将信源的K个符号按概率递减次序排列。 将两个概率最小的信源符号合并成一个新符号,
新符号的概率值为两个信源符号概率值的和。 依次类推,直至信源最后只剩下一个符号。 将每次合并的两个信源符号分别用0和1表示。 由后向前返回,就得到各信源符号对应的码字。
D元Huffman编码步骤:
增补D-M个概率为0的虚拟符号,其中M由下式给出:
信息理论与编码 第四章 离散无记忆信源无失真编码

7
63
H (U ) i1 P(ui ) log P(ui ) 32 bit/符号
l l 3 码元/符号
c
H (U ) l log r
63 32
3 log 2
65.625%
提高编码效率的方法:对符号串进行编码,同时
引入一定的失真。
20
4、引入失真,提高编码效率
lN H (U )
N log r
4
11 11
l
P(ui )li
i 1
1 2 3 3 24 88
1.75 码元/符号
编码策略: 出现概率大的符
编码策略:采用等长
号采用较短的码字,出现概
的码字
率小的符号采用较长的码字7
3、信息率
信
U
源 {u1,u2 , ,uq}
编码器 f
W
X
{w1,w2 , ,wq} {x1,x2 , ,xr }
限定定长编码码长的最小值,因此最佳的定长编码效率为:
c
H (U ) l log r
H (U ) lN log r
H (U )
H (U )
(1c )H (U ) c
(4-3-9)
N
可以证明,差错率满足关系:Pe
2 (U N 2
)
信源自信息量的方差
2 (U ) E I (ui ) H (U )2 P(ui )log P(ui )2 H (U )2
f 是一 一对应 的映射
P(wi ) P(ui ) i 1,2, ,q
X
{x1,x2 , ,xr }
H(W ) H(U) bit/码字或 bit/符号
新信源X :H (X ) H (W ) H (U ) bit/码元
3.1离散无记忆信源等长编码

3.1离散无记忆信源等长编码3.1离散无记忆信源等长编码3.1离散无记忆信源等长编码几乎无失真等长编码选择L 足够长,使N log D ≥L [H (U ) +εL ]εL 为与L 有关的正数,且当L →∞时有εL →0, 才其中,能不损失信息。
然而这样的编码不总能保证单义可译,但非单义可译所引起的错误可渐近为任意小。
反之,若N log D3.2 离散无记忆(简单)信源的等长编码编码速率R =N log D /L R =N log D /L ≥log K关于编码速率的说明:表示一个长度为N 的D 元码字给一个长度为L 的消息的每个符号所提供的信息量。
3.2 离散无记忆(简单)信源的等长编码一个消息序列U L 每符号含有信息量算术平均为:I L =I (u L ) /L =∑I (u l ) /Ll信源的熵为H(U)E (I (u l ))=∑p (a k ) I (a k ) =H (U )k设I (u l ) 的方差为σI 2σ=D (I (u l ))=∑p (a k ) (I (a k ) ?H (U ))2Ik23.2 离散无记忆(简单)信源的等长编码例信源发出的消息序列长度L=8。
a 2??a 1u l ~??1/43/4?I (a 1)I (a 2)?I (u l )~??3/4??1/42H (U )=0.81bitσ=D (I (u l ))=∑p (a k ) (I (a k ) ?H (U ))=0.4712Ik长为8的序列是(a1+a2) 8的展开式的所有项,共28个。
消息序列的概率是(p1+p2) 8的二项展开式中的各项。
I 8(a 18)=I (a 18)/8=I (a 1)5I 8(a 13a 2)=(3I (a 1)+5I (a 2))/83.2 离散无记忆(简单)信源的等长编码3.2.2 信源划分定理典型序列集的定义令H(U)是集{U , p (a k ) }的熵,ε>0,T U (L , ε) ={u L :H (U ) ?ε≤I L ≤H (U ) +ε}(IL=I (u L )/L , u L ∈UL)定义为给定信源U 输出长为L 的典型序列集T U (L , ε) 的补集它称作弱ε典型序列集;相应地,为非典型序列集。
第三章 信源编码-离散无记忆源等长编码

第三章 信源编码——离散信源无失真编码本章分析问题:在信宿要求无失真接收时,或所有信源信息无损的条件下,离散信源输出的表示——即信源编码问题。
内容:信源分类,信息速率的计算,编码定理,有效编码方法等。
一、信源及其分类 1. 离散信源和连续信源离散信源表示:…U-2U-1U0U1U2…其中UL随机变量,取值范围:A={a1,a2,…ak} 2.无记忆源和有记忆源无记忆源:各UL彼此统计独立简单信源:各UL彼此统计独立且服从同一概率分布 P(UL=ak)=Pk,k=1,2,…,K∑=Kk 1Pk=1有记忆源:各UL取值相关。
UL=(U1,U2,…,UL)∈UL,其概率分布由L维随机矢量表示,P(UL=a)=P(U1=ak1,…,UL=akL) 3.平稳信源:概率分布与起始下标无关P(U1=ak1,…,UL=akL)=P(Ut+1=ak1,…,UL=akL)4.各态历经源:信源输出的随机序列具有各态历经性。
5.有限记忆源:用条件概率P(UL,UL-1,UL-2,UL-m)表述。
m为记忆阶数。
6.马尔可夫源:有限记忆源可用有限状态马尔可夫链描述,当m=1时为简单马尔可夫链。
7.时间离散的连续源:各随机变量UL取值连续。
8.随机波形源:时间和取值上均连续的信源;由随机过程u(t)描述,时间或频率上有限的随机过程可展开成分量取值连续的随机矢量表示,即时间上离散,取值连续的信源。
9.混合信源二、离散无记忆源的等长编码离散无记忆源:DMSL长信源输出序列:UL=(U1,U2,…,UL),Ul取值{a1,a2,…ak},共KL种不同序列。
对每个输出序列用D元码进行等长编码,码长为N,则可选码共有DN个。
1.单义可译码或唯一可译码:条件:DN≥KL=M,即N≥LlogK/logDN/L:每个信源符号所需的平均码元数;N/L→3.322;2.信息无损编码要求:设每个信源符号的信息量为H(U),则L长信源序列的最大熵值为LH(U),编码时由于D个码元独立等概时携带信息量最大,使码长最短。
信息论第8讲最佳不等长编码讲解

1
s2
1
0
1
1
0 1
0 ss34 1 s5
10
s6
1
s17
s7
Huffman编码最佳性证明
【定理1】
对于给定的信源,存在最佳唯一可译二元码,其最 小概率的两个码字的长度最长且相等,它们之间仅最后
一位码元取值不同(一个为0,另一个为1)。
lK最大 存在另外一个码字其长度也为lK,
并且与cK仅最后一位码元取值不 同(一个为0,另一个为1)
信源符号 概率pk s1 0.40
s2 0.18 s3 0.10 s4 0.10
s5 0.07
s6 0.06
s7 0.05 0
s8 s9
0.04 1 02
0.09 0 1 2
码字
0.22
0
0.38
1 2
0 1.00
0
10
1
11
2 12
21
22
200 201
思考: r元Huffman编码?
?q (r 1) r Y 进行编码
S(1):
s(1) 1
s(1) K 2
s(1) K 1
p p p (1)
(1) (1)
1
K 2 K 1
ps ps ps S(K-3):
(K 3) 1
(K 3) 1
(K 3) 2
(K 3) 2
(K 3) 3
(K 3) 3
S(K-2):
s( K 2) 1
p( K 2) 1
, ,
N 增加0概率 符号
进行编码
例: 设离散无记忆信源
S P(S
)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
无失真等长编码
X
Y
信源
信源编码器
信道
L长序列
码表
N长码字
DN KL
N log D L log K
N log D LH (U )
第八讲
离散无记忆信源 等长编码
信源编码基本概念
消息集
u L
码字集
vN
信源输出序列 字母表
码字序列
uL (u1,u2 , ,uL )
A
a1, a2 ,
p1 ,
p2
,
, aK , pK
v N (v1, v2 , , vN )
集合
B b1,b2, ,bD
D元码 等长码 不等长码 唯一可译码
H (U
)
L[H (U ) ] log p(uL ) L[H (U ) ]
等式两边各项取指数,即得证。
推论2(典型序列数目)
当L足够大时,对于给定的信源 U , p(ak )和 0,典型序列
的个数 TU (L, ) 满足 (1 )2L[H(U) ] TU (L, ) 2L[H(U) ]
推论1(特定序列出现的概率)
若 u L TU (L, ) ,则 2L[H (U ) ] p(uL ) 2L[H (U ) ]
即
p(uL ) 2LH (U )
证明:从典型序列定义式
TU (L, ) uL : H (U ) IL H (U )
有
即
H (U
)
1 L
log
p(uL )
I (uL ) L
H (U )
2 I
L 2
Pr
I (uL ) H (U ) L
1
2 I
L 2
1
可选 ,这可以通过适当选择L来实现,上式可以写成
Pr
I (uL ) L
H (U )
1
即当L足够大时,I L将以概率1取值为H(U)。
N log D LH (U )
典型序列
令H(U)是集U , p(ak )的熵, 0 TU (L, ) uL : H (U ) IL H (U )
X
Y
信源
信源编码器
信道
L长序列
KL
码表
N长码字
DN
DN KL
N log D L log K
DN KL
实例
英文电报27个符号,K=27,L=1,D=2(二元编码)
N
L
log 2 log 2
K D
log 2
27
5
每个英文电报符号 至少要用5位二元符 号编码
实际英文电报符号信源,在考虑了符号出现的概率以
定义为给定信源U输出长为L的典型序列集,又可称作 弱ε典型序列集; 相应 TU (L, ) 的补集为非典型序列集。
令H(U)是集U , p(ak )的熵, 0 TU (L, ) uL : L[ p(ak ) ] Lk L[ p(ak ) ]
定义为给定信源U输出长为L的典型序列集,其中,
几乎无失真编码
几乎无失真等长编码
选择L足够长,使 N log D L[H (U ) L ]
其中, L为与L有关的正数,且当 L 时有 L 0 ,才
能不损失信息。然而这样的编码不总能保证单义可译, 但非单义可译所引起的错误可渐近为任意小。反之, 若 N log D L[H (U ) , 编L ] 码误差变得任意大。
Lk 是L序列中 ak出现的次数,又称之为强典型序列集。
信源划分定理
定理:
给定信源U , p(ak )和 0,当 L 时,
Pr TU (L, ) 1
由契比雪夫大数定理,对于 0
Pr
I (uL ) L
H (U )
2 I
L 2
Pr
I (uL ) L
H (U )
1
2 I
L 2
1
即
TU (L, ) 2LH (U)
证明:1 p(uL)
p(uL )
2L(H (U ) ) TU (L, ) 2L[H (U ) ]
UL
u L TU ( L. )
uL TU (L. )
即
TU (L, ) 2L[H (U ) ]
由
2L[H (U ) ] p(uL ) 2L[H (U ) ]
有 1
p(uL )
T (L, ) 2 2L(H (U ) ) U
L[H (U ) ]
uLTU (L. )
uLTU (L. )
即 TU (L, ) (1 )2L[H(U) ]
理解典型序列
➢ 一个离散无记忆信源输出的消息序列可以分为两组, T (L, ) 各序列出现的概率近于相等;
信源编码基本概念
信源符号
信源符号 出现概率
码0
a1 p(a1)=1/2 00 a2 p(a2)=1/4 01 a3 p(a3)=1/8 10 a4 p(a4)=1/8 11
码表
码1 码2 码3 码4
0
0
1
1
11 10 10 01
00 00 100 001
11 01 1000 0001
无失真等长编码
Pr uL TU (L, ) 1
由契比雪夫大数定理,对于 0
Pr
I (uL ) L
H (U )
2 I
L 2
Pr
I (uL ) L
H (U )
1
2 I
L 2
1
可选 ,这可以通过适当选择L来实现,上式可以写成
Pr
I (uL ) L
H (U )
1
即当L足够大时,IL 将以概率1取值为H(U)。
方差为
E
I
(u L L
)
E
l
I (ul L
)
EI (ul )
l
H (U )
L
E[ I (uL ) L
H (U )]2
1 L2
E[I (uL )
LH(U )]2
1 E[
L2
l
I (ul ) LH (U )]2
1 L2
*
L
2 I
2 I
/
L
由契比雪夫大数定理,对于 0
Pr
N log D LH (U )
p(u L ) p(ul )
l
I (uL ) log p(uL ) log p(ul ) [ log p(ulI (u L ) / L
令信源的熵为 H (U ),I (ul ) 的方差为 I2,则 I L 的均值为
可选 ,这可以通过适当选择L来实现,上式可以写成
Pr
I (uL ) L
H (U )
1
即当L足够大时,IL 将以概率1取值为H(U)。
信源划分定理
定理:
给定信源U , p(ak )和 0,当 L 时,
Pr TU (L, ) 1
对于任意小 0,存在有正整数 L0,使得当
L L0时,有