《信息论》(电子科大)第3章 离散信源无失真编码

合集下载

2.4 离散信源的无失真编码

2.4 离散信源的无失真编码

信源编码的分类
无失真信源编码:把所有的信息丝毫不差地编码, 无失真信源编码:把所有的信息丝毫不差地编码,然后传送 信源编码 到接收端。 到接收端。 离散无失真信源编码:原始消息是多符号离散信源消息 无失真信源编码 是多符号离散信源消息, 离散无失真信源编码:原始消息是多符号离散信源消息, 按无失真编码的方法,编成对应的码序列。 按无失真编码的方法,编成对应的码序列。 限失真信源编码 允许不对所有的信息进行编码, 信源编码: 限失真信源编码:允许不对所有的信息进行编码,只对重要 信息进行编码,对其它不影响视听的信息进行压缩、丢弃, 信息进行编码,对其它不影响视听的信息进行压缩、丢弃, 但这种压缩失真必须在一定的限度以内 压缩失真必须在一定的限度以内, 但这种压缩失真必须在一定的限度以内,因此称为限失真信 源编码。 源编码。 离散限失真信源编码 离散限失真信源编码 连续限失真信源编码 连续限失真信源编码
本章主要内容
2.1单符号离散信源 2.1单符号离散信源 2.2多符号离散平稳信源及熵 2.2多符号离散平稳信源及熵 2.3连续信源及熵 2.3连续信源及熵 2.4离散无失真信源编码定理 2.4离散无失真信源编码定理
2
2.4 离散无失真信源编码定理
信源涉及的重要问题: 信源涉及的重要问题:
信源输出的信息量有多少:即信源信息量的计算问题。 信源输出的信息量有多少:即信源信息量的计算问题。 如何更有效地表示信源输出的消息: 如何更有效地表示信源输出的消息:在尽量提高通信 效率的前提下,对信源所发送的消息进行变换, 效率的前提下,对信源所发送的消息进行变换,即信 源编码。 源编码。
已知:定长无失真离散信源编码定理: 已知:定长无失真离散信源编码定理:
原始信源长为L 原始信源长为L的平稳无记忆离散序列信源 每个符号的熵为H(X), H(X),即 XL=(X1X2……XL) ,每个符号的熵为H(X),即平均 X 符号熵为H(X),要想进行无失真的信源编码,需 符号熵为H(X),要想进行无失真的信源编码, H(X),要想进行无失真的信源编码 满足 令 →0, ε

2.4 离散无失真信源编码定理

2.4 离散无失真信源编码定理
信源 编码器 码表 信道
一、 信源的符号集和符号序列
1. 信源符号集: 信源发出的符号消息的集合,记为X,
设 X 有n个符号:X ={ a1 , a2 , … , an }. 2. 信源符号序列:由信源符号集合 X 中的符号组成长度 为L的符号序列, 记为 X ( X1 X 2 X l X L ) L为信源符号序列长 , 不同的符号序列共有 nL。 若L=1,则信源符号序列为信源符号集合中的符号。
单符号对应变长码的平均码长为
K p(ai ) Ki
i 1 n
码符/信源符号
K 是每个信源符号平均需用的码元数。
②符号序列信源空间XL
X L X 1L L L p( X i ) p( X 1 ) X 2L p( X 2L )
L X nL L p( X n L )
码字Yi 的码元个数 Ki 称为码字Yi的码长。
所有码字Yi 的码长 Ki 均相等称为定长码。 码字Yi 的码长 Ki 不全相等称为变长码。
三、编码与译码
1. 信源编码:将信源符号 xi 或符号序列 Xi 按一种规则
映像成码字Yi的过程。 2. 无失真编码:信源符号到码字的映射必须一一对应。
3. 译码:从码符号到信源符号的映射。
变换的要求: (1)能够无失真或无差错地从Y恢复X,也就是能正确地进行 反变换或译码(惟一可译码)。 (2)传送Y时所需要的信息率最小 。
由于Yk可取m种可能值,即平均每个符号输出的最大信息量为
log2m,K长码字的最大信息量为Klog2m。用该码字表示L长的 信源序列,则送出一个信源符号所需要的信息率平均值为
★香农信息论三大定理 :
1. 第一极限定理: 无失真信源编码定理。

信息论导论-第3章_2012

信息论导论-第3章_2012

无失真编码定理又叫香农第一定理,该 定理从理论上阐明了编码效率
η
H N ( X1 X 2 X N ) → 1 的理想无失真编码的 Klbm / N 存在性.
23
二、无失真编码定理
无失真编码的代价是取无限长的符号序 列进行组编码,即只有N→∞时
H∞ = η = 1 K lim lbm N →∞ N
21
1 ≤ P(ai )即m ≥ P(ai )
ki
【无失真编码定理】的证明
lbP(ai ) lbP(ai ) 取− ≤ ki < − +1 lbm lbm
n lbP(ai ) n lbP(ai ) −∑ P(ai ) ≤ ∑ P(ai )ki < −∑ P(ai ) +1 lbm lbm = i 1 i 1= i 1 n
27
K H m +1 ≤ lbm < H m +1 + ε N
二、无失真编码定理
平稳无记忆信源的香农界H(X)大于m阶 马尔科夫信源的香农界Hm+1,而m阶马尔 科夫信源的香农界Hm+1又大于一般平稳 信源的香农界H∞。 因此,对离散平稳信源进行无失真编码, 每个信源符号所对应码字的平均比特数 平稳无记忆信源最多, m阶马尔科夫信 源次之,一般平稳信源最少。
与第一种编码相比,码字压缩了0.3个比特, 编码效率提高了14.5%。
9
一、无失真编码的基本思路 进一步,如果对该信源的二次扩展信源
X 2 x1 x1 x1 x2 x1 x3 x1 x4 = 2 P( X ) 0.25 0.15 0.075 0.025 x3 x1 x3 x2 x3 x3 x3 x4 x4 x1 0.075 0.045 0.0225 0.0075 0.025 x2 x1 x2 x2 x2 x3 x2 x4 0.15 0.09 0.045 0.015 x4 x2 x4 x3 x4 x4 0.015 0.0075 0.0025

第三章-无失真信源编码(1-1)

第三章-无失真信源编码(1-1)
a3 a4
p(a2)
p(a3) p(a4)
01
10 11
01
001 111
2 码的类型

{
非分组码
分组码
{
奇异码 非奇异码
{
非唯一可译码 非即时码 唯一可译码 即时码(非延长码)
{
2.1 码符号集中符号数r=2称为二元码,r=3称为三元码 2.2 若分组码中的码长都相同则称为等长码,否则称为变长码
1 信源编码: 信源消息U=(u1,u2,…, uq) 码符号集X=(x1,x2,…, xr)
将 ui
Wi =( w1,w2,…,wq)其中某一码字 wi∈{x1,x2,…xr}
这种一一对应变换称为信源编码。
若Li为码字Wi中的码元个数,则 Li称为码字Wi的长度, 简称码长。
分组码定义:
将信源消息分成若干组,即符号序列ui, ui=(ui1,ui2,…,uil,…,uiL) 序列中的每个符号取自于同一个符号集A, uil∈(a1,a2,…,an)。 而每个符号序列ui依照固定的码表映射成一个码字Wi,这 样的码称为分组码。只有分组码有对应的码表。
-Ki -1 -2 -3 -3 2 =2 +2 +2 +2 =1 i=1 4
存在这种Ki的唯一可译码。
0 0 1 1
a1 a2
0
1
a1: 1 a2: 01 a3: 000 a4: 001
a3
a4
注意:克劳夫特(Kraft)不等式只是用来说明唯一可译码是否 存在,并不能作为判断哪些码是唯一可译码的依据。 如码字(0,10,010,111)满足克劳夫特不等式,但它不是 唯一可译码
如果每次只传送一个符号,即序列长度L=1 ui=ui1∈(a1,a2,…,an) 要将这样 的符号进行传输,常采用二元信道,码符号集X为

第三章 信源编码(一)离散信源无失真编码

第三章 信源编码(一)离散信源无失真编码

离散无记忆源的等长编码
在无错编码的前提下,编码的最低代价 当R≥logK时,能够实现无错编码。 当R<H(U1)时,无论怎样编码都是有错编码。这是 因为R<H(U1)≤logK。 (如果H(U1)=logK,则以上两种情形已经概括了全部情 形。但如果H(U1)<logK,则还有一种情形) 当logK>R>H(U1)时,虽然无论怎样编码都是有错编 码,但可以适当地编码和译码使译码错误的概率pe 任意小。这就是所谓“渐进无错编码”。
如何证明?

弱、强e典型序列集
定义3.2.1:令H(U)是集{U, p(ak)}的熵,e是正数,集合
TU ( L, e ) {uL : H (U ) e I L H (U ) e }
定义为给定源U输出的长为L的典型序列集。 ——弱e-典型序列集 定义3.2.2:令H(U)是集{U, p(ak)}的熵,e是正数,集合 定义为给定源输出的长为L的e-典型序列集,其中Lk 是在L长序列中符号ak出现的次数 ——强e-典型序列集
3.2 离散无记忆源的等长 编码
离散无记忆源

字母表A={a1,…,aK},概率分别为p1,…,pK,长为L 的源输出序列uL={u1,…,uL},共有KL种序列 码符号字母表B={b1,…,bD},以码符号表示源输 出序列,D元码 等长D元码,能够选择的不同码字的个数为DN, 不等长D元码的个数,能够选择的不同码字的
设给定编码设备的编码速率R0=0.5。则 R0>0.037587148=H(U)。 希望: ①2元编码的实际编码速率R≤R0; ②译码错误的概率不超过ε。其中取 ε=0.1; ε=0.05; ε=0.01。
DMS的等长编码

离散无失真信源编码

离散无失真信源编码
第五章
离散无失真信源编码
5.1 离散信源编码 5.2 离散无失真信源编码定理 5.3 香农编码 5.4 费诺编码 5.5 哈夫曼编码
5.1
2.1.1 2.1.2离来自信源编码信源编码概述 码字唯一可译的条件
2
信源编码概述(续)
两类信源编码 无失真信源编码:编码运算能够完全恢复原来的数据 信息,保证信源产生的全部信息无失真地传送给信 宿,适用于离散信源 限失真信源编码:编码运算允许有一定的误差,在允 许误差的条件下,寻找信源的最小“消息体积”;适 用于连续信源 无失真信源编码只对信源的冗余度进行压缩,不改变信 源熵;而限失真信源编码是通过压缩信源熵来减小消息 的“体积” 无失真信源编码由于信源符号与码字一一对应,编码器 的输出概率分布与输入概率分布完全相同,因此编码前 后的熵保持不变
信源编码概述(续)
用树图法可以方便地构造即时码。从树根开始,树中每个中间 节点都伸出 1 至 r 个树枝,不同的树枝标记不同的码元。 将所有的码字都安排在终端节点上就可以得到即时码 每个中间节点都正好有 r 个分枝的树称为整树(满树) 所有终端节点的阶数都相等的树为完全树,对应于定长码
r=2
8
信源编码概述(续)
码1 00 01 10 11
码2 0 10 110 111
平均码长越小,则平 均一个码元所携带的 信息量越大,信息的 冗余度越小。使平均 码长最小的编码称为 最佳编码 采用变长编码能使平 均码长缩短
4
l1 = 2 × (0.5 + 0.25 + 0.125 + 0.125) = 2 码元/单信源符号 l2 = 1 × 0.5 + 2 × 0.25 + 3 × 0.125 + 3 × 0.125 = 1.375 码元/单信源符号

第3章 离散信源无失真编码

第3章 离散信源无失真编码

xi x1 x2 x3 x4
4
P(xi) 0.5 0.3 0.15 0.05
ki 1 2 3 5
Pa(xi) 0 0.5 0.8 0.95
ci 0 10 110 11110
K P( x i )k i 0.5 1 0.3 2 0.15 3 0.05 5
i 1
1.8(bit / symbol )
的一种无失真不等长编码
x1x1 00, x1x 2 100, x1x 3 1100, x1x 4 11100 x 2 x1 101, x 2 x 2 010, x 2 x 3 0110, x 2 x 4 111100 x 3 x1 1101, x 3 x 2 0111, x 3 x 3 111110, x 3 x 4 1111110 x 4 x1 11101, x 4 x 2 111101, x 4 x 3 11111110, x 4 x 4 11111111
log P(x1 ) log 2 1
k1 1
取k 2 2
log P(x 2 ) log 0.3 1.74
log P(x 3 ) log 0.15 2.74 log P(x 4 ) log 0.05 4.32
xi x1 x2 x3 x4 P(xi) 0.5 0.3 0.15 0.05 ki 1 2 3 5
H(X) P( x i ) log P( x i )
i 1
4
0.5 log 0.5 0.3 log 0.3 0.15 log 0.15 0.05 log 0.05
1.648(bit / symbol )
H(X) 1.648 91.56% K 1.8

2014.信息论.第3章离散信源

2014.信息论.第3章离散信源

设信源输出符号集合,每次信源输
9
是⼀一个离散⽆无记忆信源,其概率空间为
其中
信源X的符号集合为
N次扩展信源X N符号集合为
15
的有记忆平稳信源(⼆二维平稳信源)输
23
当且仅当X 1和X 2统计独⽴立时等号成⽴立,此时信源相当于⼆二次⽆无记忆扩展;
当X 1和X 2之间相关时,联合熵⼩小于信息熵之和,即⼩小于单个消息符号X 熵的 2 倍。

由于
25
例:设某⼆二维离散信源X =的原始信源X 的信源模型为
中前后两个符号的条件概率
7/92/901/83/41/80
2/11
9/11
(1)若该信源为⼆二维⽆无记忆扩展信源,求信源的熵。

(2)若该信源为⼆二维平稳信源,如表,求信源的熵。

26
原始信源的熵为:
由条件概率确定的条件熵为:
由于符号之间的依赖性,条件熵⽐比信源熵减少了0.672bit
⼆二维离散⽆无记忆扩展信源的熵为:2H(X)=2*1.542=3.084(bit )7/92/901/83/4
1/8
2/119/11
27
信源X=
平均每发⼀一个消息所能提供的信息量,即联合熵
则每⼀一个信源符号所提供的平均信息量
⼩小于信源X所提供的平均信息量H(X)=1.542bit,这是
由于符号之间的统计相关性所引起的。

28
维平稳信源输出序列每N个符号⼀一组;各
30
则有:
时:
随N的增加是⾮非递增的;
给定时,平均符号熵≥条件熵;
–平均符号熵随N增加是⾮非递增的;
34
解:
35
1,2,......,J 某时刻随机
……
43
44。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、异前置码 如果所采用的不等长编码使接收端能从 码序列中唯一地分割出对应与每一个符 号元的码字,则称该不等长编码为单义 可译码。 单义可译码中,如果能在对应与每一个 符号元的码字结束时立即译出的称为即 时码,如果要等到对应与下一个符号元 的码字才能译出的称为延时码。
码A x1 x2 x3 x4 0.5 0.3 0.15 0.05 0 1 00 01
④将pa(xj)用二进制表示,取小数点后ki 位作为符号元xi的码字。
例1,对单符号离散信源
X x1 P( X) 0.5 x2 0.3 x3 0.15 x4 0.05
电子科技大学
编二进制香农码,并计算其编码效率。 解:①将xi按概率进行降序排列
xi p(xi) pa(xj) ki 码字
电子科技大学
m
i 1
n
Nki
m
N
从而 m
i 1
n
ki
1
电子科技大学
2、无失真编码定理 如果L维离散平稳信源的平均符号熵为 HL(X1X2…XL),对信源符号进行m元不 等长组编码,一定存在一种无失真编码 方法,当L足够大时,使得每个信源符号 所对应码字的平均比特数
H L (X1X 2 X L ) K L lbm H L (X1X 2 X L )
k i lbm lbP (a i ) 即k i lbP (a i ) lbm
电子科技大学

lbP (a i ) lbm
ki
lbP (a i ) lbm
1
其平均码长
P (a i )
i 1 n
lbP (a i ) lbm
P(a i )k i P(a i )
lbm 电子科技大学 L
只要
lbm L
H L (X1X 2 X L )
K L
lbm H L (X1X 2 X L )
无失真编码定理又叫香农第一定理,该 定理从理论上阐明了编码效率
H L (X1X 2 X L ) K L lbm 1
的理想无失真编码的存在性,代价是取 无限长的符号序列进行组编码,即只有 L→∞时
与第一种编码相比,码字压缩了0.3个比 特,编码效率提高了14.5%。
进一步,如果对该信源的二次扩展信源
X 2 x1x1 2 P(X ) 0.25 x 3 x1 x 3x 2 x1x 2 0.15 x 3x 3 x1x 3 x1x 4 x 2 x1 x 2x 2 0.09 x 2x3 0.075 0.025 0.15 x 3x 4 x 4 x1 x 4x 2
②由于码长不等,如何保证接收端从码 序列中唯一地分割出对应与每一个符号 元的码字,以实现无失真译码? ③对符号序列进行组(block)编码有助于 使平均码长接近离散熵,但平均码长能 否无限接近离散熵,从而使编码效率趋 近1?如果能,对序列长度有什么要求?
电子科技大学
二、无失真编码定理
电子科技大学
码B 0 01 011 0111
码C 0 10 110 111
电子科技大学
表中,码A不是单义可译码,它有二义性, 码B和码C才是单义可译码;码B是延时 码,它需等到对应与下一个符号元的码 字开头0才能确定本码字的结束,存在译 码延时,只有码C才是即时码。
码C的特点是:任何一个码字都不是其他 码字的前缀,因此将该码称为异前置码。 异前置码可以用树图来构造: 0 一个三元码树图 1 0 从树根开始到每一个 1 2 0 终节点的联枝代表一 1 2 个码字,故相应的异 2 前置码
000,001,002,01,02,1,2
电子科技大学
码C所对应的二元码树图
电子科技大学
0 0
1
1
0
1
m元长度为ki , i=1,2, …,n的异前置码存在 的充分必要条件是:
m
i 1
n
ki
1
该充要条件称为克拉夫特(Kraft)不等式。
设m元异前置码第i个码字的长度为ki , i=1,2, …,n 考虑一个N级满树,在第N级共有mN个节 点,在第ki级共有mki个节点。 根据异前置码的定义,第i个码字后的节 点不能再用,故不能用的节点数为mN-ki 构造异前置码的码树图上总共不用的节 点总数
x1
x2 x3 x4
0.5
0.3 0.15 0.05
电子科技大学
②令p(x0)=0,计算第j-1个码字的累加概
j 1
率 pa ( x j ) p( xi )
i0
j 1,2,, n
pa(x1)=0 pa(x2)=0+0.5=0.5 pa(x3)=0.5+0.3=0.8 pa(x4)=0.8+0.15=0.95 ③确定第i个码字的码长ki:
电子科技大学
lbp ( x4 ) lb 0.05 4.32, lbp ( x 4 ) 1 5.32 取k 4 5
④将pa(xj)用二进制表示,取小数点后ki 位作为xi的码字 pa(x1)=0.0=(0.0)2→0 pa(x2)=0.5=(0.10)2→10 pa(x3)=0.8=(0.110…)2→110 pa(x4)=0.95=(0.11110…)2→11110
电子科技大学

H(X) K

1.648 2
82.4%
码字的比特数中约有17.6%未携带信息, 属于冗余比特,传输这种码序列效率不 高。 为了压缩比特数,可以考虑对信源符号 进行不等长编码,如
x1 0, x 2 1, x 3 00, x4 01
但该编码不能实现无失真译码,即不能 保证符号元与码字的一一对应。
H( X) K L lbm H(X)
电子科技大学
式中,ε为任意给定的小正数。 此时香农界为H(X)。
对于m阶马尔科夫信源(m<L) ,当L足够 大时,由于其平均符号熵HL(X1X2…XL) =Hm+1,故对信源符号进行m元不等长组 编码,一定存在一种无失真编码方法, 使得每个信源符号所对应码字的平均比 特数
i 1 i 1
n
n
lbP (a i ) lbm
1

H(X1X 2 X L ) lbm
K
K L
H(X1X 2 X L ) lbm
1
lbm L
H(X1X 2 X L ) L

lbm
H(X1X 2 X L ) L
H L (X1X 2 X L )
K L
lbm H L (X1X 2 X L )
式中,ε为任意给定的小正数。
设不等长组编码对应于符号元ai=xi1xi2… xiL的码字长度为ki
取k i使之满足m
由于 m
i 1 n ki n
电子科技大学
k i
P(a i )
P (a i ) 1
i 1
说明该编码是异前置码
m
ki
P(a i )即m
ki

1 P (a i )
H m 1 K L lbm H m 1
电子科技大学
式中,ε为任意给定的小正数。 此时香农界为Hm+1。
平稳无记忆信源的香农界H(X)大于m阶 马尔科夫信源的香农界Hm+1,而m阶马尔 科夫信源的香农界Hm+1又大于一般平稳 信源的香农界H∞。
电子科技大学
因此,对离散平稳信源进行无失真编码, 每个信源符号所对应码字的平均比特数 平稳无记忆信源最多, m阶马尔科夫信 源次之,一般平稳信源最少。
一种能保证符号元与码字一一对应的不 等长编码为
x1 0, x 2 10, x 3 110, x 4 111
电子科技大学
其平均码长
K 0.5 1 0.3 2 0.15 3 0.05 3 1.7
编码效率
H(X) K 1.648 1.7 96.9%
K P(a i )k i 0.25 2 0.15 3
i 1 16
0.0075 8 0.0025 8 3.328
编码效率
H( X ) K
2

2H ( X ) K

3.296 3.3
与第二种编码相比,码字又压缩了约0.04 个比特,编码效率提高了2.1%。 总结该例子,有以下几点结论与问题: ①一般采用不等长编码,使平均码长接 近离散熵,从而在无失真前提下提高编 码效率;编码的基本原则是大概率符号 元编成短码,小概率符号元编成长码。
i 1
二进制香农码的编码步骤如下: ①将符号元xi按概率进行降序排列; ②令p(x0)=0,计算第j-1个码字的累加概
j 1
电子科技大学
率 pa ( x j ) p( xi )
i0
j 1,2,, n
③确定第i个码字的码长ki, ki为满足下 列不等式的整数:
lbp (xi ) k i lbp (xi ) 1
三、香农编码
电子科技大学
香农编码是一种采用异前置码的m进制 编码方法。 设离散信源
X x1 P( X) p( x1 ) x2 p( x 2 ) xn p( x n )
不失一般性,设p(x1)>p(x2)>…>p(xn), n
且 p( x i ) 1
电子科技大学
一、无失真编码的基本思路
电子科技大学
先看一个单符号离散信源无失真编码的 例子:
X x1 P(X) 0.5 x2 0.3 x3 0.15 x4 0.05
其离散熵
H(X) P( x i )lbP ( x i )
i 1 4
0.5lb 0.5 0.3lb 0.3 0.15lb 0.15 0.05lb 0.05
相关文档
最新文档