ITD第二章信源及信源熵4

合集下载

信息论与编码 第二章 信源与信息熵

信息论与编码 第二章 信源与信息熵
按照信源发出的消息在时间上和幅度上的分布情况可 将信源分成离散信源和连续信源两大类 : 离散信源: 文字、数据、电报
信源
{ 连续信源: 话音、图像
2~3 1~2 0~1 2 1 0
电 压 5~6 4~5 范围 量化 5 4
3~4
3
电 压 -1~0 -2~-1 -3~-2 -4~-3 -5~-4 -6~-5 范围
散无记忆信源。可用一个离散型随机变量X来描述这
个信源输出的消息。
2.1.1 无记忆信源
发出单个符号的离散无记忆信源
可用一个离散型随机变量X来描述这个信源输出的消息。 随机变量X的样本空间就是符号集:
A {a1 , a2 ,, an }
X的概率分布为:
P { p(a1 ), p(a2 ),, p(an )}
2.2.2 离散信源熵
信源熵
——信源的平均不确定度。
H ( X ) E[ I ( X )] p( xi )log p( xi )
i
单位为bit/符号
信源熵是在平均意义上来表征信源的统计特性,它是信源X的函数。
当信源给定,各符号的概率空间就给定,信源熵就是一个确定的值。
不同的信源因概率空间不同而具有不同的信源熵。
无记忆信源
{ 发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
2.1.1 无记忆信源
发出符号序列的信源
——每次发出1组含L个(L≥2)符号的符号序列来代表一 个消息的信源。
需要用随机序列(或随机矢量) X =(X1, X2,…, Xl, …, XL)来描 述信源输出的消息,用联合概率分布p(X1, X2,…, Xl, …, XL)来表 示信源特性。 当L=2时,此时信源为X =(X1, X2) ,其概率空间为:

第二章信源及信源的熵

第二章信源及信源的熵
一般地,任意 m步转移概率为: ij (m, n ) P{Sn S j | Sm Si } n P ( Sn 表示状态变量, 时刻的状态| ) n
Pij的性质: Pij ( m, n ) 0,i, j S
Pij (m, n ) 1,
jS
i S
17
齐次马尔可夫信源的状态转移概率: 齐次:状态转移概率与时间无关
{
无记忆信源 有记忆信源
(1)单符号信源和符号序列信源 前述各离散或连续信源都是单符号信源----信源(试验) 每次发出一个符号(消息的长度为1)。 更多信源输出的消息需要用多个符号(即符号序列)来表示 ,如:随机取球试验,一次取两个球。多少种消息?
8
3种消息:“红红”、“白白”、“红白或白红”;用符号序 列表示 个消息。这种信源称为符号序列信源。 (2)符号序列信源用多维随机变量(随机矢量或随机序列)及 其概率空间来描述。如上面的离散符号序列信源:
7
X [0,1.5] pX (x) pX (x)
任意连续信源 的数学模型为
1.5
,
pX (x)d x 1
0
X [a,b] p X (x) p X (x)
b
,
a
pX (x)d x 1
2、按照信源发出的符号之间的关系分类: 信源
香农第二章信源及信源熵第一节信源的描述和分类第二节离散信源熵和互信息第二节离散信源熵和互信息3第三节连续信源的熵和互信息第四节离散序列信源的熵第五节冗余度第一节信源的描述和分类一消息的统计特征香农信息论运用概率论和随机过程的理论来研究信息

1、信息的定义:

信息是指各个事物运动的状态及状态变化的形式。 是事物运动状态或存在方式的不确定性的描述。 2、信息论的定义 关于信息的本质和传输规律的科学理论,是研究信息的度 量、发送、传递、交换、接收和储存的一门新兴学科。它为 各种具体的信息技术提供理论依据,而信息技术则以此为根 据去研究如何实现、怎样实现的问题。 3、信息、消息和信号的关系:

第2章信源及信源熵 145页PPT文档

第2章信源及信源熵 145页PPT文档

【例2.1】
设信源只有两个符号“0”和“1”,且它们以消 息的形式向外发送时均以等概率出现,求它们 各自的自信息量。
(二)不确定度d(ai)与自信息量I(ai) 两者的联系
数值上相等,单位也相等,但含义不同。
两者的区别
具有某种概率分布的随机事件,不管其发生与否, 都存在不确定度,不确定度是任何随机事件本身所 具有的属性。
信源空间:
X P(x)
a1 a2 … aN =
P(a1) P(a2) … P(aN)
显然有:
例:对于二进制数据、数字信源:X={0,1}, 若这两个符号是等概率出现的,则有:
X P(x)
a1 = 0a2 = 1 Nhomakorabea=
P(a1) =0.5 P(a2) = 0.5
(二)多符号离散信源
是发出符号序列的信源
一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比 较困难。为了便于分析,我们假设信源输出的是平稳的随机序列,也 就是序列的统计性质与时间的推移无关。很多实际信源也满足这个假 设。
若在信源输出的随机序列X= (X1,X2,…,XN)中,每个随机变 量Xi (i=1,2,…,N)都是取值离散的离散型随机变量,即每个随机变量 Xi的可能取值是有限的或可数的;而且随机矢量X的各维概率分布都 与时间起点无关,也就是在任意两个不同时刻随机矢量X的各维概率 分布都相同。这样的信源称为离散平稳信源。如中文自然语言文字, 离散化平面灰度图像都是这种离散型平稳信源。
离散无记忆信源
在某些简单的离散平稳信源情况下,信源先后发出的 一个个符号彼此是统计独立的。也就是说发出的信源 发出的符号是相互独立的,发出符号序列中各个符号 之间也是相互独立的。

信源与信源熵4

信源与信源熵4

11
• 信源的序列熵
9 2 H (Χ) H ( X ) p(ai )log p (ai ) 3bit / 序列 i 1
• 平均每个符号(消息)熵为
1 H 2 (X) H (X) 1.5bit / 符号 2
12
2.3 离散序列信源熵
• 2.3.1 离散无记忆信源的序列熵 • 2.3.2 离散有记忆信源的序列熵
{
{发出符号序列的无记忆信源 发出符号序列的有记忆信源 { 发出符号序列的马尔可夫信源
发出单个符号的无记忆信源
4
离散无记忆信源的序列熵
• 发出单个符号的信源
X 1 2 3 4 5 6 P 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6
• 当前后符号无依存关系时,有下列推论:
H ( X1 , X 2 ) H ( X1 ) H ( X 2 ) H ( X 1 | X 2 ) H ( X 1 ), H ( X 2 | X 1 ) H ( X 2 )
14
• 若信源输出一个L长序列,则信源的序列熵为 H ( X ) H ( X 1 , X 2 , , X L ) H ( X 1 ) H ( X 2 | X 1 ) H ( X L | X L 1 , , X 1 )
a1
a2
a0
1/4
a1
1/18
a2
0
1/18
0
1/3
1/18
1/18 7/36
H(X2| X1)<H(X1) H ( X ) H ( X 1 ) p(ai ) log p(ai ) 1.543bit信源的条件熵比无依 / 符号 赖时的熵H(X)减少了 i 0 0.671 比 特 , 这 正 是 因 为符号之间有依赖性 所造成的结果。 • 当考虑符号之间有依赖性时,计算得条件熵

第二章 信源熵

第二章 信源熵

英文字母中“e”出现的概率为0.105,“c” 出现的概率为0.023,“o”出现的概率为 0.001,分别计算他们的自信息量。 答:I(e)=-logP(e)=-log0.105=3.25bit I(c)=-logP(c)=-log0.023=5.44bit I(o)=-logP(o)=-log0.001=9.97bit

公式:参考数学期望的性质,用各符号的自 信息量加权平均表示总体的不确定性。
H ( X ) E[ I ( X )] p( xi )I ( xi ) p( xi ) log p( xi )
i i

单位:比特/符号或比特/符号序列

I. II.
性质: 非负 与热力学熵相同形式,H(X)又被定义为信源 熵 两个特殊情况 符号 x i 的概率 pi 为零时,定义为pi log pi 0 当信源X只有一个符号,符号只有一个状态, p(x)=1,此时 H ( X ) 0 。

分析 {Xn,n=0,1,2,……}是一随机过程,其状态 空间为:I={0,1},且当Xn=i,i=0、1时, Xn+1所处的状态分布只与Xn=i有关,而与 时刻n以前所处的状态无关,综上所述。该 过程为一步转移的马尔可夫过程。 p, j i P i, j 0,1 一步转移的概率: P{ X j X i} q, j i 一步转移矩阵: p q

II.
III.

随机过程是随机函数的集合,若一随机系统的样本点数是 随机函数,则称此函数为样本函数。这一随机系统全部样 本函数的集合是一个随机过程。实际应用中,样本函数的 一般定义在时间域或者空间域。用{X(t),t Y }。 具有马尔可夫性的随机过程称为马尔可夫过程。

第二章信源与信息熵

第二章信源与信息熵
j i, j
I ( X ; Y ) p( yj ) I ( X ; yj ) p( xiyj ) log
p( xi / yj ) p( xi )
I(X;Y)=H(X)-H(X/Y);I(Y;X)=H(Y)-H(Y/X)=I(X;Y).
• 3.疑义度或损失熵
条件熵H(X/Y)信道上的干扰和噪声所造成的对信源符号x的平均不确定度.
X 0 P p
二元信源熵为
1 q
H (X ) p log p q log q p log p (1 p ) log(1 p ) H ( p)
信源信息熵H(X)是概率p的函数,通常用 H(p)表示。函数曲线如图
i i
I ( xi) 0; P( xi) 0;0 p( xi) 1
H(X ) 0
• 2.信源熵:表征信源的平均不确定度. 3.平均自信息:平均每个信源符号所能提供的信息 量.大小与信源熵相同.
• 例2.2.3二元信源是离散信源的一个特例。该信源X输出符号只 有两个,设为0和1。输出符号发生的概率分别为p和q,p+q=1。 即信源的概率空间为可得二元信源熵为
2.概率空间
一个离散信源发出的各个符号消息的集合 例如:
X={x1,x2,…,xn}
它们的概率分别为 P={p(x1),p(x2),…,p(xn)} p(xi)称为符号xi的先验概率。 把他们写到一起就是概率空间:
X x1 P p( x1)
x2
n
...xn
xiyi 所包含的不确定度在数值上也等于它们的自信息量。
4.条件自信息量:当二者不独立 在给定y条件下,随机事件x所包含的不确定度在数值 上与条件自信息量相同,但两者含义不同。

第2章.信源与信息熵

第2章.信源与信息熵
p( x1 , x2 ,, xL ) p( xL | x1 , x2 ,, xL 1 ) p( x1 , x2 ,, xL 1 ) p( xL | xL m , , xL 1 ) p( x1 , x2 ,, xL 1 ) p( xL | xL m , , xL 1 ) p( xL 1 | x1 , x2 ,, xL 2 ) p( x1 , x2 ,, xL 2 ) p( xL | xL m , , xL 1 ) p( xL 1 | xL m1 ,, xL 2 ) p( x1 , x2 ,, xL 2 )
P中第i行元素对应于从某一个状态si 转移到所有状态s j ( s j S )的 第j列元素对应于从所有状态si ( si S )转移到同一个状态s j的转移 概率,列元素之和不一定为1。
29
转移概率。矩阵中的每一行元素都是非负的,且每行之和均为1。
2.1.3 马尔可夫信源
切普曼· 柯尔莫郭洛夫方程 ( k步转移概率pijk )与l (l k )步和k - l步转移概率之间有所谓
表述的复杂度将随着序列长度的增加而增加。 然而实际上信源发出的符号往往只与前若干个符号有较 强的依赖关系,随着长度的增加依赖关系越来越弱,因 此可以根据信源的特征和处理时的需要限制记忆的长度, 使分析简化。
18
2.1.3 马尔可夫信源
马尔可夫信源 当信源的记忆长度为m+1时,该时该发出的符号与前m 个符号有关联性,而与更前面的符号无关。这种有记忆 信源叫做m阶马尔可夫信源,可以用马尔可夫链来描述。
30
2.1.3 马尔可夫信源
切普曼· 柯尔莫郭洛夫方程 由前递推关系式可知,对于齐次马尔可夫链,一步转移 概率完全决定了k步转移概率。 为了确定无条件概率,引入初始概率,令:

信源及信源熵课件

信源及信源熵课件
编码是将信息从一种 形式或格式转换为另 一种形式的过程。
编码的方式和格式取 决于应用场景和需求 。
编码的目的是为了便 于信息的存储、传输 和处理。
信源编码的原理
信源编码是对信源输出的符号或数据 进行压缩编码,以减少存储空间和传 输带宽。
信源编码的目标是在保证信息无损的 前提下,尽可能地减小编码后的数据 量。
差分编码
02
通过消除信号中的冗余信息,降低信号的复杂性,提高信号传
输的效率和可靠性。
深度学习在信源编码中的应用
03
利用深度学习算法对信源进行自动编码,提高编码的自适应性
和智能化水平。
信源熵的新应用
信息隐藏
利用信源熵将秘密信息隐 藏在普通数据中,实现隐 蔽通信和数据保护。
数据加密
通过改变数据熵值,增加 数据破解的难度,保护数 据的机密性和完整性。
LZ77编码
基于字典的压缩算法,通过查找已输出的字符串在字典中的匹配项, 替换为较短的指针,实现数据压缩。
BWT编码
将信源输出按字节进行排序并连接成一个字符序列,通过游程编码和 差分编码等技术实现数据压缩。
04
信源的应用
在通信系统中的应用
信源编码
通过将信源输出的消息转换为二进制 或其它形式的数字信号,实现数字通 信,提高通信系统的传输效率和可靠 性。
信源编码的原理基于信息论和概率统 计的知识,通过对信源输出的概率分 布进行分析,采用适当的编码方式实 现数据压缩。
常见信源编码方式
Huffman编码
基于信源符号出现概率的编码方式,通过为出现概率高的符号分配较 短的码字,实现数据压缩。
算术编码
将信源输出区间划分为若干个子区间,每个子区间对应一个符号,通 过小数形式的码字表示输出区间的范围,实现高压缩比。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个状态,旁边的数字代表转移概率。这就是香农提
出的马尔可夫状态图,也叫香农线图。
(2)由状态S3转移到S1的转移概率p(k)31=0,因为 一进人状态S3就一直继续下去,而不会再转移 到其他状态。P(k)41=0也是明显的,因S4和S1之 间没有连接箭头,因此这种链就是可约的。
2020/4/14
23
作业: 2-18到2-21 2-23到2-29
2020/4/14
36
p(k) ij
p p(kl) ir rj
p k-l ir
prj
r
r
矩阵表示:
(p(k))=(p)(p(k-1))=(p)(p)(p(k-2))=…=(p)k
对于齐次马氏链来说,一步转移概率完 全决定了k步转移概率。
2020/4/14
13
如何确定无条件概率?
• 令初始概率为p0i=p(S0=si)
p(Sk s j ) p(Sk s j , S0 si )
2020/4/14
32
问题2:信息效率、冗余度的定义
• 信息效率
H(X ) ,
Hm(X )
0 1
表示不肯定的程度
• 冗余度 1 1 H(X )
Hm(X )
表示肯定性的程度,因为肯定性不含有信息量,
2因020/4此/14 是冗余的。
33
书 P28 例子
由上述例子可看出:
• 由于各个符号出现的概率不均匀
...
2020/4/14 j
p1 j 1
p2Q
...
pQQ
1
18
0 p21 ... 0 p22 1 ... ... ... ...
pQ1 pQ2 0 ...
0 p2Q ... pQQ 1
所以
Wi pij W j j S
i
有非零解W1,W2,…,WQ。
2020/4/14
19
• 如果再用 Wj 1 就可解得各稳态分布
7
什么叫基本转移概率(一步转移概率)?
• 当n=m+1时,把pij(m,m+1)记为pij(m), m≥0,并称为基本转移概率(一步转移概 率)。
记 pij (m) p Sm1 j / Sm i i, j S
2020/4/14
8
齐次马尔可夫链转移概率具有时间推移不变性 转移概率可表示为:
2020/4/14
17
p11 1 p21 ... pQ1 W1
p12
...
p22 1 ... ... ...
pQ2 ...
W2
...
0
p1Q
p2Q
...
pQQ
1
WQ
pij 1
j
j
p1 j 1
p21
...
pQ1
j
p1 j 1
p22 1 ...
pQ2
...
...
...
• 一步矩阵P中第j列元素对应于从所有状态Si转 移到同一个状态Sj的转移概率,列元素之和不 一定为1。
• 一步矩阵P中第i行元素对应于从某一个状态Si 转移到所有状态Sj的转移概率,显然矩阵中的 每一个元素都是非负的,并且每行之和均为1; 第j列元素对应于从所有状态Si转移到同一个状 态Sj的转移概率,列元素之和不一定为1。
2
5. 状态转移描述
• 对于m阶马尔可夫信源
X P
x1 p(xim1
x2 / xi1
... xq xi2 ...xim
)
2020/4/14
3
• 在某一时刻(m+1),信源符号出现的 概率,仅与前面已出现的m个符号有关, 而与更前面出现的符号无关。可通过引 人状态转移概率,从而转化为马尔可夫 链,即令
0 1/ 2 (P(k) ) (P)k 1/ 2 0
0 1/ 2 1/ 2 0
0 1/ 2k 1/ 2 0 0 1/ 2 1/ 2 0
2020/4/14
25
• 当k为奇数时
0 1/ 2 (P(k) ) (P)k 1/ 2 0
0 1/ 2 1/ 2 0
0 1/ 2 1/ 2 0 (P) 0 1/ 2 1/ 2 0
• 当k为偶数时
1/ 2 0 1/ 2 0
(P(k) ) (P)k 0 1/ 2 0 1/ 2 (P) 1/ 2 0 1/ 2 0
0 1/ 2 0 1/ 2
2020/4/14
26
• 若起始状态为s1,则
经奇数步后,Sk=sj的概率为
0 j 1
pj
1/ 2 0
j2 j 3
1/ 2 j 4
• 经偶数步后
si (xi1 xi2 ...xim ), i1,i2 ,..., im (1,2,..., q)
2020/4/14
4
• 如果信源符号表中的数目为q,则由前面出现的
m个符号所组成的序列si共有Q=qm种,将这些序 列看作是状态集S={s1,s2,…,sQ},则信源在某一时 刻出现符号xj的概率就与信源此时所处的状态si有 关,用条件概率表示为p(xj/si),i=1,2,...,Q; j=l,2,…,q。当信源符号xj出现后,信源所处的状 态将发生变化,并转人一个新的状态。用转移概
pij (m) p Sm1 j / Sm i pij
转移概率性质:
i, j S
pij 0
i, j S
pij 1
j
i, j S
2020/4/14
9
k步转移概率表示为:
p(k)ij (m)
p
Smk
j / Sm
i
p(k) ij
i, j S
k步转移概率矩阵:
P(k)
p(k) ij
1/ 2
pj
0 1 /
2
0
j 1 j2 j 3 j4
达不到稳定状态 !
2020/4/14
27
例 2-4-2
Xr
+
Yr
T
q p0
p 11
q
2020/4/14
28
• 输入的码Xr(r=1,2,…)是相互独立的,取值0或1, 且已知p(X=0)=p,p(X=1)=1-p=q,输出的码是
Yr,显然有
Y1= X1,Y2=X2 Y1… 其中 表示模2加,那么Yr就是一个马氏链,因
(m), i,
j
S
说明: 一步转移概率矩阵为:
p11 ... p12
P
pij , i, j S
或P
....
2020/4/14
pQ1 .... pQQ 10
• 一步矩阵P中第i行元素对应于从某一个状态Si 转移到所有状态Sj的转移概率,显然矩阵中的 每一个元素都是非负的,并且每行之和均为1;
i
p(S0 si ) p(Sk s j / S0 si )
i
p0i
p (k) ij
i
2020/4/14
14
如何确定平稳分布的 Wj=p(Sk=sj) ?
Wi pij W j j S
i
• 其中, Wi和Wj均为稳态分布概率 .
2020/4/14
15
分析:
Wi pij Wj
i
jS
W1 p11 W2 p21 ... WQ pQ1 W1
2020/4/14
34
结论:
在实际通信系统中,为了提高传输效率, 往往需要把信源的大量冗余进行压缩,即 所谓信源编码。但是考虑通信中的抗干扰 问题,则需要信源具有一定的冗余度。因 此在传输之前通常加人某些特殊的冗余度, 即所谓信道编码,以达到通信系统理想的 传输有效性和可靠性。
2020/4/14
35
所以:H1<H0 • 随着序列增长,字母间的相关性越来越强:
所以:H<…<H3<H2 • 正是因为信源符号中存在的这些统计不均匀性
和相关性,才使得信源存在冗余度。
• 当英文字母的结构信息已预先充分获得时,可 用合理符号来表达英语,例如传送或存储这些 符号,可大量压缩,100页的英语,大约只要29 页就可以了。
第六讲
2003年5月24日
2020/4/14
1
4. 离散马氏链信源
平稳信源的m阶马尔可夫信源: 信源发出的符号只与前面的m个符号有关, 而与更前面出现的符号无关。 用概率意义表达为: p(xt/xt-1,xt-2,xt-3,…,xt-m,…)=p(xt/xt-1,xt-2,…xt-m)
2020/4/14
概率 Wj。 j
• 若[ pij ij ]的秩是(n-1),则解是唯一
的。
2020/4/14
20
马氏链的可约性
• 马氏链可约性:
若对所有 k,都有p(k)ij=0,就意味着一旦出现 Si以后不可能到达Sj, 也就是不能各态遍历,或者 状态中应把Sj取消,这样就成为可约的了。
• 马氏链不可约性:
对任意一对i和j,都存在至少一个k使p(k)ij>0,
这就是说从Si开始,总有可能到达 Sj.
2020/4/14
21
香农线图
S1
1/2
1/2 1/2
S2
1/2 1/2
S3
1/2 1
可约马氏链
1/2 S4
1/2
S5
2020/4/14
22
• 注意:
(1)S1,S2,S3是三种状态,箭头是指从一个状态转移到另
率表示 如下:
pij(m,n)=p{Sn=sj/Sm=si}=p{sj/si} si,sjS
状态转移概率p(sj/si)由信源符号条件概率p(xj/si)
确定。 2020/4/14
5
为什么状态转移概率是一个条件概率?
• (1)状态转移概率Pij(m,n)表示已知在时刻m系 统处于状态si,或Sm取值si的条件下,经(n-m) 步后转移到状态sj的概率。
相关文档
最新文档