信息论与编码 第二章 信源与信息熵

合集下载

信息论与编码信源与信息熵

信息论与编码信源与信息熵
或 22 H (X1, X2) p(ai, aj )log p(ai, aj ) 2.41bit / 符号 i0 j0
• 联合熵H(X1,X2)表达平均每二个信源符号所携带 旳信息量。
• 我们用1/2H(X1,X2)作为二维平稳信源X旳信息熵 旳近似值。那么平均每一种信源符号携带旳信
息量近似为:
– 信源符号分布旳不均匀性。 • 等概率分布时信源熵最大。
log 2 n H0 (X ) H1(X ) H2 (X ) H (X )
26
冗余度
• 对于有记忆信源,极限熵为H∞(X)。 • 这就是说我们需要传送这一信源旳信息,理论
上只需要传送H∞(X)即可。但必须掌握信源全 部概率统计特征,这显然是不现实旳。
/
符号
11
• 例:有一离散平稳无记忆信源
求:二次扩展信源旳熵
X p(x)
x1 1
2
x2 1
4
x3 1 4
X2信源 旳元素
相应旳 消息序列
概率p(ai)
a1 a2 a3 a4 a5 a6 a7 a8 a9
x1x1 x1x2 x1x3 x2x1 x2x2 x2x3 x3x1 x3 x2 x3 x3 1/4 1/8 1/8 1/8 1/16 1/16 1/8 1/16 1/16
• 目前后符号无依存关系时,有下列推论:
H(X1X2) H(X1) H(X2)
H (X1 | X 2 ) H (X1), H (X 2 | X1) H (X 2 )
14
离散有记忆信源序列熵
• 信源旳联合熵(即前后两个符号(X1,X2)同步发生 旳不拟定度)等于信源发出前一种符号X1旳信息 熵加上前一种符号X1已知时信源发出下一种符号 X2旳条件熵。

信息论第二章(2)

信息论第二章(2)
5 联合自信息量:
若有两个消息xi,yj 同时出现,它们所带有的信息量, 称为联合自信息量
I ( xi y j ) log p( xi y j ) (bit)
6 条件自信息量:
事件xi在事件yj给定的条件下的自信息量,称为条件自 信息量
I ( xi y j ) log p( x|y j ) (bit) | i

i

j
1 H (( X ))=(p( xy) log p( xy) H XY H X | Y ) X ,Y
平均互信息与各类熵之间关系的集合图(维拉图)表示:
I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X)+H(Y)-H(XY) 图中,左边的圆代表 H(XY)= H(X)+H(Y)- I(X;Y) 随机变量X的熵,右 边的圆代表随机变量 Y的熵,两个圆重叠 H(X|Y) 部分是平均互信息 H(Y|X) I(X;Y)。每个圆减去 =H(X)-I(X;Y) =H(Y)-I(X;Y) I(X;Y)后剩余的部分 代表两个条件熵。 I(X;Y)
i 1 i
n
★定义自信息的数学期望为平均自信息量H
n 1 H ( X ) E log p ( xi ) log p ( xi ) (bit/符号) p ( xi ) i 1
(X),称为信息熵:
★熵的含义:
① 熵是从整个集合的统计特性来考虑的,它从平均意义上来表征 信源的总体特征。 ② 在信源输出后,信息熵H(X)表示每个消息提供的平均信息量;
复习
3 离散信源的数学模型:
x2 x3 ... ... xn X x1 P ( x) P ( x ) P ( x ) P ( x ) ... ... P( x ) 1 2 3 n 要满足的条件: P ( xi ) 0,

信息论与编码_第2讲_信源及其信息量1_自信息与熵

信息论与编码_第2讲_信源及其信息量1_自信息与熵

某事件发生所含有的信息量应该是该事件发生的先验概率
的函数。
2021/2/9
第13页
2.1.1 离散变量的自信息量
2.1 (3) 自信息量
单 ① 自信息量 符
号 不确定性与发生概率
离 散
函数 f [p(xi)] 应满足以下 4 个条件:
信 源
▼ f [p(xi)] 应是 p(xi) 的单调递减函数:
2.1.1 离散变量的自信息量
2.1 (3) 自信息量
单 ① 自信息量 符
号 不确定性与发生概率
离 散
事件发生的概率越小,我们猜测它有没有发生的困难程度
信 就越大,不确定性就越大。
源 事件发生的概率越大,我们猜测这件事发生的可能性就越
大,不确定性就越小。
概率等于 1 的必然事件,就不存在不确定性。

p( y j ) p( xi / y j )
2021/2/9
第18页
概率复习
2.1 (5) 当X与Y 相互独立时:
单 符
p( y j / xi ) p( y j )
号 离 散
p( xi / y j ) p( xi ) p( xi y j ) p( xi )p( y j )


(6)
p( xi / y j )


1
I( xi / y j ) log2 p( xi / y j )
表示在特定条件下(yj已定)随机事件 xi 所带来的信息量
2021/2/9
第27页
2.1.1 离散变量的自信息量
2.1 (3) 自信息量
单 ③ 条件自信息量 符
号 同理,xi 已知时发生 yj 的条件自信息量为: 离

《信息论与编码》课件1第2章

《信息论与编码》课件1第2章
I(ai)是一个随机变量并不难理解。因为ai发生可以使收 信者获得大小为I(ai)的自信息,然而在信源未发出消息之 前,收信者不仅对ai是否发生具有不确定性,而且对于能 够获得多少自信息也是不确定的。因此,伴随着X=ai的随 机发生而发生的自信息I(ai)是一个随机变量,并且与随机 变量X具有相同的概率分布, 即自信息I(ai)是一个发生概率 为P(X=ai)
如果消息ai已发生,则该消息发生所含有的自信息定 义为
1
1
I (ai ) log P(ai ) log pi
(2.4)
第2章 离散无记忆信源与信息熵
可以很容易地证明, 自信息的定义满足上面提出的四个
(1) 此自信息的定义是根据消息发生的概率建立的一个 工程定义,而不是根据这个消息对人的实际意义而建立的 定义。这一纯粹技术性的定义仅仅抓住了“信息”一词在
(2) 自信息I(ai) 在消息ai发生之前,自信息I(ai)表示ai发生的不确定性; 在消息ai发生以后,自信息I(ai)表示ai所含有的(或提
第2章 离散无记忆信源与信息熵
(3) 在式(2.4)中关于对数的底未作明确规定。这是 因为对数的底仅仅影响到度量的单位,实际中可根据
如果取对数的底为2,则所得信息量的单位为比特 (bit, binary unit),此时logx用lbx
第2章 离散无记忆信源与信息熵
第2章 离散无记忆信源与信息熵
2.1 离散无记忆信源 2.2 自信息和熵 2.3 熵函数的性质 2.4 联合事件的熵及其关系 2.5 连续信源的信息测度 习题2
第2章 离散无记忆信源与信息熵
信息理论的研究对象是以各类信息的获取、表示、 传输和处理为目的的信息系统。图2-1给出了一个典型 的通信系统物理模型。在这样的通信系统中,一个贯 穿始终的、最基本的问题便是信息,即信源输出的是 信息,在系统中传输的是信息,接收者获得的也是信 息。可见,在信息理论的学习和研究中,首先需要对

信息论与编码,曹雪虹,课件第2章-2

信息论与编码,曹雪虹,课件第2章-2
信息论与编码
第二章
信源与信息熵
内容
2.1 信源的描述和分类 2.2 离散信源熵和互信息 2.3 离散序列信源的熵 2.4 连续信源的熵和互信 2.5 冗余度
3
信源的分类
• 离散信源
– 指发出在时间和幅度上都是离散分布的离散 消息的信源,如文字、数字、数据等符号都 是离散消息。
{ 离散
{ { 信源
W1
W2
W3
W4
• 稳态分布概率
W1
3 35
,
W2
6 35
,
W3
6 35
,
W4
4 7
• 稳态后的符号概率分布
p(a1)
i
p(a1
|
si
)
p(siΒιβλιοθήκη )1 23 35
1 3
6 35
1 4
6 35
1 5
4 7
9 35
p(a2 )
i
p(a2
|
si )
p(si )
1 2
3 35
2 3
6 35
(1)1/2
s2 01
00 s1
(0)1/4
(0)1/3 (1)3/4
10 s3
(1)2/3
s4 0 2 / 3 0 4 / 5
11 (0)1/5
s4
(1)4/5
8
Wi pij W j
i
1 2
W1
1 2
W1
W1 W2 W3 W4 1
1 3
W2
2 3 W2
1 2
W3
3 4
W3
1 5
W4
4 5 W4
3 4
6 35

信息论与编码2-信源及信源熵1

信息论与编码2-信源及信源熵1
9
信息论与编码-信源及信源熵
又例如对离散化的平面图像来说,从 空间上来看是一系列离散的符号,而空间 每一点的符号(灰度)又都是随机的,由此 形成了不同的图像.所以我们可以把一般 信源输出的消息看作为时间或空间上离 散的一系列随机变量,即随机矢量.这样,信 源 描的述输,其出中可N可用为N维有随限机正矢整量数(或x1,可x2,数…的xN)无来 限值.
25
信息论与编码-信源及信源熵
2.2.2 离散信源熵
前面定义的自信息是指某一信源发出某一消 息所含有的信息量.所发出的消息不同,它们所含 有的信息量也就不同.所以自信息I(ai) 是一个 随机变量,不能用它来作为整个信源的信息测度.
我们定义自信息的数学期望为信源的平均信 息量,即
H ( X ) E [ I ( X ) ]p ( x i) I ( x i) p ( x i) lo p ( x i) g
7
信息论与编码-信源及信源熵
离散信源的数学模型就是离散型的概率空间:
X P
x1
p(x1)
x2
xn

p(x2) p(xn)
其中概率p(xi)(i=1,2,…,n)称为符号xi的先验概 率,应满足∑p(xi)=1
它表示信源可能取的消息(符号)只有n 个:x1,x2,…xn,而且每次必定取其中一个.
当xi和yj相互独立时,有p(xi,yj)=p(xi)p(yj) 于是有
I(xi,yj)= I(xi)+ I(yj)
24
信息论与编码-信源及信源熵
条件自信息量: 当xi和yj相互联系时,在事件yj 出现的条件下,xi 的
自信息量称为条件自信息量,定义为 I(xi|yj)=-logp(xi|yj)

信息论与编码_第2章

信息论与编码_第2章
14
2.1信源描述与分类

马尔可夫信源 更一般,经过n-m步后转移至sj的概率
pij (m, n) = P{S n = s j / S m = si } = P{s j / si } pij (m, n) ≥ 0 ∑ pij (m, n) = 1 j
15
2.1信源描述与分类
i
33
2.2离散信源熵与互信息

单符号离散信源熵 定义:对于给定离散概率空间表示的信源所定 义的随机变量I的数学期望为信源的信息熵, 单位为比特/符号
H ( X ) = E[ I ( x)] = −∑ p ( xi ) log p ( xi )
X = x1 x 2 0 . 8 0 . 2 P
32
2.2离散信源熵与互信息
I ( x1 ) = − log 2 p ( x1 ) = − log 2 0.8bit I ( x 2 ) = − log 2 p( x 2 ) = − log 2 0.2bit N次后所获得的信息量为 I = Np ( x1 ) I ( x1 ) + Np ( x 2 ) I ( x 2 ) = (−0.8 log 2 0.8 − 0.2 log 2 0.2) N 平均每次所获得的信息量为 I = p ( x1 ) I ( x1 ) + p ( x 2 ) I ( x 2 ) = ∑ p ( xi ) log p ( xi )
第2章 信源与信息熵

信源描述与分类 离散信源的信息熵和互信息 离散序列信源的熵 连续信源的熵与互信息 冗余度
1
2.1信源的描述与分类


信源是产生消息(符号)、消息序列和连续消 息的来源。从数学上,由于消息的不确定性, 因此,信源是产生随机变量、随机序列和随机 过程的源 信源的基本特性是具有随机不确定性

信息论与编码2-信源及信源熵

信息论与编码2-信源及信源熵
随机英文字母信源,其中每个英文字母出现的概率是固定的。
实例3
随机天气状况信源,其中晴天、雨天、雪天出现的概率分别是0.7、0.2、0.1。
实例1
随机二进制信源,其中每个二进制符号(0或1)出现的概率为0.5。
离散无记忆信源的实例
离散有记忆信源
03
离散有记忆信源是输出符号序列中符号与符号之间存在记忆关系的离散随机序列。
应用场景
广泛应用于网络通信、金融交易、军事通信等领域,保障信息安全和隐私。
加密通信
03
应用景
广泛应用于通信系统、数据存储等领域,如CD、DVD、硬盘等存储设备的纠错编码。
01
纠错原理
通过在数据中添加冗余信息,检测和纠正数据传输过程中的错误。
02
常见纠错编码
如奇偶校验码、海明码、循环冗余校验码等,这些编码利用数学原理对数据进行校验,确保数据的正确性。
纠错编码
THANKS
感谢观看
离散有记忆信源的输出符号之间存在统计依赖关系,这种关系会影响信息熵的计算。
定义
性质
离散有记忆信源的定义与性质
计算方法
条件熵
联合熵
离散有记忆信源熵的计算
离散有记忆信源熵是描述信源不确定性的度量,可以通过统计模型来计算。具体计算方法包括条件熵和联合熵等。
条件熵是在给定前一个或多个符号条件下,输出符号的熵。
应用场景
广泛应用于文件存储、网络传输、多媒体处理等领域,如JPEG图片压缩、MP3音频压缩等。
数据压缩原理
通过去除数据中的冗余信息,将数据压缩至更小的存储空间,提高存储和传输效率。
数据压缩
加密原理
通过特定的加密算法将明文转换为密文,确保信息在传输过程中的保密性。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

现概率是它自身的先验概率。
无记忆信源
{发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
2.1.1 无记忆信源
发出单个符号的离散无记忆信源
——指信源每次只发出一个符号代表一个消息, 且消息的取值个数是有限的(或可列无限多个)。 例如扔骰子,每次实验结果必然是1~6点中的某一 个面朝上。每次实验的结果不随实验次数变化,也 不与先前的实验结果相关,因而该信源是单符号离
p( X1 , X 2 , X l , X L ) p( X l ) [ p( X )]L
l 1
L
2.1.2 有记忆信源
有记忆信源——在不同时刻发出的符号是相互依赖的。 发出符号序列的有记忆信源 ——每次发出1组含2个以上符号的符号序列来代表一 个消息的信源,且各符号之间是相互依赖的。
I=-log2(1/2m)=m bit
2.2.1 自信息量
自信息量I (xi)的特性:
⑴ I (xi)是非负值
⑵ 当p(xi) = 1时, I (xi) = 0
⑶ 当p (xi) = 0时, I (xi) =∞
⑷ I (xi)是先验概率p (xi)的单调递减函数,即 当p (x1)>p (x2)时, I (x1) < I (x2) ⑸可加性 : 两个独立事件的联合信息量等于它们分别的信 息量之和。
发出符号序列的无记忆信源
——每次发出1组含2个以上符号的符号序列来代表一 个消息的信源,且各符号之间没有统计关联性。
需要用随机序列(或随机矢量) X =(X1, X2,…, Xl, …, XL)来描 述信源输出的消息,用联合概率分布p(X1, X2,…, Xl, …, XL)来表 示信源特性。 p (X 1 ) p (X 2 ) … p (X l ) … p (X L ) 若离散信源输出的每个符号是统计独立的,且具有相同的概 率空间,则该信源是离散平稳无记忆信源,亦称为独立同分布 (independently identical distribution,i. i. d.)信源。
量化 -1
-2
-3
-4
-5
-6
2.1 信源的描述和分类
信源的分类
按照信源发出的消息在时间上和幅度上的分布情况可 将信源分成离散信源和连续信源两大类 : 离散信源: 文字、数据、电报
信源
{ 连续信源: 话音、图像
离散信源 指发出在时间和幅度上都是离散分布的离散消息的信源, 如文字、数字、数据等符号都是离散消息。 连续信源 指发出在时间和幅度上是连续分布的连续消息(模拟消 息)的信源,如语音、图像、图形等都是连续消息。
即符号xi , y j同时出现的信息量等于y j出现的信息量加上 y j出现后xi再出现的信息量。
I ( xi | y j )
I(yj)
2.2.2 离散信源熵
信源平均自信息量
——信源中各个符号自信量的数学期望。
E[ I ( X )] p( xi ) I ( xi ) p( xi ) log p( xi )
第二章 信源与信息熵
2.1 信源的描述和分类
信源
定义:产生消息(符号)、消息序列和连续消息的来源。 ---产生随机变量、随机序列和随机过程的源。
在通信系统中收信者在未收到消息以前对信源发出什 么消息是不确定的,是随机的,所以可用随机变量、随 机序列或随机过程来描述信源输出的消息 。
信源的基本特性:具有随机不确定性。
此时的联合概率表示就需要引入条件概率来反映信源发出的 符号序列中各个符号之间的记忆特征:
p( X 1 , X 2 , X 3 , X L ) p( X L | X L 1 , X 1 ) p( X 1 , X 2 , X L 1 ) p( X L | X L 1 , X 1 ) p( X L 1 | X L 2 , X 1 ) p( X 1 , X 2 , X L 2 )
2.2.1 自信息量
条件自信息量
定义:
I ( xi | y j ) log p( xi | y j )
含义:表示在给定yj条件下,符号xi出现时收信者得 到的信息量。 推论:因为
p( xi , y j ) p( xi | y j ) p( y j )
则有 I ( xi , y j ) I ( xi | y j ) I ( y j )
X (a1 , a1 ) P p(a , a ) 1 1
(an , an ) p(a1 , a2 ) p(an , an ) (a1 , a2 )
i , j 1
p(ai , a j ) 0
p(a , a ) 1
i j
n
2.1.1 无记忆信源
2.1 信源的描述和分类
信源的分类
按照信源发出的消息在时间上和幅度上的分布情况可 将信源分成离散信源和连续信源两大类 : 离散信源: 文字、数据、电报
信源
{ 连续信源: 话音、图像
2~3 1~2 0~1 2 1 0
电 压 5~6 4~5 范围 量化 5 4
3~4
3
电 压 -1~0 -2~-1 -3~-2 -4~-3 -5~-4 -6~-5 范围
2.1 信源的描述和分类
信源的分类
按照信源发出的符号之间的关系还可以分为:
信源
{
无记忆信源 有记忆信源
{发出符号序列的无记忆信源 发出符号序列的有记忆信源 { 发出符号序列的马尔可夫信源
发出单个符号的无记忆信源
2.1.1 无记忆信源
无记忆信源
所发出的各个符号是相互独立的,发出的符号序列
中的各个符号之间没有统计关联性,各个符号的出
无记忆信源
{发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
无记忆信源
发出单个符号的连续无记忆信源
——指信源每次只发出一个符号代表一个消息, 且消息的取值是连续的。 概率空间: p ( x ) P X
X (a, b)

R p ( x) X
2.2.1 自信息量
自信息量举例 一个发出二进制码元0和1的信源,当符号概率为 p(0)=1/4, p(1)=3/4,则这两个符号所包含的自信息量 分别为: I(0) =-log2 (1/4)=log24= 2bit I(1) =-log2 (3/4) =0.4151 bit 一个以等概率出现的二进制码元0和1信源,则这两个 符号所包含的自信息量分别为: I(0)= I(1)= -log2 (1/2)=log22=1 bit 若上述信源输出为一个m位的二进制序列X,则每 个m位二进制序列的自信量均相等,为:
信源熵是一个非负量。
2.2.2 离散信源熵
例如有两个信源,其概率空间如下所示,分别求出这 两个信源的信源熵:
X x1 , x2 0 . 99 0 . 01 p ( x )
Y y1 , y2 0 . 5 0 . 5 p( y )
即当xi和yi相互独立时,有: I ( xi , y j ) I ( xi ) I ( y j )
2.2.1 自信息量
信源符号不确定度 定义:信源符号不确定度在数量上等于该信源符号的自信 息量。
不确定度与自信息量的区别:
两者的单位相同,但含义却不相同。 不确定度是信源符号固有的,不管符号是否发出; 而自信量是信源符号发出后给予收信者的。为了消除 该符号的不确定度,接收者需要获得信息量。
单位为bit/符号
信源熵
i
i
——信源的平均不确定度。(信源中各个符号不确定度的 数学期望)
H ( X ) E[ I ( X )] p( xi )log p( xi )
i
单位为bit/符号
区别:
•信源熵在数值上与平均自信量相等,但含义不同。 •对于某一信源,它的各个符号具有的概率分布决定了该信源的平均不 确定度(即信源熵) •平均自信息量是消除信源不确定度时所需要的信息量。当接收者收到 这样大的信息量时,信源的不确定度就被消除了。
无记忆信源
{ 发出符号序列的无记忆信源
发出单个符号的无记忆信源
{
离散 连续
2.1.1 无记忆信源
发出符号序列的信源
——每次发出1组含L个(L≥2)符号的符号序列来代表一 个消息的信源。
需要用随机序列(或随机矢量) X =(X1, X2,…, Xl, …, XL)来描 述信源输出的消息,用联合概率分布p(X1, X2,…, Xl, …, XL)来表 示信源特性。 当L=2时,此时信源为X =(X1, X2) ,其概率空间为:
px ( x) 0,

b
a
pX ( x)dx 1 或

R
pX ( x)dx 1
解释:信源输出的消息也是单符号,但消息取值有无限多种情况。 符号集A的取值是介于a和b之间的一个连续值,或者取值 为实数集R等,我们用连续型随机变量来表示。
2.1.1 无记忆信源
无记忆信源
所发出的各个符号是相互独立的,发出的符号序列 中的各个符号之间没有统计关联性,各个符号的出 现概率是它自身的先验概率。
散无记忆信源。可用一个离散型随机变量X来描述这
个信源输出的消息。
2.1.1 无记忆信源
发出单个符号的离散无记忆信源
可用一个离散型随机变量X来描述这个信源输出的消息。 随机变量X的样本空间就是符号集:
A {a1 , a2 ,, an }
X的概率分布为:
P { p(a1 ), p(a2 ),, p(an )}
H ( X ) 0.99lb0.99 0.01lb0.01 0.08(比特 / 符号)
H (Y ) 0.5lb0.5 0.5lb0.5 1(比特 / 符号)
相关文档
最新文档