第二章：信息论的基本概念

合集下载

计算机科学中的信息论与编码

计算机科学中的信息论与编码信息论与编码是计算机科学中的重要理论，它们对于信息的传输、存储和处理起着至关重要的作用。

信息论主要研究信息的度量和传输的可靠性，而编码则是将信息以有效的方式表示和传递的技术手段。

本文将介绍信息论和编码在计算机科学中的应用，并探讨其对现代计算机技术的影响。

一、信息论的基本概念信息论是由香农在1948年提出的一门学科。

它通过熵和信息量的概念，量化了信息的度量和传输的质量。

熵是信息理论中的关键概念，用来表示一个随机变量的不确定性和信息量的平均值。

计算机系统中的信息可用二进制表示，因此信息的度量单位是比特（bit）。

二、信息论的应用1. 数据压缩信息论的一个重要应用是数据压缩。

利用信息论的原理，可以设计出高效的压缩算法，将大量的数据压缩成较小的文件。

常见的数据压缩算法有哈夫曼编码、LZ编码等。

这些算法通过统计字符或者字符组合出现的频率，将频率高的字符用较短的编码表示，从而实现数据的有损或无损压缩。

2. 信道编码信道编码是信息论的另一个重要应用领域。

在数据传输过程中，由于信道噪声等原因，数据容易出现误码。

为了提高传输的可靠性，可以使用信道编码技术。

常见的信道编码方案有纠错码和调制码，它们可以通过增加冗余信息或者改变信号的特性，提高传输系统的容错能力。

三、编码的基本原理编码是将信息转换成特定的符号或者编码字，以便能够有效地表示和传输。

在计算机科学中，常见的编码方式有ASCII码、Unicode和UTF-8等。

ASCII码是一种最早的字符编码方式，它将每个字符映射为一个7位的二进制数。

Unicode是一种全球通用的字符编码标准，它使用16位或32位的二进制数表示字符。

UTF-8则是Unicode的一种变体，它采用可变长度的编码方式，可以表示任意字符。

四、编码的应用1. 信息存储编码在信息存储中起着关键作用。

计算机系统中的文件和数据都需要以某种方式进行编码才能存储和读取。

不同的数据类型使用不同的编码方式，例如图片可以使用JPEG、PNG等图像编码格式，音频可以使用MP3、AAC等音频编码格式。

信息论名词解释

信息论部分基本概念和名词术语消息(或称为符号)：信息的数学表达层，它虽不是一个物理量，但是可以定量地加以描述，它是具体物理信号的进一步数学抽象，可将具体物理信号抽象为两大类型：自信息量：一个随机事件发生某一结果后所带来的信息量成为自信息量，定义为其发生概率对数的负值。

平均互信息：表达平均互信息量的熵I(X;Y), 是确定通过信道的信息量的多少，因此称它为信道传输率或传信率。

I(X;Y)就是接收到符号Y后平均每个符号获得的关于后平均每个符号获得的关于X的信息量——平均意义上每传送一个符号流经信道的平均信息量。

离散平稳无记忆信源：假定随机变量欲裂的长度是有限的，如果信源输出地信息序列中，符号之间的无相互依赖关系，则称这类信源为离散平稳无记忆信源。

信源冗余度：信源熵的相对率为信源实际的信息熵与同样符号数的最大熵的比值：η=H无穷/H0，定义信源的冗余度为1减去信源熵的相对率η，即ξ=1-η。

信道容量：信道在单位时间上能够传输的最大信息量。

平稳信源：概率分布函数与时间起点无关，平稳信源是有记忆的，记忆的长度有限。

香农信息：信息是事物运动状态或存在方式的不确定性的描述。

无记忆信道：在某一时刻信道的输出消息仅与当时的信道输入消息有关，而与前面时刻的信道输入或输出消息无关。

有记忆信道：在任意时刻信道的输出消息不仅与当时信道的输入消息有关，而且还与以前时刻的信道输入消息和（或）输出消息有关。

信道疑义度(含糊度) H(X|Y)：表示在输出端接收到Y后，发送端X尚存的平均不确定性。

这个对X尚存的不确定性是由于干扰引起的。

信道散布度H(Y|X)：表示在已知X后，对于输出Y尚存的平均不确定性；平均失真度：定义平均失真度为失真函数的数学期望，及d（xi,yi）在X和Y 得联合概率空间P(XY)中的统计平均值：D=E[D（xi,yi）] ，起是在平均的意义上，从总体上对整个系统失真情况的描述。

失真函数d(xi,yj)：是人为规定的，给出规定时应该考虑解决问题的需要以及失真可能引起的损失、风险和主观上感觉的差别等因素。

第二章-信息论基本概念（3）

H ( X m1 / X1 X 2 X m )
这表明：m阶马尔可夫信源的极限熵H 就等于m阶条件熵，记为H m 1
akm )
设状态 Ei (ak1 ak2 akm ),信源处于状态Ei时，再发出下一个符号akm1
此时，符号序列 (ak2 ak3 a ) km1 就组成了新的信源状态
Ej (ak2 ak3 a ) km1 ，这时信源所处的状态由 Ei 转移到 Ej
状态转移图(香农线图)
0:0.5 E1
1:0.5 E3
1
0:0.6
E2
1:0.4
【注】E1、E2、E3是三种状态，箭头是指从一个状态转移到另
一个状态，旁边的数字代表发出的某符号和条件概率p(ak/Ei) 。这就是香农提出的马尔可夫状态转移图，也叫香农线图。
二、马尔可夫信源
若信源输出的符号和信源所处的状态满足以下两个条件，则称为马尔可夫信源：
a1 a2
p(sl
E2
/ xl
a3
sl1 E1 ) 0 sl1 E1 ) 1 sl1 E1 ) 1 sl1 E1 ) 0
可求得状态的一步转移概率：
1
2
1 4
0
1 4
0
0
1 2
1 2
0
0
p(E j
/
Ei
)
0
3
1
0
0
44
0
0
0
0
1
0
0
0
3 4
1 4
此信源满足马尔可夫的两个条件，所以是马尔可夫信源，并且是齐次马尔可夫信源。
对于这个随机序列，若有：
p(xn Sin | xn1 Sin1 ,..., x1 Si1 ) p(xn Sin | xn1 S ) in1

第二章信息论基本概念

i 1
一个信源总是包含着多个符号消息，各个符号消息又按概率空间的先验概率分布，它的不确定度是各个符号的不确定度的数学期望（即概率加权的统计平均值）它的熵（平均不确定度）H（X）定义为： H（X）＝ E[I(x)]＝ P(X)I(X) ＝－ P(X)log2P(X) X
X
若信源X中的符号的概率空间简化表示为： X1，X2， „，XN X，PX＝ P1， P2，„， PN 则熵（平均不确定度）H（X）可写成： N H（X）＝－ PilogPi 注意：∵ I(X)为非负， P(X)为非负，且0≤P(X)≤1 ∴ H（X）也为非负
0.8 0.2
其中X1表示摸出的球为红球事件,X2表示摸出的球为白球事件
若告知摸出的是红球，则事件的自信息量为 I(X1)＝－logP(X1)＝－log20.8 bit 若告知摸出的是白球，则事件的自信息量为 I(X2)＝－logP(X2)＝－log20.2 bit 若取回后又放回摸取，如此摸取n此，红球出现的次数nP(X1)，白球出现的次数为nP(X2)，则总信息量为 I＝nP(X1)I(X1)＋nP(X2)I(X2) 而平均随机摸取一次所获得的信息量为 H（X）＝ 1/n [nP(X1)I(X1)＋nP(X2)I(X2)] ＝－[P(X1)logP(X1)＋P(X2)logP(X2)] 2 ＝－ P(Xi)logP(Xi)
符号xi对联合事件符号yj zk之间的互信息量定义为： I(xi ; yj zk)＝ logP(xi|yj zk)/ P(xi) „„„„*
三. 条件互信息量含义：在给定zk条件下，xi与yj之间的互信息量
条件互信息量I(xi ; yj|zk)定义为： I(xi ; yj|zk)＝ logP(xi|yj zk)/ P(xi|zk) 从上式，可使*式写成： I(xi ; yj zk)＝ I(xi ; zk) ＋ I(xi ; yj|zk) 推导如下: I(xi ; yj zk)＝ log P(xi|yj zk)/ P(xi)

信息论编码第二章信息度量1

50个红球，50个黑球
Y
20个红球，其它4种颜色各20个
Z
问题：能否度量、如何度量？？
2.3.2信源熵数学描述
信源熵
• 定义：信源各个离散消息的自信息量的数学期望（即概率加权的统计平均值）为信源的平均信息量，一般称为信源的信息熵，也叫信源熵或香农熵，有时也称为无条件熵或熵函数，简称熵。 • 公式： n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体，实质上是无记忆信源平均不确定度的度量。也是试验后平均不确定性＝携载的信息信息量为熵 • 单位：以2为底，比特/符号 • 为什么要用熵这个词，与热熵的区别？
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概率复习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了

第二章-信息论基本概念(2)(1)

(四）平均互信息（平均交互信息熵/交互熵）四平均互信息（平均交互信息熵交互熵）交互熵
前面所述熵为单符号信源情况，前面所述熵为单符号信源情况，是最简单的离散信源。事务是普遍联系的，两个随机变量，之间信源。事务是普遍联系的，两个随机变量X，Y之间也是相互联系的，比如：在某种程度上也是相互联系的，比如：
1、离散无记忆信源扩展信源、离散无记忆信源(扩展信源扩展信源) 概率空间：（1）定义：若单符号离散信源概率空间：）定义：若单符号离散信源X概率空间
X a1 , a2 , L , ai , L , aq P( X ) = p(a ), p(a ),L , p(a ),L , p(a ) , ∑ p(ai ) = 1 i 2 i q 1
0( p )
q
X
[例] 二进制对称信道例
1( p )
q q
q
0
Y
1
H ( X ) = H ( p) = − p log p − p log p
I(X;Y)
H (Y / X ) = H (q) = −q log q − q log q
H (Y ) = H ( pq + pq)
0
1-H(q) 0.5 I(X;Y) H(p) 1 p
5. 数据处理定理 I(X;Z) ≤ I(X;Y) I(X;Z) ≤ I(Y;Z) [意义信息不增原理意义] 信息不增原理原理—— 意义处理，每经一次处理，可能丢失一部分信息 X Y P(Z/;Y) = H(X) – H(X/Y) = H(Y) – H(Y/X) H(XY) = H(X) + H(Y/X) = H(Y) + H(X/Y) I(X;Y) = H(X) + H(Y)－ H(XY) －

信息论与概率的联系

信息论与概率的联系信息论是一门研究信息传输和处理的学科，而概率论是一门研究随机现象的学科。

尽管两者看似不同，但实际上它们之间存在着密切的联系。

本文将探讨信息论与概率的联系，并阐述它们在现实生活中的应用。

一、信息论的基本概念信息论是由克劳德·香农于1948年提出的，它主要研究信息的度量和传输。

信息的度量通常使用信息熵来衡量，信息熵越大，信息的不确定性就越高。

信息熵的计算公式为：H(X) = -ΣP(x)log2P(x)其中，H(X)表示随机变量X的信息熵，P(x)表示随机变量X取值为x的概率。

二、概率论的基本概念概率论是研究随机现象的规律性的数学理论。

它通过概率的定义和性质，研究随机事件的发生规律和概率分布。

概率的计算通常使用频率概率和古典概率等方法。

三、信息论与概率的联系信息论与概率论之间存在着紧密的联系。

首先，信息熵可以看作是概率分布的度量，它反映了随机变量的不确定性。

信息熵越大，表示随机变量的不确定性越高，即信息量越大。

而概率分布越均匀，信息熵越大。

其次，信息论中的条件熵和互信息等概念与概率论中的条件概率和联合概率有着密切的关系。

条件熵表示在已知某一事件发生的条件下，另一事件的不确定性。

互信息表示两个事件之间的相关性，它可以通过条件熵和边际熵的差值来计算。

这些概念在概率论中有着重要的应用，可以用来描述随机事件之间的关联程度。

最后，信息论中的编码理论和信道容量等概念也与概率论有着密切的联系。

编码理论研究如何将信息进行编码和解码，以便在传输过程中减少误差和提高传输效率。

而信道容量则表示在给定信道条件下，能够传输的最大信息量。

这些概念都涉及到概率分布和概率计算，因此与概率论有着紧密的联系。

四、信息论与概率的应用信息论与概率论的联系在现实生活中有着广泛的应用。

首先，在通信领域中，信息论的概念和方法被广泛应用于数据压缩、信道编码和纠错编码等方面。

通过对信息的压缩和编码，可以提高数据传输的效率和可靠性。

第二章基本信息论1_信源不确定性-精品文档

X 1 0 例 2 ： pX ( ) 0 . 50 . 5
X 0 1 2 3 4 5 6 7 8 9 例 3 ： p ( X ) 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1
信息速率和信道容量的概念，离散有噪
信道的熵速率，可疑度的物理解释，连续有噪信道的信道容量
三种多用户信道模型及其信道容量信源编码原理，等长编码和变长编码
常用的信源编码：山农费诺编码、哈夫
曼编码和L-D编码
本章作业
P113： 1-9，11，15，17，20，21
2.1 信源及信源的不确定性
发生概率小的事件不确定性大，发生概率大的事件不确定性小 4）两个独立事件的联合信息量应等于它们分别信息量之和
三、信息度量
信源消息 x i 的自信息量：
Ix () l o g p () x i i
表示信源发出一个消息 x i 所含有（或所提供）的非平均自信息量
ห้องสมุดไป่ตู้
也表示通信发生前，信源发送消息 x i 的不确定度。
n
p (x gp (x i )lo i)
即信源的非平均不确定度
条件自信息量
I (/ x ) l o g p (/ x ) i y j i y j
y 已知的条件下，发生 x 所带来的信息量 j i
信宿接收到消息 y j 后，对信源发送消息 x i 尚存的不确定度。
从信宿端看，信息量的定义：
I（信息量）=不肯定程度的减少量
log p( xi / y j ) p( xi )

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

X
A BCD E
P（x）
＝ 0.2
0.2
0.2 0.2 0.2
H(X) = 5(-0.2log0.2) =2.32（比特）
X’
A B C DE
P（x’）
＝ 0.25
0.25
0.25 0.25
0
H(X’) =4(-0.25log0.25) =2（比特）
甲获得的信息 = H(X)-H(X’)=0.32（比特）还需要的信息＝2.32-0.32=2（比特）
2、等概时为单调增函数：f
(
1 N
,
1 N
,...,
1 N
)

g(N
)
是N的增函数
3、可加性条件：当随机变量的取值不是通过一次试验而是若干次试验确定取值时，X在各次试验中的不确定性可加。
结论：唯一的形式：
N
f ( p1, p2 , , pn ) C pn log pn
n 1
C=常数>0，即：
自信息：
➢ 信息量的直观定义：
收到某消息获得的信息量＝不确定性减少的量＝(收到此消息前关于某事件发生的不确定性) －(收到此消息后关于某事件发生的不确定性)
在无噪声时，通过信道的传输，可以完全不失真地收到所发的消息，收到此消息后关于某事件发生的不确定性完全消除，此项为零。因此得收到某消息获得的信息量＝收到此消息前关于某事件发生的不确定性＝信源输出的此消息中所含有的信息量
不确定性＝携载的信息
“信息是事物运动状态或存在方式的不确定性的描述”
－－香农
信息是随机的可用随机变量的不确定性或随机性作为信息的表示
§2.1.1 熵的引入-2
问题2：
如何度量信息？如何计算消息的信息量？
– 某些消息比另外一些消息传递了更多的信息。
– 类似于火车运输货物多少用“货运量”衡量
消息信号传输信息多少用“信息量”衡量 – 概率论知识：
H (P) 0
熵函数的性质－－非负性
证明二：0
x
1
有：log
x

x 1
或：log
1 x
1
x
4
3.5
3
2.5
图示为y x与z 2x1
2
1.5
两条曲线对比
1
0.5
0
熵是随机变量平均不确定性的描述
– X试验中发生a1,获得的自信息为-log0.01=6.64(bit) – Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) – H（）反映的是平均的不确定性
例2.3 设某班学生在一次考试中获优（A）、良（B）、中（C）、及格（D）和不及格（E）的人数相等。当教师通知某甲：“你没有不及格”，甲获得了多少比特信息？为确定自己的成绩，甲还需要多少信息？
N
H ( p1, p2 ,..., pN ) pn log pn
n1
可加性条件进一步说明：当随机变量的取值不是通过一次试验而是若干次试验确定取值时，随机变量在各次试验中的不确定性可加，且其和始终与通过一次试验取得结果的不确定程度相同。
f ( p1, p2 ,L , pn1, q1, q2 ...qm )
I (xi )

lg
1 哈特
p( xi )
1奈特＝1.44比特 1哈特＝3.32比特
一般都采用以“2”为底的对数，为了书写简洁，有时把底数2略去不写。
➢ 信息论中“比特”与计算机术语中“比特”区别
如果p(xi)=1/2，则I(xi)=1比特。所以1比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。
信息论中“比特”是指抽象的信息量单位；计算机术语中“比特”是代表二元符号（数字）；
这两种定义之间的关系是：每个二元符号所能提供的最大平均信息量为1比特。
信源熵—平均信息量
➢ 自信息是一个随机变量：自信息是指某一信源发出某一消
息所含有的信息量。所发出的消息不同，它们所含有的信息
量也就不同。
自信息：
可以用泛函分析方法解得满足条件的函数形式为
f
[ p(xi )]
log
1 p( xi )
用概率测度定义信息量：
设离散信源X，其概率空间为
X P( X
)

xp1(, x1),
x2 , p(x2
，xn ),, p(xn )

如果知道事件xi已发生，则该事件所含有的自信息定义为
➢ 平均信息量—信源熵：自信息的数学期望。也称为信源的
信息熵/信源熵/香农熵/无条件熵/熵函数/熵。
n
H (X )

E[log
] 1
p( xi )
p(xi ) log
1 p( xi )
i 1
➢ 信息熵的单位：取决于对数选取的底。一般选用以2为底，
其单位为比特/符号。
➢ 信息熵的意义：信源的信息熵H是从整个信源的统计特性来
例2.1: 试验前：
试验后：
X
12 3 4 5 6
＝
P（x）
1/6 1/6 1/6 1/6 1/6 1/6
H(x) = log6 = 2.58bits = 1.79nats
X1
12 3 4 5 6
P（x1）＝ 0
1
0
00
0
H(x1) = 0 H(x) － H(x1) = log6
例2.2:
1 2345678
I (xi )

log
1 p( xi )
自信息含义
➢ 当事件xi发生以前：表示事件xi发生的不确定性。 ➢ 当事件xi发生以后：表示事件xi所含有（或所提供）的信
息量。在无噪信道中，事件xi发生后，能正确无误地传输到收信者，所以I(xi)可代表接收到消息xi后所获得的信息量。这是因为消除了I(xi)大小的不确定性，才获得这么大小的信息量。
f ( p1, p2 ,L
, pn1, pn )
pn
f
(
q1 pn
,
q2 pn
,L
, qm ) pn
q1 q2 ...qm pn
熵的定义
X为一随机变量样本空间X＝{x1,x2,….xn} pi或p(xi)是输出为xi的概率
定义
n
n
H (X) p(xi ) log p(xi ) pi log pi
息熵为负热熵。
二者还有一个重大差别：热熵是有量纲的，而香农熵是无量纲的。
§2.1.3 熵可以作为信息的量度
对于随机变量而言：
试验前－－各取值的概率分布（不确定性）
试验后－－
多次试验后－－
一定的确切性确切取值
（不确定性）
（0）
通过试验－－消除了不确定性－－获得了信息
信息量＝获得的信息的数量＝熵的差值
0.99 a2 H(Y) = -0.5log0.5-0.5log0.5 =1（比特/符号） 0.5
Z
＝ a1 a2 a3 a4 a5
P（z）
0.2 0.2 0.2 0.2 0.2
H(Z) = 5(-0.2log0.2) =2.32（比特/符号）
熵的物理含义
熵是随机变量的随机性的描述。
– 变量Y、Z等概，随机性大，变量X不等概，则随机性小 – 等概情况下，可取值越多，随机性越大 – H（）是描述随机变量所需的比特数
（1）信息量是概率的非负函数，即
I=f［P(x)］
（2） P(x)越小， I越大；反之， I越小，且
P(x)→1时， I→0
P(x)→0时， I→∞
（3）若干个互相独立事件构成的消息，所含信息量等于各独立事件信息量之和，也就是说，信息具有相加性，即
I［P(x1)P(x2)…］=I［P(x1)］+I［P(x2)］+…
熵的引入
不确定性分析：
随机变量X、Y、Z
X
a1 a2
＝
小
P（X）
0.01 0.99
Y
a1
a2
P（Y）＝ 0.5
0.5
Z P（Z）
＝ a1 0.2
a2 0.2
a3 a4 a5 0.2 0.2 0.2
大
问题：1、能否度量？
2、如何度量？？
香农指出：存在熵函数满足先验条件
1、连续性条件：f ( p1, p2 , , pn ) 是 pn 的连续函数
事件出现的可能性愈小，概率愈小； – 该事件是否会出现的不确定性就愈大
事件出现的可能性愈大，概率愈大 – 该事件是否会出现的不确定性就愈小
– 信息量与消息出现的概率有关。
§2.1.1 熵的引入-3
研究思路一：
– 自信息－－概率空间的平均自信息－－熵
研究思路二：
– 直接定义
自信息：
研究思路一
分析信息的特征，信息量（消息）关系式应反映如下规律：
H(X)表示在获知哪个灯泡是坏的情况前，关于哪个灯泡已损坏的平均不确定性，即要确定哪个灯泡是坏的，至少需要获得3个bit 的信息量，才能完全消除不确定性。
熵的物理含义
观察随机变量X、Y、Z
X P（x）＝
Y P（y）＝
a1 0.01 a1 0.5
a2 H(X) = -0.01log0.01-0.99log0.99 =0.08（比特/符号）
熵H(X)--通过观测随机变量X所获得的平均信息量
进一步理解：平均－－统计平均（区别与算术平均）单位－－抽象的信息单位，无量纲（量纲≠单位）比特－－不同于计算机中的“比特” 计算机：代表一个二元数字(binary digit) 信息：对数取2为底时信息量的单位关系：每一个二元数字所能提供的最大平均信息量为1比特