第二章：信息论的基本概念

合集下载

计算机科学中的信息论与编码

计算机科学中的信息论与编码信息论与编码是计算机科学中的重要理论，它们对于信息的传输、存储和处理起着至关重要的作用。

信息论主要研究信息的度量和传输的可靠性，而编码则是将信息以有效的方式表示和传递的技术手段。

本文将介绍信息论和编码在计算机科学中的应用，并探讨其对现代计算机技术的影响。

一、信息论的基本概念信息论是由香农在1948年提出的一门学科。

它通过熵和信息量的概念，量化了信息的度量和传输的质量。

熵是信息理论中的关键概念，用来表示一个随机变量的不确定性和信息量的平均值。

计算机系统中的信息可用二进制表示，因此信息的度量单位是比特（bit）。

二、信息论的应用1. 数据压缩信息论的一个重要应用是数据压缩。

利用信息论的原理，可以设计出高效的压缩算法，将大量的数据压缩成较小的文件。

常见的数据压缩算法有哈夫曼编码、LZ编码等。

这些算法通过统计字符或者字符组合出现的频率，将频率高的字符用较短的编码表示，从而实现数据的有损或无损压缩。

2. 信道编码信道编码是信息论的另一个重要应用领域。

在数据传输过程中，由于信道噪声等原因，数据容易出现误码。

为了提高传输的可靠性，可以使用信道编码技术。

常见的信道编码方案有纠错码和调制码，它们可以通过增加冗余信息或者改变信号的特性，提高传输系统的容错能力。

三、编码的基本原理编码是将信息转换成特定的符号或者编码字，以便能够有效地表示和传输。

在计算机科学中，常见的编码方式有ASCII码、Unicode和UTF-8等。

ASCII码是一种最早的字符编码方式，它将每个字符映射为一个7位的二进制数。

Unicode是一种全球通用的字符编码标准，它使用16位或32位的二进制数表示字符。

UTF-8则是Unicode的一种变体，它采用可变长度的编码方式，可以表示任意字符。

四、编码的应用1. 信息存储编码在信息存储中起着关键作用。

计算机系统中的文件和数据都需要以某种方式进行编码才能存储和读取。

不同的数据类型使用不同的编码方式，例如图片可以使用JPEG、PNG等图像编码格式，音频可以使用MP3、AAC等音频编码格式。

信息论名词解释

信息论部分基本概念和名词术语消息(或称为符号)：信息的数学表达层，它虽不是一个物理量，但是可以定量地加以描述，它是具体物理信号的进一步数学抽象，可将具体物理信号抽象为两大类型：自信息量：一个随机事件发生某一结果后所带来的信息量成为自信息量，定义为其发生概率对数的负值。

平均互信息：表达平均互信息量的熵I(X;Y), 是确定通过信道的信息量的多少，因此称它为信道传输率或传信率。

I(X;Y)就是接收到符号Y后平均每个符号获得的关于后平均每个符号获得的关于X的信息量——平均意义上每传送一个符号流经信道的平均信息量。

离散平稳无记忆信源：假定随机变量欲裂的长度是有限的，如果信源输出地信息序列中，符号之间的无相互依赖关系，则称这类信源为离散平稳无记忆信源。

信源冗余度：信源熵的相对率为信源实际的信息熵与同样符号数的最大熵的比值：η=H无穷/H0，定义信源的冗余度为1减去信源熵的相对率η，即ξ=1-η。

信道容量：信道在单位时间上能够传输的最大信息量。

平稳信源：概率分布函数与时间起点无关，平稳信源是有记忆的，记忆的长度有限。

香农信息：信息是事物运动状态或存在方式的不确定性的描述。

无记忆信道：在某一时刻信道的输出消息仅与当时的信道输入消息有关，而与前面时刻的信道输入或输出消息无关。

有记忆信道：在任意时刻信道的输出消息不仅与当时信道的输入消息有关，而且还与以前时刻的信道输入消息和（或）输出消息有关。

信道疑义度(含糊度) H(X|Y)：表示在输出端接收到Y后，发送端X尚存的平均不确定性。

这个对X尚存的不确定性是由于干扰引起的。

信道散布度H(Y|X)：表示在已知X后，对于输出Y尚存的平均不确定性；平均失真度：定义平均失真度为失真函数的数学期望，及d（xi,yi）在X和Y 得联合概率空间P(XY)中的统计平均值：D=E[D（xi,yi）] ，起是在平均的意义上，从总体上对整个系统失真情况的描述。

失真函数d(xi,yj)：是人为规定的，给出规定时应该考虑解决问题的需要以及失真可能引起的损失、风险和主观上感觉的差别等因素。

第二章-信息论基本概念（3）

H ( X m1 / X1 X 2 X m )
这表明：m阶马尔可夫信源的极限熵H 就等于m阶条件熵，记为H m 1
akm )
设状态 Ei (ak1 ak2 akm ),信源处于状态Ei时，再发出下一个符号akm1
此时，符号序列 (ak2 ak3 a ) km1 就组成了新的信源状态
Ej (ak2 ak3 a ) km1 ，这时信源所处的状态由 Ei 转移到 Ej
状态转移图(香农线图)
0:0.5 E1
1:0.5 E3
1
0:0.6
E2
1:0.4
【注】E1、E2、E3是三种状态，箭头是指从一个状态转移到另
一个状态，旁边的数字代表发出的某符号和条件概率p(ak/Ei) 。这就是香农提出的马尔可夫状态转移图，也叫香农线图。
二、马尔可夫信源
若信源输出的符号和信源所处的状态满足以下两个条件，则称为马尔可夫信源：
a1 a2
p(sl
E2
/ xl
a3
sl1 E1 ) 0 sl1 E1 ) 1 sl1 E1 ) 1 sl1 E1 ) 0
可求得状态的一步转移概率：
1
2
1 4
0
1 4
0
0
1 2
1 2
0
0
p(E j
/
Ei
)
0
3
1
0
0
44
0
0
0
0
1
0
0
0
3 4
1 4
此信源满足马尔可夫的两个条件，所以是马尔可夫信源，并且是齐次马尔可夫信源。
对于这个随机序列，若有：
p(xn Sin | xn1 Sin1 ,..., x1 Si1 ) p(xn Sin | xn1 S ) in1

第二章信息论基本概念

i 1
一个信源总是包含着多个符号消息，各个符号消息又按概率空间的先验概率分布，它的不确定度是各个符号的不确定度的数学期望（即概率加权的统计平均值）它的熵（平均不确定度）H（X）定义为： H（X）＝ E[I(x)]＝ P(X)I(X) ＝－ P(X)log2P(X) X
X
若信源X中的符号的概率空间简化表示为： X1，X2， „，XN X，PX＝ P1， P2，„， PN 则熵（平均不确定度）H（X）可写成： N H（X）＝－ PilogPi 注意：∵ I(X)为非负， P(X)为非负，且0≤P(X)≤1 ∴ H（X）也为非负
0.8 0.2
其中X1表示摸出的球为红球事件,X2表示摸出的球为白球事件
若告知摸出的是红球，则事件的自信息量为 I(X1)＝－logP(X1)＝－log20.8 bit 若告知摸出的是白球，则事件的自信息量为 I(X2)＝－logP(X2)＝－log20.2 bit 若取回后又放回摸取，如此摸取n此，红球出现的次数nP(X1)，白球出现的次数为nP(X2)，则总信息量为 I＝nP(X1)I(X1)＋nP(X2)I(X2) 而平均随机摸取一次所获得的信息量为 H（X）＝ 1/n [nP(X1)I(X1)＋nP(X2)I(X2)] ＝－[P(X1)logP(X1)＋P(X2)logP(X2)] 2 ＝－ P(Xi)logP(Xi)
符号xi对联合事件符号yj zk之间的互信息量定义为： I(xi ; yj zk)＝ logP(xi|yj zk)/ P(xi) „„„„*
三. 条件互信息量含义：在给定zk条件下，xi与yj之间的互信息量
条件互信息量I(xi ; yj|zk)定义为： I(xi ; yj|zk)＝ logP(xi|yj zk)/ P(xi|zk) 从上式，可使*式写成： I(xi ; yj zk)＝ I(xi ; zk) ＋ I(xi ; yj|zk) 推导如下: I(xi ; yj zk)＝ log P(xi|yj zk)/ P(xi)

信息论编码第二章信息度量1

50个红球，50个黑球
Y
20个红球，其它4种颜色各20个
Z
问题：能否度量、如何度量？？
2.3.2信源熵数学描述
信源熵
• 定义：信源各个离散消息的自信息量的数学期望（即概率加权的统计平均值）为信源的平均信息量，一般称为信源的信息熵，也叫信源熵或香农熵，有时也称为无条件熵或熵函数，简称熵。 • 公式： n 1 H ( X ) = E[ I ( xi )] = E[log2 ] = −∑ p( xi ) log2 p( xi ) p( xi ) i =1 • 熵函数的自变量是X,表示信源整体，实质上是无记忆信源平均不确定度的度量。也是试验后平均不确定性＝携载的信息信息量为熵 • 单位：以2为底，比特/符号 • 为什么要用熵这个词，与热熵的区别？
3
( 2)
∑ p ( x ) = 1, ∑ p ( y
i =1 m i j =1
n
m
j
) = 1,∑ p ( xi / y j ) = 1,
i =1 n
n
概率复习
∑ p( y
j =1 n
j
/ xi ) = 1, ∑ ∑ p ( xi y j ) = 1
j =1 i =1 m
m
( 3) ( 4) (5)
1
对天气x1 ,Q p( x1 / y1 ) = 0,∴不必再考虑x1与y1之间信息量
对天气 x 2 : I ( x 2 : y 1 ) = log
2
p ( x 2 / y1 ) = log p ( x2 )
2
1/ 2 = 1( bit ) 1/ 4
同理 I ( x 3 : y 1 ) = I ( x 4 : y 1 ) = 1( bit ), 这表明从 y 1 分别得到了

第二章-信息论基本概念(2)(1)

(四）平均互信息（平均交互信息熵/交互熵）四平均互信息（平均交互信息熵交互熵）交互熵
前面所述熵为单符号信源情况，前面所述熵为单符号信源情况，是最简单的离散信源。事务是普遍联系的，两个随机变量，之间信源。事务是普遍联系的，两个随机变量X，Y之间也是相互联系的，比如：在某种程度上也是相互联系的，比如：
1、离散无记忆信源扩展信源、离散无记忆信源(扩展信源扩展信源) 概率空间：（1）定义：若单符号离散信源概率空间：）定义：若单符号离散信源X概率空间
X a1 , a2 , L , ai , L , aq P( X ) = p(a ), p(a ),L , p(a ),L , p(a ) , ∑ p(ai ) = 1 i 2 i q 1
0( p )
q
X
[例] 二进制对称信道例
1( p )
q q
q
0
Y
1
H ( X ) = H ( p) = − p log p − p log p
I(X;Y)
H (Y / X ) = H (q) = −q log q − q log q
H (Y ) = H ( pq + pq)
0
1-H(q) 0.5 I(X;Y) H(p) 1 p
5. 数据处理定理 I(X;Z) ≤ I(X;Y) I(X;Z) ≤ I(Y;Z) [意义信息不增原理意义] 信息不增原理原理—— 意义处理，每经一次处理，可能丢失一部分信息 X Y P(Z/;Y) = H(X) – H(X/Y) = H(Y) – H(Y/X) H(XY) = H(X) + H(Y/X) = H(Y) + H(X/Y) I(X;Y) = H(X) + H(Y)－ H(XY) －

信息论与概率的联系

信息论与概率的联系信息论是一门研究信息传输和处理的学科，而概率论是一门研究随机现象的学科。

尽管两者看似不同，但实际上它们之间存在着密切的联系。

本文将探讨信息论与概率的联系，并阐述它们在现实生活中的应用。

一、信息论的基本概念信息论是由克劳德·香农于1948年提出的，它主要研究信息的度量和传输。

信息的度量通常使用信息熵来衡量，信息熵越大，信息的不确定性就越高。

信息熵的计算公式为：H(X) = -ΣP(x)log2P(x)其中，H(X)表示随机变量X的信息熵，P(x)表示随机变量X取值为x的概率。

二、概率论的基本概念概率论是研究随机现象的规律性的数学理论。

它通过概率的定义和性质，研究随机事件的发生规律和概率分布。

概率的计算通常使用频率概率和古典概率等方法。

三、信息论与概率的联系信息论与概率论之间存在着紧密的联系。

首先，信息熵可以看作是概率分布的度量，它反映了随机变量的不确定性。

信息熵越大，表示随机变量的不确定性越高，即信息量越大。

而概率分布越均匀，信息熵越大。

其次，信息论中的条件熵和互信息等概念与概率论中的条件概率和联合概率有着密切的关系。

条件熵表示在已知某一事件发生的条件下，另一事件的不确定性。

互信息表示两个事件之间的相关性，它可以通过条件熵和边际熵的差值来计算。

这些概念在概率论中有着重要的应用，可以用来描述随机事件之间的关联程度。

最后，信息论中的编码理论和信道容量等概念也与概率论有着密切的联系。

编码理论研究如何将信息进行编码和解码，以便在传输过程中减少误差和提高传输效率。

而信道容量则表示在给定信道条件下，能够传输的最大信息量。

这些概念都涉及到概率分布和概率计算，因此与概率论有着紧密的联系。

四、信息论与概率的应用信息论与概率论的联系在现实生活中有着广泛的应用。

首先，在通信领域中，信息论的概念和方法被广泛应用于数据压缩、信道编码和纠错编码等方面。

通过对信息的压缩和编码，可以提高数据传输的效率和可靠性。

第二章基本信息论1_信源不确定性-精品文档

X 1 0 例 2 ： pX ( ) 0 . 50 . 5
X 0 1 2 3 4 5 6 7 8 9 例 3 ： p ( X ) 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1 0 . 1
信息速率和信道容量的概念，离散有噪
信道的熵速率，可疑度的物理解释，连续有噪信道的信道容量
三种多用户信道模型及其信道容量信源编码原理，等长编码和变长编码
常用的信源编码：山农费诺编码、哈夫
曼编码和L-D编码
本章作业
P113： 1-9，11，15，17，20，21
2.1 信源及信源的不确定性
发生概率小的事件不确定性大，发生概率大的事件不确定性小 4）两个独立事件的联合信息量应等于它们分别信息量之和
三、信息度量
信源消息 x i 的自信息量：
Ix () l o g p () x i i
表示信源发出一个消息 x i 所含有（或所提供）的非平均自信息量
ห้องสมุดไป่ตู้
也表示通信发生前，信源发送消息 x i 的不确定度。
n
p (x gp (x i )lo i)
即信源的非平均不确定度
条件自信息量
I (/ x ) l o g p (/ x ) i y j i y j
y 已知的条件下，发生 x 所带来的信息量 j i
信宿接收到消息 y j 后，对信源发送消息 x i 尚存的不确定度。
从信宿端看，信息量的定义：
I（信息量）=不肯定程度的减少量
log p( xi / y j ) p( xi )

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

凸性的概念：若对区域D中任意两点
(1 ) D, 0 1
则称：区域D是凸域。
理解：若两点和在凸域D内，则和之间的线段也整个在区域D内。
在[a,b]上定义的下凸函数
f ( p ) (1 ) f (q )
f [p (1 )q ]
联合熵与条件熵
联合熵
物理意义：二元随机变量不确定性的量度
联合熵、条件熵的关系：
H ( XY ) H ( X ) H (Y / X ) H (Y ) H ( X / Y )
当X,Y相互独立时，有：
p (ak , b j ) p (ak ) p (b j )
p ( ak | b j ) p ( a k ) p (b j | ak ) p (b j )
X1 1 2 ＝ P（x1） 1/4 1/4
H(x) － H(x1) = 1－－获得1bit信息量第二次测量后： X2 1 2 ＝ P（x2） 1/2 1/2 3 0 4 0 5 0 6 0 7 0 8 0
H(x2) = log2 = 1(bit/符号)
H(x1) － H(x2) =1 －－获得1bit信息量
第三次
测量后：
X3 ＝ P（x3）
1
1
2
0
3
0
4
0
5
0
6
0
7
0
8
0
H(x3) = log1 = 0(bit/符号)
H(x2) － H(x3) =1 －－获得1bit信息量
H(X)表示在获知哪个灯泡是坏的情况前，关于哪个灯泡已损坏的平均不确定性，即要确定哪个灯泡是坏的，至少需要获得3个bit的信息量，才能完全消除不确定性。？？必须测3次吗？？
log pn 0
所以：
H ( P) 0
熵函数的性质－－非负性
证明二：
x 0
有：所以：
log x x 1
或：
log 1 1 x x
N
H ( P) pn log
n 1
N
1 pn
pn (1 pn ) 0
n 1
熵函数的性质－－上凸性
和， D, D 均有：
函数件

f ( p1 , p2 ,, pn ) 是随机变量不确定性的量度，若此函数满足条
连续性等概时单调增函数性可加性则此函数必为
f ( p1 , p2 ,, pn ) C pn log pn
n 1
N
证明：作业二
熵函数的性质－－唯一性
唯一性－－限制条件 D.A.Fadiev:
熵是随机变量平均不确定性的描述

熵函数的性质
香农熵是概率矢量的非负的上凸函数

性质1：非负性
性质2：上凸性性质3：唯一性（连续性、可加性、等概单调增）

熵函数的性质－－非负性
证明一：而：故：
H ( p1 , p2 ,..., p N ) pn log pn
n 1
N
0 pn 1
Y
Z
问题：能否度量、如何度量？？
香农指出：存在熵函数满足先验条件
1、连续性条件：
f ( p1 , p2 ,, pn ) 是 pn
的连续函数
2、等概时为单调增函数：
1 1 1 是N的增函数 f ( N , N ,..., N ) g ( N )
3、可加性条件：多次试验确定取值时，X在各次试验中的不确定性可加。
香农熵与热力学中热熵的关系
熵
这个名词是仙农从物理学中的统计热力学借用过来的，在物理学中称它为热熵是表示分子混乱程度的一个物理量，这里，仙农引用它来描述信源的平均不确定性，含义是类似的。但是在热力学中已知任何孤立系统的演化，热熵只能增加不能减少；而在信息论中，信息熵正相反，只会减少，不会增加。所以有人称信息熵为负热熵。二者还有一个重大差别：热熵是有量纲的，而香农熵是无量纲的。
熵的物理含义
观察随机变量X、Y、Z
X ＝ P（x） 0.01 a1 ＝ P（z） Z ＝ a1 0.5 a2 a3 0.5 a4 a5 0.99 a2 a1 a2 H(X) = -0.01log0.01-0.99log0.99 =0.08（比特/符号）
Y
H(Y) = -0.5log0.5-0.5log0.5 =1（比特/符号） H(Z) = 5(-0.2log0.2) =2.32（比特/符号）
而p=0或1时，H(p)＝0，故二元熵函数的曲线如图所示：
H(p)/bit 1.0
等概时（p=0.5)：
随机变量具有最大的不确定性，
p=0,1时：
随机变量的不确定性消失。
0
0.5 二元熵函数曲线
1.0
p
熵函数的性质－－唯一性
定理2.2 设离散随机变量的概密矩阵为
X P（x）＝ a1 a2 p1 p2 … … aN pN
结论：唯一的形式：
f ( p1 , p2 , , pn ) C pn log pn
n 1
N
C=常数>0，即：
H ( p1 , p2 ,..., p N ) pn log pn
n 1
N
熵的单位
信息熵的单位与公式中的对数取底有关。通信与信息中最常用的是以2为底，这时单位为比特（bit）；理论推导中用以e为底较方便，这时单位为奈特（Nat）；工程上用以10 为底较方便，这时单位为笛特（Det）。它们之间可以引用对数换底公式进行互换。比如： 1 bit = 0.693 Nat = 0.301 Det
K
J
p(ak , b j ) log p(ak | b j )
K J p ( a k ,b j ) p (b j )
p(ak , b j ) log p(ak ) ＋ p(ak , b j ) log
k 1 j 1 p ( a k ,b j ) p ( ak ) p ( b j )
I ( X ;Y ) H ( X ) H ( X | Y )
I (Y ; X ) H (Y ) H (Y | X )
离散互信息
I ( X ;Y )
＝
I (Y ; X )
证明略。
I ( X ; Y ) 和I (Y ; X ) 是随机变量X和Y之间相互提供的信息量－－称为互信息是完全确切的
P（y）
0.2 0.2 0.2 0.2 0.2
熵的物理含义
熵是随机变量的随机性的描述。

变量Y、Z等概，随机性大，变量X不等概，则随机性小等概情况下，可取值越多，随机性越大 H（）是描述随机变量所需的比特数 X试验中发生a1,获得的自信息为-log0.01=6.64(bit) Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) H（）反映的是平均的不确定性
上节课内容回顾
信息、信息科学与信息论

信息、信息技术、信息科学、信息理论
信息论研究的对象、目的和内容
信息论发展简史与现状
信息论的形成与发展信息论方法的应用及其取得的成果

信息论的基本概念
杨杰
熵
熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
理解：表明一般情形下：条件熵总是小于无条件熵。
注意：这是平均意义上的
熵
熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
• 连续随机变量下的熵与互信息
离散互信息
I ( X ;Y )
定义：离散随机变量X和Y之间的互信息
a
p
p (1 )q
q
b
p
在[a,b]上定义的上凸函数
f [p (1 )q ] f ( p ) (1 ) f (q )
a
p
p (1 )q
q
b
p
熵函数的性质—上凸性
上凸性：
熵函数具有凸性，即H（P）是P的上凸函数。
证明：作业一
熵函数的性质
熵可以作为信息的量度
对于随机变量而言：
试验前－－试验后－－
多次试验后－－
各取值的概率分布（不确定性）一定的确切性（不确定性）
确切取值
（0）
熵
通过试验－－消除了不确定性－－获得了信息－－信息的数量＝
对于单个消息随机变量U，出现某个消息，对应概率为这时可获得的信息量为 I ( pi )，则有：
连续性可加性对称性
A.I.Khinchin:
连续性可加性极值条件：等概事件集合中零概率事件不影响确定性
其它熵
联合熵与条件熵
一个随机变量----两个随机变量----多个随机变量
则
条件熵：
物理含义：
已知一随机变量的情况下，对另一随机变量不确定性的量度观测Y以后，仍保留的关于X的不确定量。
例1.2:
试验前：
第一次测量后：
1 3
2 2
3
4 1
5
6
7
8
X ＝ P（x）
1
2
3 1/8 3 1/4
4 1/8 4 1/4
5 1/8 5 0
6
7
8
1/8 1/8
1/8 1/8 1/8 6 0 7 0 8 0
H(x) = log8 = 3(bit/符号) H(x1) = log4 = 2(bit/符号)