信息论中信源熵之间关系的证明

合集下载

信源熵

I ( y j ) I ( y j | xi ) I ( y j )
19
条件互信息量
条件互信息量：在给定 zk 的条件下，xi 与 y j 之间的互信
I ( xi ; y j ) 0 后验概率先验概率，X 与 Y 统计独立
I ( xi ; y j ) 0 后验概率先验概率：由于信道受到干扰，信宿收到 y j 后不但未使 xi 的不确定度减少，反而增大了 xi 的不确定度两个消息之间的互信息不大于其中任一消息的自信息 I ( xi ; y j ) I ( xi ) I ( x i | y j ) I ( x i )
符号从平均意义上表征信源总体特性的一个量对于特定的信源其熵只有一个1log?niiipxpx????1logniiipxpx????信息熵的物理含义信源输出前表征信源的平均不确定度信源输出后表征信源发出的每个消息所能提供的平均信息量是一个统计量反映了随机变量x的随机性22统计热力学中熵是表示分子混乱程度的一个物理量在孤立系统中进行的自发过程总是沿着熵增加的方向进行它是不可逆的平衡态相应于熵取最大值的状态即熵增加原理香农借用热力学中熵来描述信源的平均不确定度在信息论中有用的信息熵只会减少不会增加所以信息熵也被称为负热熵ijxyxy
2
信源的分类
信源输出以符号形式出现的具体消息，其分类如下：按发送消息的时间和取值空间的分布离散信源单符号离散信源连续信源信源发出的按发出符号之间的关系消息是离散的、无记忆信源有限的或无限可列的符号，且一有记忆信源个符号代表一条按发送一条消息所需要的符号数完整的消息单个符号信源符号序列信源
三种表达形式等效
log log p( x i y j ) p( x i ) p( y j ) p( y j | x i ) p( y j )

信息论举例讲解信息量熵及互信息量

计算机科学领域的应用
数据压缩
计算机科学中的数据压缩技术同样基于信息论的原理，通过去除数据中的冗余信息，实现数据的压缩存储和传输。
加密与安全
信息论在密码学和安全领域也有广泛应用，如利用信息论中的混淆和扩散原则设计加密算法，保护信息的机密性和完整性。
机器学习
在机器学习中，信息论用于特征选择、模型评估等方面。例如，利用互信息来衡量特征与目标变量之间的相关性，从而进行
熵的性质
非负性
熵的值总是非负的，表示系统的不确定性或混乱程度不可能为负值。
可加性
对于相互独立的事件或系统，其熵的和等于各事件或系统熵的和，表示不确定性或混乱程度可以叠加计算。
最大值性
当系统中各个事件发生的概率相等时，该系统的熵达到最大值，表示此时系统的不确定性或混乱程度最高。
熵的计算举例
二进制信源熵的计算
举例1
对于离散随机变量 X 和 Y，其联合概率分布为 p(x,y)=[0.1, 0.2, 0.3, 0.4]，边缘概率分布为 p(x)=[0.3, 0.7] 和 p(y)=[0.5, 0.5]。根据互信息量的定义公式，可以计算出 I(X;Y)=0.1979。
举例2
对于连续随机变量 X 和 Y，其联合概率密度函数为 f(x,y)，边缘概率密度函数为 fX(x) 和 fY(y)。可以通过数值积分的方法计算出互信息量。例如，对于正态分布 N(0,1) 和 N(0,2) 的随机变量 X 和 Y，其互信息量为 I(X;Y)=0.5×log⁡2≈0.3466。
要点一
目的
通过举例讲解信息量、熵和互信息量的概念，使读者更好地理解和掌握这些概念。
要点二
意义
信息量、熵和互信息量是信息论中的基本概念，对于理解和应用信息论具有重要意义。通过本次讲解，读者可以更加深入地了解这些概念，并能够在实际问题中加以应用。同时，这些概念在其他领域也有广泛的应用，如计算机科学、控制论、统计学等，因此本次讲解也有助于读者在其他领域中更好地应用信息论的知识。

关于信源熵的实验报告讲解

实验报告实验名称关于信源熵的实验课程名称信息论与编码姓名xxx 成绩90班级电子信息1102学号**********日期2013.11.22地点综合实验楼实验一关于信源熵的实验一、实验目的1. 掌握离散信源熵的原理和计算方法。

2. 熟悉matlab 软件的基本操作，练习使用matlab 求解信源的信息熵。

3. 自学图像熵的相关概念，并应用所学知识，使用matlab 或其他开发工具求解图像熵。

4. 掌握Excel的绘图功能，使用Excel绘制散点图、直方图。

二、实验原理1. 离散信源相关的基本概念、原理和计算公式产生离散信息的信源称为离散信源。

离散信源只能产生有限种符号。

随机事件的自信息量I（xi）为其对应的随机变量xi 出现概率对数的负值。

即： I （xi ）= -log2p ( xi)随机事件X 的平均不确定度（信源熵）H（X）为离散随机变量 xi 出现概率的数学期望，即：2.二元信源的信息熵设信源符号集X={0，1} ，每个符号发生的概率分别为p(0)= p，p(1)= q，p+ q =1，即信源的概率空间为：则该二元信源的信源熵为：H( X) = - plogp–qlogq = - plogp –(1 - p)log(1- p)即：H (p) = - plogp –(1 - p)log(1- p) 其中 0 ≤ p ≤13. MATLAB二维绘图用matlab 中的命令plot( x , y) 就可以自动绘制出二维图来。

例1-2，在matlab 上绘制余弦曲线图，y = cos x ，其中 0 ≤ x ≤2。

>>x =0:0.1:2*pi； %生成横坐标向量，使其为 0，0.1，0.2，…，6.2>>y =cos(x )； %计算余弦向量>>plot(x ,y ) %绘制图形4. MATLAB求解离散信源熵求解信息熵过程：1) 输入一个离散信源，并检查该信源是否是完备集。

2015秋.信息论.第2章离散信源与信息熵

第2章离散信源与信息熵信号信号+干扰消息干扰消息信源编码器信道译码器信宿噪声源通信系统模型信息2.1 信源的分类和描述信源是信息的发源地，可以是人、生物、机器或其他事物。

信源的输出是包含信息的消息。

消息的形式可以是离散的或连续的。

信源输出为连续信号形式（如语音），可用连续随机变量描述。

连续信源←→模拟通信系统信源输出是离散的消息符号（如书信），可用离散随机变量描述。

离散信源←→数字通信系统离散信源…X i…X j…离散无记忆信源：输出符号Xi Xj之间相互无影响；离散有记忆信源：输出符号Xi Xj之间彼此依存。

3离散信源无记忆有记忆发出单个符号发出符号序列马尔可夫信源非马尔可夫信源y j将一粒棋子随意地放在棋盘中的某列；棋子放置的位置是一个随机事件；可看做一个发出单个符号的离散信源。

x i1212,,...,(),(),...,()m m x x x X P p x p x p x ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦就数学意义来讲，信源就是一个概率场，可用概率空间来描述信源。

由离散随机变量X 表示棋子位置：10()1,()1m i ii p x p x =≤≤=∑i x 其中，代表随机事件的某一结果。

2.2离散信源的信息熵信息的可度量性是信息论建立的基础；香农的信息论用事件发生概率的对数来描述事件的不确定性，得到消息的信息量，建立熵的概念。

2.2.1自信息量–定义2.1 任意随机事件x i 的自信息量定义为：i i i 1(x )log log (x )(x )I P P ==-小概率事件所包含的不确定性大，自信息量大。

大概率事件所包含的不确定性小，自信息量小。

概率为1的确定性事件，自信息量为零。

i i i 1(x )log log (x )(x )I P P ==-信息量的单位与公式中的对数取底有关。

以2为底，单位比特（bit ）；以e 为底，单位奈特（nat ）；()22log log ,log log ln log c a c b b x e x a==⋅–例：棋盘共8列，甲随手一放，将一枚棋子放在了第3列。

信息论三大定律

信息论三大定律信息论是由克劳德·香农在1948年提出的一种研究信息传输和处理的数学理论。

在信息论中，有三个重要的定律，分别是香农熵定律、数据压缩定律和通信容量定律。

本文将分别介绍这三个定律的基本原理和相关应用。

首先是香农熵定律。

香农熵是用来描述一个随机变量的平均不确定性的度量。

根据香农熵定律，信息的平均传输速率不能高于信源的熵。

这个定律可以通过以下公式表示：H(X) = - Σ (P(xi) * log2 (P(xi)))其中，H(X)表示随机变量X的熵，P(xi)表示X取值为xi的概率。

根据熵的定义，我们可以得出一个重要结论：当信源的熵为最大值时，信息传输效率最低，即传输的信息量最大。

所以，在信息传输中，我们希望尽量减小信源的熵，以提高信息传输的效率。

香农熵定律的应用广泛。

例如，在数据压缩中，我们可以根据香农熵定律，对信源进行编码，以达到尽量减小信息传输量的目的。

另外，熵也被广泛应用于密码学领域，用来评估密码算法的安全性。

接下来是数据压缩定律。

数据压缩定律指的是，随机变量的数据可以通过适当的编码方法进行压缩，使其传输所需的位数尽可能减少。

数据压缩的目标是尽量减小数据的冗余性，从而节省传输带宽和存储空间。

数据压缩定律的应用非常广泛。

在计算机领域，我们经常使用各种压缩算法对数据进行压缩，例如无损压缩算法（如ZIP）和有损压缩算法（如JPEG）。

此外，数据压缩也被广泛应用于通信领域，以提高数据传输的效率和速率。

最后是通信容量定律。

通信容量定律指的是，在给定的信道条件下，最大传输速率是有限的。

通信容量取决于信道的带宽和信噪比（信号与噪声比）。

通信容量定律的应用包括无线通信、光纤通信等领域。

通过优化通信系统的参数，如信噪比、调制方式等，可以提高通信容量，从而提高数据传输的速率和可靠性。

综上所述，信息论的三大定律分别是香农熵定律、数据压缩定律和通信容量定律。

这些定律在信息传输和处理中起到了重要的作用，相关应用广泛。

信息熵的基本性质

pi pij log pi
pi pij log pij
i 1 j 1
i 1 j 1
nm
n
m
( pij ) pi log pi pi pij log pij
i1 j 1
i 1
j 1
n
n
m
pi log pi pi ( pij log pij )
电子信息工程学院
H ( p1, p2,, pq ) H ( p2, p3,, pq , p1) H ( pq , p1,, pq1)
电子信息工程学院
信息论
2.3 信息熵的基本性质
该性质表明：熵只与随机变量的总体结构有关，即与信源的总
体的统计特性有关。
X / 6
a3 1/ 2
,
Y P

a1 1/ 6
a2 1/ 2
a3 1/ 3
,
Z P

b1 1/ 3
b2 1/ 2
b3 1/ 6
差别：信源X与Y同一消息的概率不同，X与Z的具体信息不同，但它们的信息熵相同，表示三个信源总的统计特性相同，它们的信息数和总体结构是相同的。即：
该性质是非常明显的，因为随机变量X的所有取值的概率分布满足0 pi 时 1，熵是正值的，只有当随机变量是确知量时，其熵等于零。
这种非负性对于离散信源而言是正确的，但对于连续信源来说这一性质就不一定存在。以后可以看到，在差熵的概念下，可能出现负值。
电子信息工程学院
信息论
2.3 信息熵的基本性质
pi log
pi
0
。而其余分量
pi
0(i

j), lim p j 0

[数学]信源与信息熵

[数学] 信源与信息熵1. 信源在信息论中，信源是指产生和发送信息的原始来源。

它可以是一个物理设备，如计算机、手机或者是一个概念、事件等。

无论信源是什么，它都可以看作是一个随机变量，可以取多个可能的取值。

举个例子，考虑一个硬币的抛掷过程。

在这个例子中，信源可以是硬币的结果，可以是正面或反面。

硬币抛掷过程是一个随机过程，因此信源可以看作是一个随机变量。

2. 信息熵信息熵是信息论中一个重要的概念，用于度量信源的不确定性或者信息的平均量。

它是由信源的概率分布决定的。

假设信源有n个可能的取值，记为$x_1, x_2, \\ldots, x_n$。

每个取值n n出现的概率为n(n n)，满足$\\sum_{i=1}^n p(x_i)= 1$。

那么，信源的信息熵n定义为$$ H = -\\sum_{i=1}^n p(x_i) \\log p(x_i) $$信息熵的单位通常是比特（bits）或者纳特（nats）。

信息熵可以理解为平均需要多少比特或者纳特来表示信源的一个样本。

当信源的概率分布均匀时，信息熵达到最大值。

相反，当信源的概率分布集中在某几个取值时，信息熵较低。

3. 信息压缩信息熵在信息压缩中起到了重要的作用。

信息压缩是将信息表示为更短的形式，以便更有效地存储和传输。

根据信息论的哈夫曼编码原理，我们可以通过将频繁出现的符号用较短的二进制码表示，而将不经常出现的符号用较长的二进制码表示，从而实现信息的压缩。

在信息压缩过程中，我们可以根据信源的概率分布来选择合适的编码方式，以最小化编码长度和解码的平均长度之和。

4. 信息熵的应用信息熵在各个领域都有着广泛的应用。

在通信领域，信息熵可以用来评估信道的容量。

信道容量是一个信道在单位时间内可以传输的最大信息量。

通过计算信道的信息熵，我们可以确定如何更好地利用信道的带宽和传输速率。

在数据压缩领域，信息熵可以用来评估压缩算法的效果。

一个好的压缩算法应该能够将原始数据的信息量尽可能地减少，从而更高效地存储和传输数据。

2信源与信息熵2

i 1 j 1 n m
• 联合自信息量
I ( xi y j ) log2 p( xi y j )
• 条件自信息量和联合自信息量同样满足非负性和单调递减性。 • 关系
I ( xi y j ) log2 p( xi ) p( y j / xi ) I ( xi ) I ( y j / xi ) log2 p( y j ) p( xi / y j ) I ( y j ) I ( xi / y j )
信源熵与自信息量的关系1:定性
• 信源熵用以表征信源的平均不确定性：一个信源，无论是否输出符号，由于具有特定的概率统计特性，因此具有特定的熵值。 • 信息量则只有当信源输出的符号被接收者收到后才有意义。平均自信息量是能够消除信源不确定性时所需信息的量度，即收到一个信源符号，全部解除了这个符号的不确定性。或者说获得这样大的信息量后，信源不确定性就被消除了。
• 平均自信息量：表示信源中发出每个符号平均所能提供的信息量。它只与信源中各个符号出现的概率有关，可以用来表示信源输出信息的总体量度。 • 信源X的平均不确定度：表示总体平均意义上的信源符号的不确定度(不管是否发出)。数值上等于平均自信息量。 • 这个平均自信息量的表达式和统计物理学中热熵的表达式很相似。在统计物理学中，热熵是一个物理系统杂乱性(无序性)的度量。这在概念上也有相似之处。所以，可以把信源X的平均不确定度称为 “信源熵”。
例2-5/6
• 例2-5(P19):
• 例2-6(P19): • 由于符号间通常存在关联性，实际信息量往往远远小于理论值。
例2-7
• 例2-7(P19):二元信源的信息熵。
• 自信息量是针对无条件概率计算的，可以在数学上进行简单的推广：将无条件概率换为条件概率或联合概率。

第2章信源熵--马尔科夫信源及极限熵

“基于马尔可夫链的我国城乡居民收入演进分析”
信源熵
四、马尔科夫信源及其极限熵
1、马尔科夫信源
定义
N维离散平稳信源符号序列中第N个符号只与前m (≤N-1)个符号相关，该信源为m阶马尔科夫信源。
马尔科夫信源是离散平稳有限记忆信源，其记忆长度为m 。* m阶马尔科夫信源符号序列的长度N=m+1。
信源熵
信源熵
中华人民共和国
中国
*华人民*和国
*国
信源熵抽象描述
实际信源抽象为N维离散平稳信源，H∞是其熵率，即从理论上看，只要传送H∞就可以了。但是这必须掌握信源的全部统计特性，这显然是不现实的。实际中，只能掌握有限记忆长度m，其熵率用Hm+1近似，即需要传送Hm+1 与理论值相比，多传送了Hm+1-H∞ 由于Hm+1>H∞，表现在信息传输上存在冗余。
信源熵
0.2P(s1 ) 0.5P(s3 ) 0 0.2P(s1 ) P(s 2 ) 0.5P(s3 ) 0 0.5P(s 2 ) P(s3 ) 0.2P(s 4 ) 0 0.5P(s 2 ) 0.2P(s 4 ) 0
完备性
P(s1 ) P(s2 ) P(s3 ) P(s4 ) 1
信源熵
定义
信源的m阶极限熵Hm+1与N-1阶极限熵H∞的相对差为该信源的冗余度，也叫剩余度。
信源熵
马尔可夫链的应用排队理论和统计学中的建模，还可作为信号模型用于熵编码技术，如算术编码著名的LZMA数据压缩算法就使用了马尔可夫链与类似于算术编码的区间编码。生物学应用，人口过程，可以帮助模拟生物人口过程的建模。隐蔽马尔可夫模型还被用于生物信息学，用以编码区域或基因预测。马尔可夫链最近的应用是在地理统计学（geostatistics）中,被称为是“马尔可夫链地理统计学”。仍在发展过程中。

第二章基本信息论6_连续信源的熵

说明：相比放大前，信号放大后无穷大项小了 1/ 4 1比特，相对熵大了1比特，而绝对熵保持不变。 0
P( x )
1/ 2
1 dx1 3
0
x
P( x )
2 dx2
6 x
二、连续信源熵的性质
连续信源熵可正可负
H ( X )

1
p( x )log p( x )dx
1 1 lb dx 1比特/采样 3 2 2
2.6 连续信源的熵
一、连续信源熵的定义
连续信源：输出在时间和取值上都是连续的信源
连续信源
采样
离散信源
求信源熵
若连续信源的频带受限，为W，则根据采样定理，只要采样频率大于2W，则连续信源经采样离散后，不损失任何信息。 p( x ) 将连续信源离散化为离散信源，其信源熵为：
p( xi )dx log p( xi )dx
1
3
x
H ( X ) p( x )log p( x )dx

P( x )
1 1 lb dx 2 4 4 2比特/采样
6
1/ 4
0
2
信息量放大了2倍？
6 x
dx2 2dx1
1 1 lb lb dx2 2dx1 1 1 lb lb 2 dx1 1 1 lb dx1
H max ( X ) ln 2 e ln 2 eP 奈特/采样

1.433lb 2 eP 比特/采样
3、输出幅度平均值受限的信源
连续信源X输出非负信号的平均值受限，当其输出信号幅度为指数分布时，输出最大熵，最大熵随着X的数学期望（均值）的增大而增大。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

i=1
∑ ∑ =
−
m j=1
n i=1
p(aib j ) log
2
p(ai ) p(ai /b j )
p( ai
/bj )
∑∑ ∑∑ =
mn j=1 i=1
p(ai b j ) log 2
p(ai / bj ) − p(ai )
mn j=1 i=1
p(aibj ) log 2 p(ai / bj )
j
i
∑ ∑ = − [ p(bj ) p(ai / bj )] log 2 p(ai)
i
j
= H(X),
∑ ∑ 其中
p(bj ) p(ai/ bj ) = p(aibj ) = p(ai ) .
j
j
同理： H (Y) = H(Y / X ) + I (X;Y) ≥ H (Y / X ) .
3.1.2. H ( X ) = H ( XY ) − H(Y / X ) .
同理： I ( X ;Y ) = H (Y ) − H (Y / X ) .
∑ ∑ 3.4.2 证明:
I(X;Y )
=
n i =1
m j =1
p(aibj ) log
2
p(ai / bj ) p(ai )
∑ ∑ n m
1
= i =1 j =1 p(aibj )log 2 p(ai / bj ) p(bj / ai ) p(aibj )
nm
∑ ∑ 证明： H ( X / Y ) = −
p(aibj ) log 2 p(ai / bj )
i=1 j =1
nm
mn
∑∑ ∑ ∑ = −
p(aibj ) log 2 p(aibj ) + [ p(aib j )]log 2 p(bj )
i =1 j =1
j =1 i =1
nm
m
∑∑ ∑ = −
H ( XY) = H( X ) + H (Y / X ) = H(Y ) + H ( X / Y )
= H(X ) + H (Y) − I (X;Y)
= H( X / Y ) + H(Y / X ) + I ( X ;Y ) .
3.3.1 H ( XY) = H( X ) + H (Y / X ) = H(Y ) + H ( X / Y ) .
p(aibj ) log 2 p(ai / bj )
i =1 j =1
∑∑ n
=−
i=1
m j=1
p(aibj ) log 2
p(ai )
p(aibj ) p(ai )
∑ ∑ ∑ ∑ n m
n
= − [ p(aibj )]log 2 p(ai ) −
i=1 j=1
i=1
m j=1
p(aib j ) log
n
∑ ∑ ∑ 2.8 有关概率的基本公式： p(ai ) = 1， p(b j) = 1， p(ai / bj ) = 1，
i=1
j=1
i=1
m
nm
n
m
∑ ∑ ∑ ∑ ∑ p(bj / ai ) = 1 ，
p(aib j ) = 1 ， p(aibj ) = p(bj ) , p(aib j ) = p(ai ) ，
p(aibj )I (ai / bj )
j=1 i=1
mn
∑∑ = −
p(aib j ) log 2 p(ai / bj ) .
j =1 i=1
ⅱ：在已知随机变量 X 的条件下，随机变量 Y 的条件熵 H(Y / X) 为：
mn
∑ ∑ H (Y / X ) = E[ I (bj / ai )] =
p(aibj )I (bj / ai )
nm
nm
∑∑ ∑∑ = −
p(aibj ) log 2 p(aibj ) +
p(aibj ) log 2 p(ai / bj )
i =1 j =1
i=1 j =1
nm
∑∑ +
p(aibj ) log 2 p(bj / ai )
i=1 j =1
= H( XY ) − H ( X / Y ) − H (Y / X ) .
nm
∑ ∑ 证明： H ( XY ) = −
p(ai bj ) log 2 p(ai ) p(b j / ai )
i=1 j=1
∑ ∑ n
=−
i=1
m j=1
p(aibj ) log 2
p(ai / bj ) p(b j / ai )
p(ai ) p(ai / bj )
nm
nm
∑∑ ∑∑ = −
p(aib j ) log 2 p(ai / bj ) −
j =1 i =1
mn
∑∑ = −
p(aib j ) log 2 p(bj / ai ) .
j =1 i =1
nm
mn
∑ ∑ ∑ ∑ 2.7 联合熵： H ( XY) =
p(aibj )I (aibj ) = −
p(aibj ) log 2 p(aibj ) .
i =1 j =1
j=1 i =1
n
m
p(aibj ) log 2 p(aibj ) + p(bj ) log 2 p(bj )
i =1 j =1
j =1
n
= H (XY) − H(Y) , ∑ 其中： p(aibj ) = p(bj ) .
i=1
3.2.2 H ( X / Y ) = H( X ) − I ( X ;Y ) .
nm
∑ ∑ 证明： H ( X / Y ) = −
2.3 条件自信息量： I (ai / bj) = − log 2 p(ai / bj ) 或 I (bj / ai) = − log 2 p(bj / ai )
2.4 互信息量： I (ai;bj )
= log
2
p(ai / bj ) p(ai )
(i = 1,2,⋯, n; j =1,2,⋯, m)
平均值）为信源的平均自信息量，一般称为信源的信息熵，也叫信源熵或香农熵，
记为 H ( X ) .
1.7 条件熵：在联合符号集合 XY 上的条件自信息量的数学期望.可以用 H ( X / Y ) 表示.
1.8 联合熵：也叫共熵，是联和离散符号 XY 上的每的元素 aibj 的联合自信息量的数学期望，用 H ( XY) 表示. 2．基本公式 2.1 自信息量： I (ai) = −log 2 p(ai) 2.2 联合的自信息量： I (aibj) = − log 2 p(aibj ) 当 X 和Y 相互独立时， p(aibj ) = p(ai) p(bj )；则有： I (aibj ) = − log 2 p(aibj ) = − log 2 p(ai ) p(bj ) = −log 2 p(ai ) − log 2 p(bj ) = I (ai ) + I (bj )
nm
∑ ∑ 证明： H ( XY ) = −
p(ai bj ) log 2 p(aib j )
i=1 j=1
nm
∑∑ = −
p(aibj ) log 2 p(ai ) p(bj / ai )
i=1 j =1
nm
nm
∑ ∑ ∑ ∑ = − [ p(aibj)]log 2 p(ai ) −
p(aibj )p(bj / ai )
ij
ij
= H( XY ) − H (Y / X ) ,
同理： H (Y ) = H ( XY ) − H( X / Y ) .
3.2 条件熵 H (X /Y) = H (XY) − H (Y) = H(X ) − I (X;Y) .
3.2.1 H ( X / Y ) = H( XY ) − H (Y ) .
i =1 j=1
i =1 j =1
m
∑ = H ( X ) + H (Y / X ), 其中： p(aib j) = p(ai) . j=1
同理： H (XY) = H (Y) + H (X /Y).
3.3.2 H (XY) = H(X ) + H (Y) − I (X;Y) .
nm
∑ ∑ 证明： H ( XY ) = −
证明： H ( X ) = −∑ p(ai ) log 2 p(ai )
i
∑ ∑ = −
i
[
j
p(bj ) p(ai
/ bj )]log
2
p(aibj ) p(bj / ai )
∑∑ ∑∑ = −
p(aibj ) log 2 p(aibj ) − [−
p(aibj ) log 2 p(bj / ai )]
j=1
i=1 j=1
i=1
j=1
p(aib j) = p(ai ) p(bj / ai ) = p(bj) p(ai / bj ) .
3.各种熵之间的关系 3.1 无条件熵
3.1.2 H ( X ) = H ( X / Y ) + I ( X ;Y ) ≥ H( X / Y ) .
n
∑ 证明：① H ( X ) = − p(ai ) log 2 p(ai)
p(ai bj ) log 2 p(ai ) p(b j / ai )
i=1 j=1
∑ ∑ n
=−
i=1
m j=1
p(aibj ) log 2
p(ai ) p(b j )
p(bj / ai ) p(bj )
nm
mn
∑ ∑ ∑ ∑ = − [
p(aib j )]log 2 p(ai ) −