熵函数的唯一性和有根概率树

合集下载

最大熵原理和分析

最大熵原理和分析熵是信息论中一个非常重要的概念，它表示一个随机变量的不确定性。

对于一个离散随机变量X，其熵H(X)定义为：H(X) = -∑ P(x) log P(x)其中，P(x)表示X取一些值x的概率。

熵的值越大，表示随机变量的不确定性越高，反之，熵的值越小，表示随机变量的不确定性越低。

最大熵原理认为，当我们对一个问题缺乏先验知识，也就是无法对一些事件的概率分布进行确定时，我们应该选择一个与我们已知信息最为吻合，即最为均匀的分布。

最大熵原理的核心思想是在保持已知信息的基础上，尽可能避免引入不可验证的假设。

1.定义问题和确定已知信息：首先，我们需要清楚地定义问题，并确定我们已知的信息和限制条件。

这些已知信息可以是一些约束条件，也可以是一些期望值等。

2.确定特征函数：为了表示我们所关心的问题，我们需要选择一组合适的特征函数。

特征函数是一个从问题的状态空间映射到实数的函数，它可以度量一些状态的特征或属性。

3.确定约束条件：根据已知信息和特征函数，我们可以得到一组约束条件。

这些约束条件可以是一些状态的期望值等。

4.定义最大熵模型：最大熵模型是在满足已知信息和约束条件的条件下，找到最大熵分布的模型。

最大熵模型可以通过最优化方法来求解。

5.模型评估和应用：通过最大熵模型，我们可以得到概率分布或其他输出。

我们可以使用这些输出来进行模型评估、分类、预测等任务。

然而，最大熵原理也存在一些限制。

首先，在实际应用中，特征函数的选择往往具有一定的主观性。

其次，最大熵模型的计算复杂度较高，当特征函数和约束条件较多时，求解最大熵模型可能会变得困难。

另外，最大熵原理本身并没有提供一种判断模型的好坏的准则。

综上所述，最大熵原理是一种基于信息论的概率模型学习方法。

它通过最大化系统的熵，来求解最为均匀和不确定的概率分布。

最大熵原理在统计学、自然语言处理、机器学习等领域有广泛的应用，但同时也存在一些局限性。

离散信息的度量

例 2.5
A、B两城市天气情况概率分布如下表：
晴
阴
雨
A城市 B城市
0．8 0．4
0．15 0．3
0．05 0．3
问哪个城市的天气具有更大的不确定性？
14
解：
H ( A) = H (0.8,0.15,0.05) = −0.8 × log 0.8 − 0.15 × log 0.15 − 0.05 × log 0.05 = 0.884 比特/符号
性所需信息量
13
例 2.4
一电视屏幕的格点数为500×600=300000，每点有 10个灰度等级，若每幅画面等概率出现，求每幅画面平均所包含的信息量
解：
可能的画面数是多少？ 10300000
⇒
p
=
1 10300000
代入公式：
出现每幅画面的概率
H ( X ) = log2 (1/ p) = log2 (10300000 ) = 106 bit
1
§2.1 自信息和互信息
★ 自信息自信息联合自信息条件自信息
★ 互信息互信息互信息的性质条件互信息
§2.1.1 自信息
★ 事件集合 X 中的事件 x = ai 的自信息：
IX (ai ) = -logPX (ai )
简记 I(X) = - logp(x) 或 I(a i ) = -logp i
H(X) = E[I(x)]=−∑p(x)log p(x)
p(x)
x
Æ I(x)为事件x的自信息
Æ
E
p(x)
表示对随机变量x用p(x)来进行取平均运算
Æ 熵的单位为比特（奈特）／信源符号
信息熵H(X)的含义
★ 信源输出前Æ 信源的平均不确定性 ★ 信源输出后Æ 一个信源符号所提供的平均信息量

离散信息的度量

例
2.2
有8×8=64个方格，甲将一棋子放入方格中，让乙猜： 1）将方格按顺序编号，让乙猜顺序号的困难程度为何？ 2）将方格按行和列编号，当甲告诉乙方格的行号后，让乙猜列顺序号的困难程度为何？解：两种情况下的不确定性 1) I(xylog2 p(x|y)=-log2(1/8)=3 bit
300000
解：可能的画面数是多少？ 10 代入公式：
p
1 10 300000
H ( X ) log2 (1/ p) log2 (10300000 ) 106 bit
例
2.5
A、B两城市天气情况概率分布如下表：
晴 A城市 B城市 0．8 0．4 阴 0．15 0．3 雨 0．05 0．3
解：
三种情况都是求联合自信息。设x为红球数，y为白球数。 (1)
1 1 C90 C10 90 10 PXY (1,1) 2 / 11 2 100 99 / 2 C100
I (1,1) log 2 / 11 2.460 比特
(2)
2 C10 10 9 / 2 PXY (0,2) 2 1 / 110 C100 100 99 / 2
其中，q(ui)为节点ui的概率，H(ui)为节点ui的分支熵。
例
2.6
1/2 p
a1: p/3
b1: 2p/3
2/3
b2: 2/3
1/2
a2: p/3
r: 1
1-p
a3: 2(1-p)/3
1/3
a4: 1/3
条件熵
★
条件熵：联合集XY上，条件自信息I(y|x)的平均值
H (Y / X ) E [ I ( y / x)]

信息熵相关知识总结

信息熵相关知识总结前⾔学习决策树时会接触到⼀些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等乱七⼋糟的知识和名字,我本⼈已经记得⼤脑混乱了,还没有全部记住,所以在这⾥记录⼀下.1.信息熵:信息的度量,信息的不确定程度,是乱七⼋糟熵的基础.吴军⼤⼤的数学之美中⽤了猜球队冠军的⽅式引出了信息熵的概念.我觉得这种⽅法印象很深刻,所以在这⾥提出⼀下.如果有32⽀球队,使⽤⼆分查找法去猜哪⽀球队是冠军,如:冠军在1-16号球队内.这样⼀共需要猜5次就可以找到结果,也就是log32=5,但是某些球队的获胜率⼤⼀些,所以它的准确信息量的表⽰应该如下:图1⾹农就称它为信息熵,表⽰信息的不确定程度,不确定性越⼤,信息熵也就越⼤.图1中的p(x)表⽰随机变量x的概率.信息熵H(x)的取值范围:0<=H(x)<=logn,其中n是随机变量x取值的种类数.2.条件熵:有两个随机变量X和Y,在已知Y的情况下,求X的信息熵称之为条件熵:图2其中p(x|y)是已知y求x的条件概率.p(x,y)是联合概率.3.信息增益:表⽰在确定某条件Y后,随机变量X的信息不确定性减少的程度.也称为互信息(Mutual Information).图3它的取值是0到min(H(x),H(y))之间的数值.取值为0时,表⽰两个事件X和Y完全不相关.在决策树中算法中,ID3算法就是使⽤信息增益来划分特征.在某个特征条件下,求数据的信息增益,信息增益⼤的特征,说明对数据划分帮助很⼤,优先选择该特征进⾏决策树的划分,这就是ID3算法.4.信息增益⽐(率):信息增益⽐是信息增益的进化版,⽤于解决信息增益对属性选择取值较多的问题,信息增益率为信息增益与该特征的信息熵之⽐.在决策树中算法中,C4.5算法就是使⽤信息增益⽐来划分特征.公式如下：图4信息熵,条件熵和互信息的关系:图5注:图⽚取⾃不同地⽅,所以符号表⽰不同,请⾃⾏对照,同时信息增益⽐的公式有的⽂章或者书籍分母可能不同.5.相对熵(KL散度):⽤来描述两个概率分布p,q之间的差异(图6),数学之美中介绍是⽤来衡量两个取值为正数函数的相似性(图7)图6图7概念都是⼀样的,所以不需要太在意这两个公式的区别.如果两个函数(分布)完全相同,那么它们的相对熵为0,同理如果相对熵越⼤,说明它们之间的差异越⼤,反之相对熵越⼩,说明它们之间的差异越⼩.需要注意的是相对熵不是对称的,也就是:图8但是这样计算很不⽅便,所以⾹农和杰森(不是郭达斯坦森)提出了⼀个新的对称的相对熵公式:图9上⾯的相对熵公式可以⽤于计算两个⽂本的相似度,吴军⼤⼤在数学之美中介绍,google的问答系统就是⽤图9的公式计算答案相似性的(现在还是不是就不清楚了).6.交叉熵(cross-entropy):我们知道通常深度学习模型最后⼀般都会使⽤交叉熵作为模型的损失函数.那是为什么呢?⾸先我们先将相对熵KL公式(图6)进⾏变换(log中除法可以拆分为两个log相减):图10其中前⼀部分的-H(p(x))是p的熵,后⼀部分就是我们所说的交叉熵.图11损失函数是计算模型预测值和数据真实值之间的相关性,所以可以使⽤相对熵(KL散度)计算,根据图10可以看出,-H(p(x))是不变的,所以我们可以通过计算后⼀部分的交叉熵来求得Loss.所以通常会使⽤交叉熵来作为Loss函数,同理交叉熵越⼩,预测值和真实值之间相似度越⾼,模型越好.注:LR的损失函数就是交叉熵.7.联合熵:联合熵可以表⽰为两个事件X,Y的熵的并集图12它的取值范围是:max(H(x),H(y)) <= H(x,y) <= H(x)+H(y)8.基尼系数(Gini,它属于混进来的):在决策树的CART(分类回归树)中有两类树,⼀是回归树,划分特征使⽤的是平⽅误差最⼩化的⽅法,⼆是分类树,采⽤的就是Gini系数最⼩化进⾏划分数据集.图13其中k为label的种类数.基尼指数越⼤,信息的不确定性越⼤,这与信息熵相同.(CART树是如何使⽤Gini指数的这⾥就不详细介绍了,以后会在决策树中详细介绍的)9.困惑度(perplexity,PPL):在NLP中,通常使⽤困惑度作为衡量语⾔模型好坏的指标.图14其中S为句⼦,N是句⼦中单词的个数,p(wi)代表第i个单词的概率.所以PPL越⼩p(wi)的概率越⾼,则⼀句话属于⾃然语⾔的概率也就越⾼.参考:《数学之美-第⼆版》吴军著《统计学习⽅法》李航著《统计⾃然语⾔处理》宗成庆著。

python计算信息熵的函数

python计算信息熵的函数信息熵是信息理论中一种重要的概念，用于衡量信息的不确定性。

在机器学习和数据分析中，我们经常需要计算数据集的信息熵，以便评估数据集的纯度和决策树的划分能力。

本文将介绍如何使用Python 编写一个计算信息熵的函数。

1.引言信息熵（Entropy）是由克劳德·香农（Claude Shannon）在1948年提出的，他是信息论的奠基人之一。

在信息论中，熵用于衡量信息的不确定性和随机性。

信息熵的值越高，数据集的不确定性就越大。

2.信息熵的计算公式信息熵的计算公式如下：H(X) = - Σ p(x) * log2(p(x))其中，H(X)表示数据集X的信息熵，p(x)表示数据集中某个类别x 出现的概率。

3.Python计算信息熵的函数实现下面是一个用于计算信息熵的Python函数的实现：```pythonimport mathdef entropy(dataset):n = len(dataset) # 数据集样本总数labels = {} # 统计数据集中的各个类别的出现次数for data in dataset:label = data[-1] # 数据集最后一列为类别if label not in labels:labels[label] = 0labels[label] += 1entropy_val = 0.0for label in labels:prob = float(labels[label]) / nentropy_val -= prob * math.log2(prob)return entropy_val```4.函数说明该函数的输入参数为数据集dataset，输出为数据集的信息熵。

首先，函数计算数据集的样本总数n和各个类别的出现次数。

然后，利用计数结果计算每个类别的出现概率。

最后，根据信息熵的计算公式，计算数据集的信息熵并返回。

5.示例使用下面是一个示例，展示如何使用该函数计算数据集的信息熵：```pythondataset = [[1, '好', '是'],[1, '好', '是'],[0, '好', '否'],[0, '不好', '否'],[0, '不好', '否'],]result = entropy(dataset)print('数据集的信息熵为：', result)```运行上述代码，输出结果为：```数据集的信息熵为： 0.9709505944546686```6.总结本文介绍了如何用Python编写一个计算信息熵的函数。

信息论基础智慧树知到答案章节测试2023年广东工业大学

第一章测试1.信息论由哪位科学家创立（）。

A:傅里叶B:香农C:奈奎斯特D:冯诺依曼答案:B2.点对点通信模型包含以下哪些部分（）。

A:译码器B:信源C:信宿D:信号答案:ABC3.信息就是消息。

（）A:对B:错答案:B4.连续信源分为，，。

答案:5.研究信息论的目的是：提高信息传输的_，_，、，达到信息传输的最优化。

答案:第二章测试1.某一单符号离散信源的数学模型为，则其信息熵为（）。

A:1比特/符号B:0.1比特/符号C:0.88比特/符号D:0.08 比特/符号答案:A2.单符号信源具有以下哪些特点（）。

A:无记忆B:连续C:有记忆D:平稳答案:AD3.熵函数具有以下哪些基本性质（）。

A:对称性B:随机性C:连续性答案:ACD4.信源要含有一定的信息，必须具有随机性。

（）A:错B:对答案:B5.信息熵表示信源X每发一个符号所提供的平均信息量。

（）A:错B:对答案:B第三章测试1.以下等式或不等式关系成立的是（）。

A:B:C:D:答案:A2.单符号离散无记忆的N次扩展信道，有以下哪两种特点（）。

A:无预感性B:无记忆性C:平稳性D:对称性答案:AB3.后向信道矩阵中任·一行之和为1。

（）A:错B:对答案:B4.信道容量指信道的最大信息传输率。

（）A:错B:对答案:B5.互信息量等于_与_比值的对数。

答案:第四章测试1.某信源输出信号的平均功率和均值均被限定，则其输出信号幅值的概率密度函数是以下哪种分布时，信源达到最大差熵值（）。

A:高斯分布B:均匀分布C:指数分布答案:A2.某信源的峰值功率受限，则概率密度满足以下哪个个条件时，差熵达到最大值（）。

A:均匀分布B:泊松分布C:高斯分布D:指数分布答案:A3.连续信道的平均互信息不具有以下哪些性质（）。

A:非负性B:连续性C:上凸性D:极值性答案:B4.差熵具有以下哪两个性质（）。

A:条件差熵值大于无条件差熵B:差熵必为负值C:条件差熵值小于无条件差熵D:差熵可为负值答案:CD5.一维高斯分布连续信源是瞬时功率受限的一类连续平稳信源。

信息熵函数的计算

信息熵函数的计算信息熵是信息论中的一个重要概念，用于度量一组数据中的不确定性或信息量。

它是一个统计学参数，衡量随机事件的平均信息量。

信息熵通常用H(X)表示，其中X是随机变量。

信息熵的计算方法如下：1.首先，需要确定待计算的随机变量X的概率分布。

概率分布可以通过统计数据或者通过其他方法获取。

假设X的概率分布为P(X=x)。

2. 接下来，对于每个可能发生的事件X=x，计算其信息量。

信息量通常用-log(P(X=x))表示。

信息量表示了该事件发生时获得的信息量的大小。

3.对于所有可能发生的事件X=x，将其信息量相乘以概率P(X=x)。

计算所有事件的信息量乘以概率的累加和，即可得到信息熵H(X)。

信息熵的计算公式为：H(X) = -Σ P(X=x) * log(P(X=x))其中Σ表示对所有可能的值求和。

需要注意的是，信息熵的单位通常为比特（bits）。

如果使用其他单位（如纳特（nats）），则计算公式中的底数为自然对数的底数e。

信息熵的计算可以用于评估一组数据的不确定度。

当数据越均匀时，信息熵越大，表示其中的不确定性越高。

相反，当数据越集中时，信息熵越小，表示其中的不确定性越低。

信息熵还有一些重要的性质：1. 信息熵始终大于等于零，即H(X) ≥ 0。

当且仅当所有事件的概率相等时，信息熵达到最大值，此时为H(X) = log(n)，其中n为事件的数量。

2.信息熵的计算不受事件的顺序影响。

3.信息熵可以用作决策树算法中的指标，用于选择最佳划分属性。

4.信息熵还可以用于计算条件熵，用于衡量随机变量与其他变量之间的关联程度。

总之，信息熵是信息论中的一个重要概念，用于度量一组数据中的不确定性或信息量。

通过计算事件的概率分布，利用信息量和概率的乘积，计算所有事件的信息量乘以概率的累加和，即可得到信息熵。

信息熵的计算可以帮助我们了解数据的不确定性程度，并在许多领域中有广泛应用。

详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵原⽂地址：1、信息熵 (information entropy)熵 (entropy) 这⼀词最初来源于热⼒学。

1948年，克劳德·爱尔伍德·⾹农将热⼒学中的熵引⼊信息论，所以也被称为⾹农熵 (Shannon entropy)，信息熵 (information entropy)。

本⽂只讨论信息熵。

⾸先，我们先来理解⼀下信息这个概念。

信息是⼀个很抽象的概念，百度百科将它定义为：指⾳讯、消息、通讯系统传输和处理的对象，泛指⼈类社会传播的⼀切内容。

那信息可以被量化么？可以的！⾹农提出的“信息熵”概念解决了这⼀问题。

⼀条信息的信息量⼤⼩和它的不确定性有直接的关系。

我们需要搞清楚⼀件⾮常⾮常不确定的事，或者是我们⼀⽆所知的事，就需要了解⼤量的信息。

相反，如果我们对某件事已经有了较多的了解，我们就不需要太多的信息就能把它搞清楚。

所以，从这个⾓度，我们可以认为，信息量的度量就等于不确定性的多少。

⽐如，有⼈说⼴东下雪了。

对于这句话，我们是⼗分不确定的。

因为⼴东⼏⼗年来下雪的次数寥寥⽆⼏。

为了搞清楚，我们就要去看天⽓预报，新闻，询问在⼴东的朋友，⽽这就需要⼤量的信息，信息熵很⾼。

再⽐如，中国男⾜进军2022年卡塔尔世界杯决赛圈。

对于这句话，因为确定性很⾼，⼏乎不需要引⼊信息，信息熵很低。

其中负号是⽤来保证信息量是正数或者零。

⽽ log 函数基的选择是任意的（信息论中基常常选择为2，因此信息的单位为⽐特bits；⽽机器学习中基常常选择为⾃然常数，因此单位常常被称为奈特nats）。

I(x) 也被称为随机变量 x 的⾃信息 (self-information)，描述的是随机变量的某个事件发⽣所带来的信息量。

图像如图：H(X) 就被称为随机变量 x 的熵,它是表⽰随机变量不确定的度量，是对所有可能发⽣的事件产⽣的信息量的期望。

从公式可得，随机变量的取值个数越多，状态数也就越多，信息熵就越⼤，混乱程度就越⼤。

机器学习中各种熵的定义及理解

机器学习中各种熵的定义及理解机器学习领域有⼀个⼗分有魅⼒的词：熵。

然⽽究竟什么是熵，相信多数⼈都能说出⼀⼆，但⼜不能清晰的表达出来。

⽽笔者对熵的理解是：“拒绝学习、拒绝提升的⼈是没有未来的，也只有努⼒才能变成⾃⼰想成为的⼈”。

下图是对熵的⼀个简单描述：熵可以理解为是⼀种对⽆序状态的度量⽅式。

那么熵⼜是如何被⽤在机器学习中呢？在机器学习领域中，量化与随机事件相关的预期信息量以及量化概率分布之间的相似性是常见的问题。

针对这类问题，利⽤⾹农熵以及衍⽣的其他熵概念去度量概率分布的信息量是个很好的解决⽅案。

本⽂会尽可能⽤简单的描述分享⾃⼰对各种熵的定义及理解，欢迎交流讨论。

1. ⾃信息⾃信息⼜称信息量。

“陈⽻凡吸毒？！⼯作室不是刚辟谣了吗？哇！信息量好⼤！”在⽣活中，极少发⽣的事情最容易引起吃⽠群众的关注。

⽽经常发⽣的事情则不会引起注意，⽐如吃⽠群众从来不会去关系明天太阳会不会东边升起。

也就是说，信息量的多少与事件发⽣概率的⼤⼩成反⽐。

对于已发⽣的事件i，其所提供的信息量为：其中底数通常为2，负号的⽬的是为了保证信息量不为负。

事件i发⽣的概率与对应信息量的关系如下所⽰：我们再考虑⼀个问题：假设事件x个可能的状态，例如⼀枚硬币抛出落地后可能有两种状态，正⾯或反⾯朝上，这时候该怎样取衡量事件所提供的信息量？2. 信息熵信息熵⼜称⾹农熵。

到⽬前为⽌，我们只讨论了⾃信息。

实际上，对于⼀枚硬币来讲，⾃信息实际上等于信息熵，因为⽆论正反⾯，朝上的概率都相等。

信息熵⽤来度量⼀个事件可能具有多个状态下的信息量，也可以认为是信息量关于事件概率分布的期望值：其中事件x共有n个状态，i表⽰第i个状态，底数b通常设为2，也可设为10或e。

H(x)表⽰⽤以消除这个事件的不确定性所需要的统计信息量，即信息熵。

还是以抛硬币为例来理解信息熵：事件概率信息量（⾃信息）信息熵（统计信息量）正⾯朝上1/2-log(1/2)(-1/2 * log(1/2))+( -1/2 * log(1/2))反⾯朝上1/2-log(1/2)(-1/2 * log(1/2))+( -1/2 * log(1/2))根据信息熵公式可得出以下结论：1. 若事件x个状态发⽣概率为1，那么信息熵H(x)等于02. 若事件x的所有状态n发⽣概率都⼀致，即都为1/n，那么信息熵H(x)有极⼤值logn。

熵的意义

熵的意义◆◆1865年，克劳修斯（威廉·汤姆逊，W.Tomsion ）引入了一个态函数熵：⎰=-A TdQ S S 00（可逆过程），这一切是那么自然，水到渠成。

倒是给S 定名，却使克克劳修斯颇感踌躇，煞费苦心。

最后考虑到S 的物理意义与“能”有相近的亲缘关系，在字形上也应相近为好。

为此，他用字义为“转变”的希腊字为S 命名，其德文同音字可写成“Entropie ”（英文为Entropy ），以与能的德文字“Energie ”（英文为Energy ）在字形上接近从而定名。

◆◆ 1923年，J ．R 普朗克来中国讲学，著名物理学家胡刚复教授为其翻译时，首次将“Entropy ”译为熵，渊源于Entropy 这个概念太复杂，况且“Entropy ”为克劳修斯所造，不容易找到一个与此贴切的字。

有鉴于此，胡先生干脆舍难从易，想了一个简单的方法，根据公式TdQ dS =，认为S 为热量与温度之商。

而且比概念与火有关（象征着热），于是就在商字上加火字旁来表达字义的特色，相当贴切，又颇为形象地表达了态函数“Entropy ”的物理概念。

也正因为此，“熵”被广泛采用，流传下来，为浩瀚的汉文字库中增加了一个新字。

◆◆自从1865年德国物理学家克劳修斯引入熵的概念以后，它曾经引起过多年的混乱和争议。

熵的统计解释主要是奥地利物理学家玻尔兹曼的功劳。

玻尔兹曼在统计物理方面的贡献为分子、原子观念奠定了基础，他本人却因此受到学术界中保守势力的攻击。

玻耳兹曼于1906年在忧郁中自杀死去。

至今在维也纳大学校园绿草如茵的树丛中，人们可以看到一座没有装饰和铭文的坟墓。

在玻耳兹曼的胸像下面刻着一个简短的公式W k S ln =这就是熵的统计解释：W 是一个宏观状态对应的微观状态总数。

如果ok T =时，只有唯一的能量最小的微观状态得以实现，那么熵也就等于零。

在热力学平衡态，熵达到最大值，因为它对应的微观状态数W 最大，平衡态是概率最大的状态。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

熵函数的唯一性和有根概率树
苏驷希
在信息论中，对于离散随机变量X
的熵的计算公式来自
C.E.Shannon 。

()
()[()]()log()p x x
H X I x p x x E ==-∑ （1）
或者简单记为：
12()(,,...,)n H X H p p p =，其中i p 为X 的概率分布（2）
下面来说明，如果不考虑常数差别，这个公式是唯一的。

由于()H X 用来度量X 的不确定性，则它应该满足下面三个条件， [1] ()H X 是概率的连续函数；
[2] 当X 是等概率随机变量时，()H X 应该是X 取值符号数n 的增函数；
[3] 可加性；
其中第一和第二个条件简单，并且容易理解；下面简单说明第三个条件，考虑一个有三个结果的试验α，
1231
2
3
:(
)a a a p p p α
它的熵为： 123()(,,)H X H p p p = (3) 为了确定那一个结果出现，可以考虑两个相继的试验。

在第一次试验
1α中，先确定是1a 出现，还是2a 或3a 出现，它的熵为
1123()(,)H X H p p p =+。

如果1a 出现，则结果确定，无须第二次试验；
如果2a 或3a 出现，则需要做第二次试验2α以确定是2a 或3a 出现，试验
2α的熵为32
22323
()(
,)p p H X H p p p p =++。

由于整个试验不确定性的客观性，应该有：
32
123123232323
(,,)(,)()(
,)p p H p p p H p p p p p H p p p p =+++++
（4）下面来考虑C.E.Shannon 的定理。

定理1 唯一满足条件[1]，[2]和[3]的()H X 有下面的形式， 1()()log()log n
i i x
i H X C p x x C p p ==-=-∑∑，其中C 为正常数（5）
证明：记11
1(,,...,)()H f n n n n
=，当然()f n 为n 的单调增函数。

然后考虑一个有nm 个结果的等概试验，将它分解为m 个有n 个等概结果的试验，根据[3]，应该有：
1()()()()()f nm f m m f n f m f n m
=+=+ （6）根据微积分知识，满足（6）的单调增函数一定有形式
()log f n C n =，
其中C 为正常数（7）为了证明一般的情形，先假设所有的i p 为有理数，不妨认为
1
i
i n
k
k n p n
==
∑。

然后考虑一个有1
n
k k n =∑个等概结果的试验α，并且这个试验
α被认为是两类相继的试验，其中第一类试验i α的概率是i p ，而i α包
括有i n 个等概试验结果，而第二个试验是在出现试验i α的基础上，考虑它是i n 个等概结果中的那一个，则根据[3]有：
121
1
log (,,...,)log n
n
i n i i i i C n H p p p C p n ===+∑∑
整理得：
121
1
1
1
1
(,,...,)[log log ]
[(log log )]log n n
n i i i i i n n n
i i i i i
i i i H p p p C n p n C p n n C p p ======-=-=-∑∑∑∑∑
也就是说，在所有的i p 为有理数的情况下，证明了定理1。

如果有的i p 为无理数，则可以去考虑逼近它的有理数序列，则（5）成立；另外根据()H X 的连续性，通过取极限同样可以证明定理1。

下面不妨假设C 为常数1，考虑12()(,,...,)n H X H p p p =的计算。

所谓依照有根概率树来计算熵，即下面的定理2。

实际上就是将原来的试验按照概率树分解为若干子试验，并且利用熵的条件[3]进行处理。

其实前述有三个试验结果的条件[4]就是下面（8）的表现形式。

定理2离散随机变量X 的熵()H X 等于所对应的有根概率树上所有节点(包括根节点，不包括叶)的分支熵用该节点概率加权的和，即
()()()i i i
H X q u H u =∑ （8）
其中，()i q u 为节点i u 的概率，()i H u 为节点i u 的分支熵。

定理的证明利用数学归纳法容易完成。

最后，如果反复利用熵的条件[3]按照概率树进行分解，实际上是从根向叶子方向前进；而如果利用数学归纳法直接证明（8）则是从叶子向根方向前进。

利用有根概率树来处理熵的计算在很多场合下可以简化计算。

熵函数的唯一性和有根概率树

最大熵原理和分析

离散信息的度量

离散信息的度量

信息熵相关知识总结

python计算信息熵的函数

信息论基础智慧树知到答案章节测试2023年广东工业大学

信息熵函数的计算

详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

机器学习中各种熵的定义及理解

熵 的 意 义

熵的意义