信息熵 条件熵 信息增益
使用信息增益进行文本特征抽取的实用方法

使用信息增益进行文本特征抽取的实用方法在文本挖掘和自然语言处理领域,特征抽取是一项重要的任务。
它的目标是从给定的文本数据中提取出最具有代表性和区分性的特征,以便用于后续的分类、聚类或信息检索等任务中。
而信息增益是一种常用的特征选择方法,它可以帮助我们找到最能够区分不同类别的特征。
信息增益是基于信息论的概念,它衡量了一个特征对于分类任务的贡献程度。
在进行特征抽取时,我们通常会先将文本数据表示成一个特征矩阵,其中每一行表示一个文本样本,每一列表示一个特征。
然后,我们可以使用信息增益来评估每个特征的重要性,并选择具有最高信息增益的特征进行抽取。
信息增益的计算需要用到熵的概念。
熵是衡量一个随机变量不确定性的度量,它的值越大表示不确定性越高。
在分类任务中,我们可以将熵看作是对类别分布的不确定性的度量。
具体而言,对于一个特征A,我们可以计算其在整个数据集D 中的熵H(D),然后再计算在特征A给定的条件下,数据集D的条件熵H(D|A)。
信息增益就是熵H(D)与条件熵H(D|A)之差。
通过计算每个特征的信息增益,我们可以得到一个特征的重要性排序。
具有较高信息增益的特征意味着它对于分类任务的贡献较大,因此我们可以选择这些特征进行抽取。
在实际应用中,我们通常会设定一个阈值,只选择信息增益超过该阈值的特征。
除了信息增益,还有其他一些常用的特征选择方法,如互信息、卡方检验等。
这些方法都可以帮助我们找到具有代表性和区分性的特征。
但是,信息增益方法具有一些独特的优势。
首先,信息增益是一种无参数的方法,不需要事先对数据做任何假设。
其次,信息增益可以处理离散型和连续型特征,适用范围更广。
此外,信息增益的计算简单高效,适用于大规模的文本数据。
然而,信息增益也存在一些限制。
首先,信息增益偏向于选择具有较多取值的特征。
这是因为具有较多取值的特征通常可以提供更多的信息,从而使得信息增益更大。
其次,信息增益无法处理特征之间的相关性。
当多个特征之间存在较强的相关性时,它们的信息增益可能会被重复计算,导致选择出的特征不够多样化。
信息增益的理解

信息增益的理解Newly compiled on November 23, 2020信息增益的理解熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:熵 - 条件熵在一个条件下,信息不确定性减少的程度!通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。
两者相减就是信息增益!原来明天下雨例如信息熵是2,条件熵是(因为如果是阴天就下雨的概率很大,信息就少了),这样相减后为,在获得阴天这个信息后,下雨信息不确定性减少了!是很多的!所以信息增益大!也就是说,阴天这个信息对下雨来说是很重要的!所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的!我通过例子一步一步讲解这个概念。
在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。
概念我们前面说了,信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度)。
而我们的信息增益恰好是:信息熵-条件熵。
换句话说,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。
那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。
这个问题就可以用信息增益来度量。
如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。
例子我们有如下数据:可以求得随机变量X(嫁与不嫁)的信息熵为:嫁的个数为6个,占1/2,那么信息熵为-1/2log1/2-1/2log1/2 = -log1/2=现在假如我知道了一个男生的身高信息。
——信息增益和熵

——信息增益和熵在信息论中,信息增益和熵是两个重要的概念。
它们被广泛应用于数据挖掘、机器学习和决策树等领域。
本文将分别介绍信息增益和熵的概念、计算方法以及在实际问题中的应用。
一、信息增益信息增益是用来衡量一个特征对于分类问题的有用程度。
在决策树算法中,可以通过计算每个特征的信息增益来选择最优的划分特征。
信息增益的计算公式为:信息增益 = 原始熵 - 条件熵其中,原始熵指的是在没有任何划分的情况下,数据集的熵。
条件熵指的是在某个特征的条件下,数据集的熵。
信息熵是衡量数据集纯度的指标,熵越高表示数据集的纯度越低。
因此,信息增益越大表示用该特征进行划分后可以获得更高的纯度。
二、熵熵是信息理论中一个重要的概念,用来衡量一个随机变量的不确定性。
对于一个离散型随机变量,其熵的计算公式为:熵 = -∑(p(x) * log2(p(x)))其中,p(x)表示随机变量取某个取值的概率。
熵的值越大,表示随机变量的不确定性越高。
当所有取值的概率相等时,熵达到最大值,为log2(n),其中n为取值的个数。
当某个取值的概率为1,其他取值的概率为0时,熵为0,表示随机变量的取值是确定的。
熵的计算方法可以扩展到连续型变量,只需将概率密度函数代替概率。
三、信息增益和熵的应用信息增益和熵在数据挖掘和机器学习中有广泛的应用。
它们常被用来选择最优的划分特征、构建决策树,并用于分类和预测问题。
在决策树算法中,通过计算每个特征的信息增益来选择最优的划分特征。
划分特征应该能将数据集划分为纯度更高的子集,从而提高分类的准确性。
另外,熵作为熵权重的概念也被广泛应用。
熵权重是一种对特征进行加权的方法,通过对特征的熵进行加权求和来计算样本的总熵。
在特征选择和特征加权中,可以根据特征的重要性对熵进行加权,从而更准确地描述样本的不确定性。
信息增益和熵还可以用于处理缺失值。
通过计算各个特征的信息增益或熵,可以选择最优的特征来填充缺失值,从而保持数据集的完整性和准确性。
详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

详解机器学习中的熵、联合熵、条件熵、相对熵和交叉熵原⽂地址:1、信息熵 (information entropy)熵 (entropy) 这⼀词最初来源于热⼒学。
1948年,克劳德·爱尔伍德·⾹农将热⼒学中的熵引⼊信息论,所以也被称为⾹农熵 (Shannon entropy),信息熵 (information entropy)。
本⽂只讨论信息熵。
⾸先,我们先来理解⼀下信息这个概念。
信息是⼀个很抽象的概念,百度百科将它定义为:指⾳讯、消息、通讯系统传输和处理的对象,泛指⼈类社会传播的⼀切内容。
那信息可以被量化么?可以的!⾹农提出的“信息熵”概念解决了这⼀问题。
⼀条信息的信息量⼤⼩和它的不确定性有直接的关系。
我们需要搞清楚⼀件⾮常⾮常不确定的事,或者是我们⼀⽆所知的事,就需要了解⼤量的信息。
相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。
所以,从这个⾓度,我们可以认为,信息量的度量就等于不确定性的多少。
⽐如,有⼈说⼴东下雪了。
对于这句话,我们是⼗分不确定的。
因为⼴东⼏⼗年来下雪的次数寥寥⽆⼏。
为了搞清楚,我们就要去看天⽓预报,新闻,询问在⼴东的朋友,⽽这就需要⼤量的信息,信息熵很⾼。
再⽐如,中国男⾜进军2022年卡塔尔世界杯决赛圈。
对于这句话,因为确定性很⾼,⼏乎不需要引⼊信息,信息熵很低。
其中负号是⽤来保证信息量是正数或者零。
⽽ log 函数基的选择是任意的(信息论中基常常选择为2,因此信息的单位为⽐特bits;⽽机器学习中基常常选择为⾃然常数,因此单位常常被称为奈特nats)。
I(x) 也被称为随机变量 x 的⾃信息 (self-information),描述的是随机变量的某个事件发⽣所带来的信息量。
图像如图:H(X) 就被称为随机变量 x 的熵,它是表⽰随机变量不确定的度量,是对所有可能发⽣的事件产⽣的信息量的期望。
从公式可得,随机变量的取值个数越多,状态数也就越多,信息熵就越⼤,混乱程度就越⼤。
机器学习中各种熵的定义及理解

机器学习中各种熵的定义及理解机器学习领域有⼀个⼗分有魅⼒的词:熵。
然⽽究竟什么是熵,相信多数⼈都能说出⼀⼆,但⼜不能清晰的表达出来。
⽽笔者对熵的理解是:“拒绝学习、拒绝提升的⼈是没有未来的,也只有努⼒才能变成⾃⼰想成为的⼈”。
下图是对熵的⼀个简单描述:熵可以理解为是⼀种对⽆序状态的度量⽅式。
那么熵⼜是如何被⽤在机器学习中呢?在机器学习领域中,量化与随机事件相关的预期信息量以及量化概率分布之间的相似性是常见的问题。
针对这类问题,利⽤⾹农熵以及衍⽣的其他熵概念去度量概率分布的信息量是个很好的解决⽅案。
本⽂会尽可能⽤简单的描述分享⾃⼰对各种熵的定义及理解,欢迎交流讨论。
1. ⾃信息⾃信息⼜称信息量。
“陈⽻凡吸毒?!⼯作室不是刚辟谣了吗?哇!信息量好⼤!”在⽣活中,极少发⽣的事情最容易引起吃⽠群众的关注。
⽽经常发⽣的事情则不会引起注意,⽐如吃⽠群众从来不会去关系明天太阳会不会东边升起。
也就是说,信息量的多少与事件发⽣概率的⼤⼩成反⽐。
对于已发⽣的事件i,其所提供的信息量为:其中底数通常为2,负号的⽬的是为了保证信息量不为负。
事件i发⽣的概率与对应信息量的关系如下所⽰:我们再考虑⼀个问题:假设事件x个可能的状态,例如⼀枚硬币抛出落地后可能有两种状态,正⾯或反⾯朝上,这时候该怎样取衡量事件所提供的信息量?2. 信息熵信息熵⼜称⾹农熵。
到⽬前为⽌,我们只讨论了⾃信息。
实际上,对于⼀枚硬币来讲,⾃信息实际上等于信息熵,因为⽆论正反⾯,朝上的概率都相等。
信息熵⽤来度量⼀个事件可能具有多个状态下的信息量,也可以认为是信息量关于事件概率分布的期望值:其中事件x共有n个状态,i表⽰第i个状态,底数b通常设为2,也可设为10或e。
H(x)表⽰⽤以消除这个事件的不确定性所需要的统计信息量,即信息熵。
还是以抛硬币为例来理解信息熵:事件概率信息量(⾃信息)信息熵(统计信息量)正⾯朝上1/2-log(1/2)(-1/2 * log(1/2))+( -1/2 * log(1/2))反⾯朝上1/2-log(1/2)(-1/2 * log(1/2))+( -1/2 * log(1/2))根据信息熵公式可得出以下结论:1. 若事件x个状态发⽣概率为1,那么信息熵H(x)等于02. 若事件x的所有状态n发⽣概率都⼀致,即都为1/n,那么信息熵H(x)有极⼤值logn。
熵与信息的关系

熵与信息的关系一、引言熵和信息是信息论中两个重要的概念,它们之间有着密切的关系。
熵是描述随机变量不确定度的一种度量,而信息则是对于某个事件发生所提供的“有用程度”的度量。
本文将从熵和信息的定义、性质以及它们之间的关系三个方面进行详细阐述。
二、熵和信息的定义1. 熵的定义熵最初由克劳德·香农提出,他将其定义为一个离散随机变量X所有可能取值x的概率分布p(x)所产生的不确定度。
具体来说,设X为一个离散随机变量,其取值集合为{x1, x2, ..., xn},对应的概率分布为p(x1), p(x2), ..., p(xn),则X的熵H(X)定义为:H(X) = -∑[i=1,n]p(xi)log2p(xi)其中log2表示以2为底数的对数。
2. 信息的定义信息最初由韦纳提出,他将其定义为某个事件发生所提供给接收者“有用程度”的度量。
具体来说,设X为一个离散随机变量,其取值集合为{x1, x2, ..., xn},对应的概率分布为p(x1), p(x2), ..., p(xn),则接收到xk时所提供的信息I(xk)定义为:I(xk) = -log2p(xk)三、熵和信息的性质1. 熵的非负性根据熵的定义可知,对于任意的概率分布p(x),其熵H(X)都是非负数。
这是因为-log2p(xi)始终大于等于0,且当且仅当p(xi)=1时取到0。
2. 熵的单调性设X和Y为两个离散随机变量,其对应的概率分布分别为p(x)和q(y),若对于任意的i和j,有p(xi)>=p(xj)且q(yi)>=q(yj),则有:H(X)<=H(Y)即随机变量概率分布越均匀,其熵越大。
3. 条件熵条件熵是在已知另一个离散随机变量Y取值情况下,X的不确定度。
设X和Y为两个离散随机变量,其联合概率分布为p(x,y),条件概率分布为p(x|y),则X在已知Y时的条件熵H(X|Y)定义为:H(X|Y) = -∑[i=1,m]∑[j=1,n]p(xi,yj)log2p(xi|yj)其中m表示X的取值个数,n表示Y的取值个数。
信息熵的计算方法

信息熵的计算方法信息熵是信息论中的一个重要概念,用来衡量信息的不确定性和信息量。
在实际应用中,我们经常需要计算信息熵来评估数据的复杂程度和信息量大小。
本文将介绍信息熵的计算方法,帮助读者更好地理解和运用这一概念。
首先,我们需要了解信息熵的基本公式。
对于离散型随机变量X,其信息熵的计算公式为:H(X) = -Σ p(x) log2 p(x)。
其中,p(x)表示随机变量X取某个值的概率,log2表示以2为底的对数。
这个公式告诉我们,信息熵的大小取决于事件发生的概率,概率越大,信息熵越小,表示信息的不确定性越低。
在实际计算中,我们通常会遇到多个离散型随机变量组成的联合分布,此时可以使用联合熵来衡量这些随机变量的不确定性。
对于两个随机变量X和Y,其联合熵的计算公式为:H(X, Y) = -ΣΣ p(x, y) log2 p(x, y)。
这个公式表示了X和Y联合发生的概率对信息熵的贡献,同样可以用于衡量多个随机变量的联合不确定性。
除了离散型随机变量,我们还需要了解连续型随机变量的信息熵计算方法。
对于连续型随机变量X,其概率密度函数为p(x),则其信息熵的计算公式为:H(X) = -∫ p(x) log2 p(x) dx。
这个公式告诉我们,连续型随机变量的信息熵计算需要用到积分,通过对概率密度函数的积分来计算信息熵的值。
在实际应用中,我们通常会遇到条件熵的计算问题,即在给定某个条件下的信息熵。
对于随机变量X在给定随机变量Y的条件下的信息熵,计算公式为:H(X|Y) = -ΣΣ p(x, y) log2 p(x|y)。
这个公式表示了在已知Y的条件下,X的信息熵大小,可以帮助我们更好地理解X的不确定性。
最后,我们还需要了解信息增益的概念。
信息增益表示了在得知某个特征值的情况下,对信息熵的减少程度。
对于离散型随机变量X和特征A,其信息增益的计算公式为:Gain(A) = H(X) H(X|A)。
这个公式告诉我们,特征A对信息熵的减少程度,可以帮助我们选择最优的特征来进行数据分析和建模。
信息增益,熵计算

信息增益计算和原理当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。
在这种情况下,概率分布最均匀,预测的风险最小。
因为这时概率分布的信息熵最大,所以称之为“最大熵法”。
最大熵法在数学形式上很漂亮,但是实现起来比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。
这里我们先不讨论算法(这里用的是ID3/C4.5),把一棵决策树建立起来再说。
我们要建立的决策树的形式类似于“如果天气怎么样,去玩;否则,怎么着怎么着”的树形分叉。
那么问题是用哪个属性(即变量,如天气、温度、湿度和风力)最适合充当这颗树的根节点,在它上面没有其他节点,其他的属性都是它的后续节点。
借用信息论的概念,我们用一个统计量,“信息增益”(Information Gain)来衡量一个属性区分以上数据样本的能力。
信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁,比如说一棵树可以这么读成,如果风力弱,就去玩;风力强,再按天气、温度等分情况讨论,此时用风力作为这棵树的根节点就很有价值。
如果说,风力弱,再又天气晴朗,就去玩;如果风力强,再又怎么怎么分情况讨论,这棵树相比就不够简洁了。
计算信息增益的公式需要用到“熵”(Entropy)。
1计算熵我们检查的属性是是否出去玩。
用Excel对上面数据的play变量的各个取值排个序(这个工作簿里把“play”这个词去掉),一共是14条记录,你能数出取值为yes的记录有9个,取值为no的有5个,我们说这个样本里有9个正例,5个负例,记为S(9+,5-),S是样本的意思(Sample)。
这里熵记为Entropy(S),计算公式为:Entropy(S)=-(9/14)*log(9/14)-(5/14)*log(5/14)解释一下,9/14是正例的个数与总记录之比,同样5/14是负例占总记录的比例。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息熵条件熵信息增益
一、信息熵:
信息熵(Entropy)是描述系统复杂程度的概念。
它是由美国数学家弗里德曼(Claude Shannon)提出的,又称熵,英文叫information entropy,代表着未知系统的不确定性,越大表示系统的不确定性越大,即信息量越大。
信息熵的正式定义为:
设X是取有限个值的离散型随机变量,其概率分布为p1,p2,…pn,则X的信息熵定义为:
H(X)=∑pi log2pi
其中pi是X取第i个值的概率。
二、条件熵:
条件熵(Conditional Entropy)又称为条件信息熵,是描述随机变量X关于随机变量Y所产生的不确定性。
它是系统中由Y变量引起的,关于X变量的不确定性的度量。
条件熵的正式定义为:
设X和Y是离散随机变量,则Y给定X的条件下X的条件熵定义为:
H(X|Y)=∑p(x,y)log2p(x,y)
其中p(x,y)是X和Y同时取第x个和第y个值的概率。
三、信息增益:
信息增益(Information Gain)是信息论中的一个术语,中文译
为“信息增益”,是熵的减少,用来衡量待分类特征与被预测属性之间的相关性。
它实际上代表了由一个特征值划分数据集的有效性,也就是说,该特征能够带来多大的“信息量”,也就是减少多少的熵值。
信息增益的正式定义为:
设X是随机变量,Y是类别变量,H(X),H(Y) 分别表示X,Y的信息熵,那么,X给Y带来的信息增益g(X,Y)定义为:
g(X,Y)=H(Y)-H(Y|X)
即信息增益等于类别Y的信息熵减去给定X后类别Y的条件熵。