最大熵模型

合集下载

最大熵模型简介

P {p | Ep( f j ) E~p( f j ),1 j k}
H ( p) p(x) log2 p(x)
x
p* arg max H ( p)
最大熵模型
❖ 例如：给定一个词
假定已知存在四种词性：名词、动词、介词、指代词 ❖ 如果该词在语料库中出现过，并且属于名词的概率为70%，则判断
Generative Model vs. Discriminative Model
❖ Generative Model (GM): P(Y|X)=P(X|Y)P(Y)/P(X)，通过求解P(X|Y)和P(Y)来求解P(Y|X)
❖ Discriminative Model (DM): 对P(Y|X)直接建模
纲要
❖ 最大熵原理 ❖ 最大熵模型定义 ❖ 最大熵模型中的一些算法 ❖ 最大熵模型的应用 ❖ 总结 ❖ 思考题
最大熵模型(Maximum Entropy
Model)
❖
假设有一个样本集合 (x1, x2 ,... xn )
特征(j对f1, pf2的...制fk )约可以表示为
，我们给出k个特征 , Ep( f j ) E~p( f j )
p(X=3)=p(X=4)=p(X=5)=p(X=6)=0.1
最大熵原理
❖ 最大熵原理：1957 年由E.T.Jaynes 提出。 ❖ 主要思想：
在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的概率分布。
❖ 原理的实质：
前提：已知部分知识关于未知分布最合理的推断＝符合已知知识最不确定或最随机的推断。这是我们可以作出的唯一不偏不倚的选择，任何其它的选择都意味着我们增加了其它的约束和假设，这些约束和假设根据我们掌握的信息无法作出。

最大熵模型拉格朗日乘子法

最大熵模型（Maximum Entropy Model，简称MaxEnt模型）是一种用于分类和建模的概率模型。

它的基本思想是在给定一些约束条件下，选择一个概率分布，使得该分布在不违反已知信息的前提下熵最大。

拉格朗日乘子法用于求解最大熵模型的参数。

以下是最大熵模型的基本形式：设X是输入变量，Y是输出变量，P(Y|X)是条件概率分布。

最大熵模型的条件概率分布P(Y|X)表示为：P(Y|X)=1Z(X)exp(∑λini=1f i(X,Y))其中：▪Z(X)是规范化因子，保证概率分布的和为1。

▪f i(X,Y)是特征函数，描述输入变量和输出变量之间的某种关系。

▪λi是拉格朗日乘子，用于满足给定的约束条件。

为了求解这个模型的参数λi，我们需要最大化似然函数，即观测数据的对数似然。

通过引入拉格朗日乘子，将问题转化为约束最优化问题。

具体步骤如下：1.定义拉格朗日函数：将最大熵模型的似然函数和约束条件引入拉格朗日函数：L(P,λ)=∑P(X,Y)(Y|X)logP(Y|X)−∑λini=1(∑P(X,Y)(Y|X)f i(X,Y)−E[f i(X,Y)])其中，E[f i(X,Y)]是在训练数据上特征函数f i(X,Y)的期望。

2.对拉格朗日函数求偏导数：对拉格朗日函数分别对参数λi和P(Y|X)求偏导数，令其等于零。

∂L ∂λi =∑P(X,Y)(Y|X)f i(X,Y)−E[f i(X,Y)]=0∂L∂P(Y|X)=logP(Y|X)+1−∑λini=1f i(X,Y)=03.解方程得到参数：通过求解上述方程组，得到拉格朗日乘子λi和最大熵模型的参数。

λi=1N ∑P(X,Y)(Y|X)f i(X,Y)4.模型预测：得到参数后，可以使用最大熵模型进行分类或其他任务的预测。

最大熵模型的训练过程涉及到数值优化方法，通常采用迭代的方法求解参数。

以上是基于拉格朗日乘子法的最大熵模型的训练过程的简要描述。

最大熵模型算法

最大熵模型算法今天我们来介绍一下最大熵模型系数求解的算法IIS算法。

有关于最大熵模型的原理可以看专栏里的这篇文章。

有关张乐博士的最大熵模型包的安装可以看这篇文章。

最大熵模型算法 1在满足特征约束的条件下，定义在条件概率分布P(Y|X)上的条件熵最大的模型就认为是最好的模型。

最大熵模型算法 23. IIS法求解系数wi先直接把算法粘贴出来，然后再用Python代码来解释。

这里也可以对照李航《统计学习方法》P90-91页算法6.1来看。

这个Python代码不知道是从哪儿下载到的了。

从算法的计算流程，我们明显看到，这就是一个迭代算法，首先给每个未知的系数wi赋一个初始值，然后计算对应每个系数wi的变化量delta_i，接着更新每个wi，迭代更新不断地进行下去，直到每个系数wi都不再变化为止。

下边我们一点点儿详细解释每个步骤。

获得特征函数输入的特征函数f1,f2,...,fn，也可以把它们理解为特征模板，用词性标注来说，假设有下边的特征模板x1=前词, x2=当前词, x3=后词 y=当前词的标记。

然后，用这个特征模板在训练语料上扫，显然就会出现很多个特征函数了。

比如下边的这句话，我/r 是/v 中国/ns 人/n用上边的模板扫过，就会出现下边的4个特征函数(start，我，是，r)(我，是，中国，v)(是，中国，人，ns)(中国，人，end，n)当然，在很大的训练语料上用特征模板扫过，一定会得到相同的特征函数，要去重只保留一种即可。

可以用Python代码得到特征函数def generate_events(self, line, train_flag=False):"""输入一个以空格为分隔符的已分词文本，返回生成的事件序列:param line: 以空格为分隔符的已分词文本:param train_flag: 真时为训练集生成事件序列；假时为测试集生成事件:return: 事件序列"""event_li = []# 分词word_li = line.split()# 为词语序列添加头元素和尾元素，便于后续抽取事件 if train_flag:word_li = [tuple(w.split(u'/')) for w inword_li if len(w.split(u'/')) == 2]else:word_li = [(w, u'x_pos') for w in word_li]word_li = [(u'pre1', u'pre1_pos')] + word_li + [(u'pro1', u'pro1_pos')]# 每个中心词抽取1个event，每个event由1个词性标记和多个特征项构成for i in range(1, len(word_li) - 1):# 特征函数a 中心词fea_1 = word_li[i][0]# 特征函数b 前一个词fea_2 = word_li[i - 1][0]# 特征函数d 下一个词fea_4 = word_li[i + 1][0]# 构建一个事件fields = [word_li[i][1], fea_1, fea_2, fea_4] # 将事件添加到事件序列event_li.append(fields)# 返回事件序列return event_li步进值 \delta_{i} 的求解显然delta_i由3个值构成，我们一点点儿说。

最大熵模型核心原理

最大熵模型核心原理一、引言最大熵模型(Maximum Entropy Model, MEM)是一种常用的统计模型，它在自然语言处理、信息检索、图像识别等领域有广泛应用。

本文将介绍最大熵模型的核心原理。

二、信息熵信息熵(Entropy)是信息论中的一个重要概念，它可以衡量某个事件或信源的不确定度。

假设某个事件有n种可能的结果，每种结果发生的概率分别为p1,p2,...,pn，则该事件的信息熵定义为：H = -∑pi log pi其中，log表示以2为底的对数。

三、最大熵原理最大熵原理(Maximum Entropy Principle)是指在所有满足已知条件下，选择概率分布时应选择具有最大信息熵的分布。

这个原理可以理解为“保持不确定性最大”的原则。

四、最大熵模型最大熵模型是基于最大熵原理建立起来的一种分类模型。

它与逻辑回归、朴素贝叶斯等分类模型相似，但在某些情况下具有更好的性能。

五、特征函数在最大熵模型中，我们需要定义一些特征函数(Function)，用来描述输入样本和输出标签之间的关系。

特征函数可以是任意的函数，只要它能够从输入样本中提取出有用的信息，并与输出标签相关联即可。

六、特征期望对于一个特征函数f(x,y)，我们可以定义一个特征期望(Expected Feature)，表示在所有可能的输入样本x和输出标签y的组合中，该特征函数在(x,y)处的期望值。

特别地，如果该特征函数在(x,y)处成立，则期望值为1；否则为0。

七、约束条件最大熵模型需要满足一些约束条件(Constraints)，以保证模型能够准确地描述训练数据。

通常我们会选择一些简单明了的约束条件，比如每个输出标签y的概率之和等于1。

八、最大熵优化问题最大熵模型可以被看作是一个最优化问题(Optimization Problem)，即在满足约束条件下，寻找具有最大信息熵的概率分布。

这个问题可以使用拉格朗日乘子法(Lagrange Multiplier Method)来求解。

最大熵模型——精选推荐

们对事物了解的不确定性的消除或减少。

他把不确定的程度称为信息熵。

假设每种可能的状态都有概率，我们⽤关于被占据状态的未知信息来量化不确定性，这个信息熵即为：
其中是以
扩展到连续情形。

假设连续变量的概率密度函数是，与离散随机变量的熵的定义类似，
上式就是我们定义的随机变量的微分熵。

当被解释为⼀个随机连续向量时，就是的联合概率密度函数。

4.2. ⼩概率事件发⽣时携带的信息量⽐⼤概率事件发⽣时携带的信息量多
证明略，可以简要说明⼀下，也挺直观的。

如果事件发⽣的概率为，在这种情况下，事件了，并且不传达任何
；反之，如果事件发⽣的概率很⼩，这就有更⼤的
对所有随机变量的概率密度函数，满⾜以下约束条件：
其中，是的⼀个函数。

约束
量的矩，它随函数的表达式不同⽽发⽣变化，它综合了随机变量的所有可⽤的先验知其中，是拉格朗⽇乘⼦。

对被积函数求的微分，并令其为。

最大熵模型(matlab应用)

04
最大熵模型的优化
正则化技术
L1正则化
也称为Lasso正则化，通过在损失函数中添加权重向量的L1范数，使得权重向量中的某些元素变为零，从而实现特征选择。
L2正则化
也称为Ridge正则化，通过在损失函数中添加权重向量的L2范数，使得权重向量的所有元素都变小，从而防止过拟合。
特征选择优化
基于互信息的特征选择
金融领域
最大熵模型在金融领域中可用于风险评估、股票预测和信用评分等任务。
02
最大熵模型的建立
特征选择
特征选择
在建立最大熵模型之前，需要选择与目标变量相关的特征。通过特征选择，可以去除无关或冗余的特征，提高模型的精度和泛化能力。
特征选择方法
常见的特征选择方法包括基于统计的方法、基于信息论的方法、基于模型的方法等。在Matlab中，可以使用如 fitcdiscr等函数进行特征选择。
图像识别
总结词
详细描述
最大熵模型在图像识别中也有着重要的应用，尤其在处理复杂图像时表现出色。
最大熵模型可以用于图像分类、目标检测和人脸识别等任务。通过训练最大熵模型，可以学习到图像的特征，并根据这些特征对图像进行分类或检测目标。最大熵模型在处理复杂图像时具有较好的鲁棒性，能够有效地处理噪声和光照变化等因素。
它基于信息论中的熵概念，熵表示随机变量的不确定
性或混乱程度。
03
在统计推断和机器学习中，最大熵原理常用于模型选
择和特征提取。
最大熵模型的定义
01
最大熵模型是一种基于最大熵原理的概率模型，它通过最大化熵值来选择概率分布。
02
在形式上，最大熵模型通常表示为一系列约束条件下的优化问

最大熵模型自然语言处理

最大熵模型自然语言处理什么是最大熵模型？最大熵模型在自然语言处理中应用的原理是什么？如何使用最大熵模型解决实际的自然语言处理问题？最大熵模型在自然语言处理中都有哪些典型应用？现在，让我们一步一步深入探讨这些问题。

最大熵模型是一种统计模型，其核心思想是基于最大熵原理。

在信息熵的概念中，熵被定义为系统的不确定性量度，而最大熵原理则是一种寻找最符合已知信息且不引入新的不确定性的方法。

最大熵模型的目标是构建一个能够最大程度上满足已知信息、但没有任何额外假设的模型。

在自然语言处理中，最大熵模型被广泛应用于各种问题的解决。

最大熵模型的原理可以通过以下步骤进行理解：第一步是定义问题和收集训练数据。

在自然语言处理中的最大熵模型应用中，问题可以是文本分类、命名实体识别、语义角色标注等。

训练数据是指包含了问题定义所需要的相关信息的数据集，通常由标注人员对样本数据进行人工标注得到。

第二步是定义特征函数。

特征函数是将问题与训练数据联系起来的手段，它可以是一种对问题的描述，表达问题中的某种特征。

这些特征函数通常由专家根据经验和领域知识确定。

第三步是定义最大熵模型的模型结构和参数空间。

最大熵模型采用指数模型的形式，其中模型的输出是特征函数的线性组合，并且由参数来控制每个特征函数的权重。

参数的选择可通过迭代算法，例如改进的迭代尺度法（I I S）进行求解。

第四步是训练和优化模型。

这一步骤中，最大熵模型使用训练数据进行参数学习，以最大化模型对训练数据的似然函数，从而得到最优的模型参数。

训练的过程可以通过梯度下降、牛顿法等优化算法进行求解。

第五步是使用训练好的最大熵模型解决实际问题。

这一步骤中，通过将待处理的文本数据转化成特征表示，然后利用训练好的最大熵模型进行预测和分类，从而实现自然语言处理任务的解决。

最大熵模型在自然语言处理中有许多典型的应用。

举例来说，最大熵模型可以应用于文本分类任务，用于将文本归类到不同的主题或类别中。

最大熵模型还可以用于命名实体识别，即从文本中识别并分类出人名、地名等具有特殊意义的实体。

数据分析知识：数据挖掘中的最大熵模型

数据分析知识：数据挖掘中的最大熵模型最大熵模型是一种常用的数据挖掘模型，广泛应用于文本分类、图像识别、语音识别等领域。

其基本思想是利用最大熵原理，寻找一个符合已知约束条件且熵最大的模型，在保证预测准确率的前提下，尽可能的不添加任何先验知识。

本文将介绍最大熵模型的原理以及应用，并探讨其优缺点。

1.最大熵原理最大熵原理是信息学中最基本的原理之一，它要求在具有一定约束条件的情况下，系统的不确定性最大。

例如，在进行文本分类时，哪一类文本的信息量最大，可以通过最大熵原理来解决。

在最大熵模型中，我们可以将数据看做是一组随机变量的取值序列，每个随机变量都可以做出多种取值。

假设数据集D由n个样本组成，每个样本包含m个属性值和一个类别标签。

其中，属性值可以是连续值或者离散值，类别标签只能是有限集合中的一个值。

给定一个样本x，我们需要计算其属于每个类别的概率，即P(y|x)，然后选取其中最大概率所对应的类别作为其预测值。

最大熵模型的核心就是求解归一化因子Z和每一个属性对数几率权值向量w。

先来看一下什么是对数几率。

对于样本x，当它属于某个类别y1时，P(y1|x)的概率值是已知的，而当它不属于y1时，即属于其他类别时，我们需要计算其与类别y1的对数几率：log P(y1|x) / P(y|x)其中，y为所有可能的类别，对数几率可以理解为样本属于某个类别y的可能性与不属于该类别y的可能性之间的量度，越接近0说明概率越接近1/2。

2.最大熵模型的应用最大熵模型被广泛应用于文本分类、语音识别和信息提取等领域。

例如，在文本分类中，假设有n篇文章，每篇文章都属于某个类别，我们需要通过它们的标题和主题词等属性进行分类。

此时，我们可以采用最大熵模型，将每个属性作为一个特征，然后求解每个特征对应的权值，将其作为分类模型。

在语音识别中，最大熵模型可以用于音素分类。

音素是一种基本的语音单位，例如“/a/”和“/e/”是两个不同的音素。

在语音识别中，我们需要根据输入音频信号的特征向量，来判断它属于哪个音素。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

p( x1 ) p( x2 ) 1
p( y ) 1
i 1 i
如果仅仅知道这一点，根据无偏见原则，“学习”被标为名词的概率与它被标为动词的概率相等。
p( x1 ) p( x2 ) 0.5
p( y1 ) p( y2 ) p( y3 ) p( y4 ) 0.25
yi Y ..3 1 其中: 1表示； 2表示； 3表示
• 用天平称n次，获得的结果是：y1 y2… yn • y1 y2… yn的所有可能组合数目是3n • 我们要通过y1 y2… yn找出x。所以：每个y1 y2… yn组合最多可能有一个对应的x取值。 • 因为x取X中任意一个值的时候，我们都要能够找出x，因此对于任意一个x的取值，至少要有一个y1 y2… yn与之对应。根据鸽笼原理……
最大熵模型与自然语言处理 MaxEnt Model & NLP
laputa c-liu01@ NLP Group, AI Lab, Tsinghua Univ.
Topics
• NLP与随机过程的关系（背景） • 最大熵模型的介绍（熵的定义、最大熵模型） • 最大熵模型的解决（非线性规划、对偶问题、最大似然率） • 特征选取问题 • 应用实例 • 总结与启发
称硬币(cont.)
为什么用log? • 假设一个Y的表达能力是H(Y)。显然，H(Y) 与Y的具体内容无关，只与|Y|有关。 • 两个Y(就是：y1y2)的表达能力是多少? • y1可以表达三种情况，y2可以表达三种情况。两个并列，一共有：3*3=9种情况（乘法原理）。因此：
H y1 H y2 H (Y ) H (Y ) H (Y Y ) 注意： Y Y Y Y
1 ? 2 3 ? 5 1/3
1 1/3
2 1/3
3 1/9
4 1/9
5 1/9
用反证法可以证明，这个是最小值。（假设第一个和第二个硬币中有一个要称两次的话……）
称硬币-Version.2
《数据结构》：Huffman编码问题。
1 ? 2 1 1/3 1 / 9 1 / 9 1 / 9 1 / 9 2 1/3 1 / 9 1 / 9 3 ? 5 1/3
p( y ) 1
i
4
2
1
除此之外，仍然坚持无偏见原则，我们尽量使概率分布平均。但问题是：什么是尽量平均的分布？
最大熵模型 Maximum Entropy
• 概率平均分布〈=〉熵最大 • 我们要一个x和y的分布，满足：
p( x1 ) p( x2 ) 1 p( y2 | x1 ) 0.95
称硬币(cont.)
• 答案：2次 • 一种方法：
< 1+2 ? 3+4 < = 1 ? 2 > 5 < 3 ? 4 > >
1
2
3
4
• Why最少2次?
称硬币(cont.)
1 • Let: x是假硬币的序号： x X ,2,3,4,5 • Let: yi是第i次使用天平所得到的结果：
问题again!
• (x1x2…xn y1y2…yi-1)？
What’s Entropy?
An Example： • 假设有5个硬币：1,2,3,4,5，其中一个是假的，比其他的硬币轻。有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一： • 左边比右边轻 • 右边比左边轻 • 两边同样重问：至少要使用天平多少次才能保证找到假硬币? （某年小学生数学竞赛题目:P）
称硬币-Version.2
因为第一个、第二个硬币是假硬币的概率是三分之一，比其他硬币的概率大，我们首先“怀疑”这两个。第一次可以把这两个做比较。成功的概率是三分之二。失败的概率是三分之一。如果失败了，第二次称剩下的三个。所以，期望值是：
1 log9 4 1 1 log3 3 9 log3 3 3 3 log3
称硬币(cont.)
“表达能力”与“不确定度”的关系？ log5 H X
H (Y )

log3
1.46
• 都表达了一个变量所能变化的程度。在这个变量是用来表示别的变量的时候，这个程度是表达能力。在这个变量是被表示变量的时候，这个程度是不确定度。而这个可变化程度，就是一个变量的熵（Entropy）。 • 显然：熵与变量本身含义无关，仅与变量的可能取值范围有关。
• 第一个等号在X为确定值的时候成立（没有变化的可能） • 第二个等号在X均匀分布的时候成立。
熵的性质
• 证明：
1 H X p x log px xX x : 1 p x 0 1 1 1即 log 0 px px 1 p x log 0 px 1 p x log 0 px xX H X 0
0 H(X )
熵的性质
• 证明：
H ( X ) log X
详细证明略。求条件极值就可以证明了（求偏导数，条件是：所有的概率之和为1）结论：均匀分布的时候，熵最大
Conditional Entropy
• 有两个变量：x,y。它们不是独立的。已知y，x的不确定度又是多少呢?
H X | Y
NLP与随机过程
问题：
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 …
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
Y X
n
称硬币(cont.)
x X ,2,3,4,5 1 • Let: x是假硬币的序号： • Let: Yi是第i次使用天平所得到的结果：
yi Y ..3 1 其中: 1表示； 2表示； 3表示
• • • •
用y1 y2… yn表达x。即设计编码：x-> y1 y2… yn H X的“总不确定度”是： X log X log5 H Y logY log3 Y的“表达能力”是：至少要多少个Y才能准确表示X？
p( y ) 1
i 1 i
4
p( y4 ) 0.05
• 同时使H(Y|X)达到最大值
最大熵模型 Maximum Entropy
NLP与随机过程
NLP:已知一段文字：x1x2…xn（n个词）标注词性y1y2…yn 标注过程：已知：x1x2…xn 求：y1 已知：x1x2…xn y1 求：y2 已知：x1x2…xn y1 y2 求：y3 已知：x1x2…xn y1 y2 y3 求：y4 …
NLP与随机过程
yi可能有多种取值，yi被标注为a的概率有多少? 随机过程：一个随机变量的序列。 x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3 … p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
已知与未知的关系—例子
i 1 已知： “学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… “学习”被标为定语的可能性很小，只有0.05
p( x1 ) p( x2 ) 1
p( y ) 1
i
4
我们引入这个新的知识：
p( y4 ) 0.05
除此之外，仍然坚持无偏见原则： p( x1 ) p( x2 ) 0.5
称硬币-Version.2
假设有5个硬币：1,2,3,…5，其中一个是假的，比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一；第二个硬币是假硬币的概率也是三分之一，其他硬币是假硬币的概率都是九分之一。有一个天平，天平每次能比较两堆硬币，得出的结果可能是以下三种之一： • 左边比右边轻 • 右边比左边轻 • 两边同样重假设使用天平n次找到假硬币。问n的期望值至少是多少？（不再是小学生问题:P）
NLP与随机过程
问题：
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系? 一个直观的解决：
p( yi a, x1..xn y1.. yn ) p( yi a | x1..xn y1.. yn ) p( x1..xn y1.. yn )
3 1/9
4 1/9
5 1/9
1 log9 4 1 1 log3 3 9 log3 3 3 3 log3
称硬币-Version.3,4,…∞
更广泛地：如果一个随机变量x的可能取值为 X={x1, x2,…, xk}。要用n位y: y1y2…yn表示（每位y有c种取值）n的期望值至少为：
称硬币-Version.2
《数据结构》：Huffman编码问题。
1 1/3
2 1/3
3 1/9
4 1/9
5 1/9
称硬币-Version.2
《数据结构》：Huffman编码问题。
3 ? 5 1/3
1 1/3
2 1/3
3 1/9
4 1/9

5 1/9
称硬币-Version.2
《数据结构》：Huffman编码问题。
0.95 p( y1 ) p( y2 ) p( y3 ) 3
已知与未知的关系—例子
p( x1 ) p( x2 ) 1
i 1 已知： “学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… p “学习”被标为定语的可能性很小，只有0.05 ( y4 ) 0.05 当“学习”被标作动词的时候，它被标作谓语的概率为 0.95 引入这个新的知识： p( y | x ) 0.95