最大熵模型
最大熵模型简介

H ( p) p(x) log2 p(x)
x
p* arg max H ( p)
最大熵模型
❖ 例如: 给定一个词
假定已知存在四种词性:名词、动词、介词、指代词 ❖ 如果该词在语料库中出现过,并且属于名词的概率为70%,则判断
Generative Model vs. Discriminative Model
❖ Generative Model (GM): P(Y|X)=P(X|Y)P(Y)/P(X),通 过求解P(X|Y)和P(Y)来求解P(Y|X)
❖ Discriminative Model (DM): 对P(Y|X)直接建模
纲要
❖ 最大熵原理 ❖ 最大熵模型定义 ❖ 最大熵模型中的一些算法 ❖ 最大熵模型的应用 ❖ 总结 ❖ 思考题
最大熵模型(Maximum Entropy
Model)
❖
假设有一个样本集合 (x1, x2 ,... xn )
特征(j对f1, pf2的...制fk )约可以表示为
,我们给出k个特征 , Ep( f j ) E~p( f j )
p(X=3)=p(X=4)=p(X=5)=p(X=6)=0.1
最大熵原理
❖ 最大熵原理:1957 年由E.T.Jaynes 提出。 ❖ 主要思想:
在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最 大的概率分布。
❖ 原理的实质:
前提:已知部分知识 关于未知分布最合理的推断=符合已知知识最不确定或最随机的推断。 这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我 们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法 作出。
最大熵模型 拉格朗日乘子法

最大熵模型(Maximum Entropy Model,简称MaxEnt模型)是一种用于分类和建模的概率模型。
它的基本思想是在给定一些约束条件下,选择一个概率分布,使得该分布在不违反已知信息的前提下熵最大。
拉格朗日乘子法用于求解最大熵模型的参数。
以下是最大熵模型的基本形式:设X是输入变量,Y是输出变量,P(Y|X)是条件概率分布。
最大熵模型的条件概率分布P(Y|X)表示为:P(Y|X)=1Z(X)exp(∑λini=1f i(X,Y))其中:▪Z(X)是规范化因子,保证概率分布的和为1。
▪f i(X,Y)是特征函数,描述输入变量和输出变量之间的某种关系。
▪λi是拉格朗日乘子,用于满足给定的约束条件。
为了求解这个模型的参数λi,我们需要最大化似然函数,即观测数据的对数似然。
通过引入拉格朗日乘子,将问题转化为约束最优化问题。
具体步骤如下:1.定义拉格朗日函数:将最大熵模型的似然函数和约束条件引入拉格朗日函数:L(P,λ)=∑P(X,Y)(Y|X)logP(Y|X)−∑λini=1(∑P(X,Y)(Y|X)f i(X,Y)−E[f i(X,Y)])其中,E[f i(X,Y)]是在训练数据上特征函数f i(X,Y)的期望。
2.对拉格朗日函数求偏导数:对拉格朗日函数分别对参数λi和P(Y|X)求偏导数,令其等于零。
∂L ∂λi =∑P(X,Y)(Y|X)f i(X,Y)−E[f i(X,Y)]=0∂L∂P(Y|X)=logP(Y|X)+1−∑λini=1f i(X,Y)=03.解方程得到参数:通过求解上述方程组,得到拉格朗日乘子λi和最大熵模型的参数。
λi=1N ∑P(X,Y)(Y|X)f i(X,Y)4.模型预测:得到参数后,可以使用最大熵模型进行分类或其他任务的预测。
最大熵模型的训练过程涉及到数值优化方法,通常采用迭代的方法求解参数。
以上是基于拉格朗日乘子法的最大熵模型的训练过程的简要描述。
最大熵模型知识点总结

最大熵模型知识点总结
最大熵模型(Maximum Entropy Model)是一种统计模型,用于处理分类和回归问题。
这种模型基于信息论中的熵的概念,通过最大化熵来选择最合适的模型。
以下是最大熵模型的一些重要知识点:
1. 熵的概念:熵是信息论中的一个重要概念,用于衡量信息的不确定性。
熵越高,表示信息越不确定;熵越低,表示信息越确定。
2. 最大熵原理:最大熵原理认为,在不缺乏任何先验知识的情况下,应选择熵最大的模型。
这是因为最大熵对未知的事物进行了最少的假设,使得模型具有更好的灵活性和泛化能力。
3. 特征函数:最大熵模型使用特征函数来定义特征。
特征函数是一个将实例映射到特征值(0或1)的函数,用于描述实例与某种事件的关系。
每个特征函数对应一个特征,通过定义一组特征函数,可以构建最大熵模型的特征集。
4. 约束条件:最大熵模型的训练过程是一个求解最优化问题。
为了获得最大熵模型,需要定义一组约束条件。
这些约束条件可以用于限制模型的潜在搜索空间,使其符合一些先验知识。
5. 最优化算法:求解最大熵模型问题的常用方法是使用迭代的最优化算法,例如改进的迭代尺度法(Improved Iterative Scaling,IIS)和梯度下降法(Gradient Descent)。
最大熵模型在自然语言处理、信息检索和机器学习等领域有广泛的应用。
它可以用于文本分类、命名实体识别、情感分析和机器翻译等任务。
最大熵模型的灵活性和泛化能力使其成为一种强大的统计模型。
最大熵模型算法

最大熵模型算法今天我们来介绍一下最大熵模型系数求解的算法IIS算法。
有关于最大熵模型的原理可以看专栏里的这篇文章。
有关张乐博士的最大熵模型包的安装可以看这篇文章。
最大熵模型算法 1在满足特征约束的条件下,定义在条件概率分布P(Y|X)上的条件熵最大的模型就认为是最好的模型。
最大熵模型算法 23. IIS法求解系数wi先直接把算法粘贴出来,然后再用Python代码来解释。
这里也可以对照李航《统计学习方法》P90-91页算法6.1来看。
这个Python代码不知道是从哪儿下载到的了。
从算法的计算流程,我们明显看到,这就是一个迭代算法,首先给每个未知的系数wi赋一个初始值,然后计算对应每个系数wi的变化量delta_i,接着更新每个wi,迭代更新不断地进行下去,直到每个系数wi都不再变化为止。
下边我们一点点儿详细解释每个步骤。
获得特征函数输入的特征函数f1,f2,...,fn,也可以把它们理解为特征模板,用词性标注来说,假设有下边的特征模板x1=前词, x2=当前词, x3=后词 y=当前词的标记。
然后,用这个特征模板在训练语料上扫,显然就会出现很多个特征函数了。
比如下边的这句话,我/r 是/v 中国/ns 人/n用上边的模板扫过,就会出现下边的4个特征函数(start,我,是,r)(我,是,中国,v)(是,中国,人,ns)(中国,人,end,n)当然,在很大的训练语料上用特征模板扫过,一定会得到相同的特征函数,要去重只保留一种即可。
可以用Python代码得到特征函数def generate_events(self, line, train_flag=False):"""输入一个以空格为分隔符的已分词文本,返回生成的事件序列:param line: 以空格为分隔符的已分词文本:param train_flag: 真时为训练集生成事件序列;假时为测试集生成事件:return: 事件序列"""event_li = []# 分词word_li = line.split()# 为词语序列添加头元素和尾元素,便于后续抽取事件 if train_flag:word_li = [tuple(w.split(u'/')) for w inword_li if len(w.split(u'/')) == 2]else:word_li = [(w, u'x_pos') for w in word_li]word_li = [(u'pre1', u'pre1_pos')] + word_li + [(u'pro1', u'pro1_pos')]# 每个中心词抽取1个event,每个event由1个词性标记和多个特征项构成for i in range(1, len(word_li) - 1):# 特征函数a 中心词fea_1 = word_li[i][0]# 特征函数b 前一个词fea_2 = word_li[i - 1][0]# 特征函数d 下一个词fea_4 = word_li[i + 1][0]# 构建一个事件fields = [word_li[i][1], fea_1, fea_2, fea_4] # 将事件添加到事件序列event_li.append(fields)# 返回事件序列return event_li步进值 \delta_{i} 的求解显然delta_i由3个值构成,我们一点点儿说。
最大熵模型核心原理

最大熵模型核心原理一、引言最大熵模型(Maximum Entropy Model, MEM)是一种常用的统计模型,它在自然语言处理、信息检索、图像识别等领域有广泛应用。
本文将介绍最大熵模型的核心原理。
二、信息熵信息熵(Entropy)是信息论中的一个重要概念,它可以衡量某个事件或信源的不确定度。
假设某个事件有n种可能的结果,每种结果发生的概率分别为p1,p2,...,pn,则该事件的信息熵定义为:H = -∑pi log pi其中,log表示以2为底的对数。
三、最大熵原理最大熵原理(Maximum Entropy Principle)是指在所有满足已知条件下,选择概率分布时应选择具有最大信息熵的分布。
这个原理可以理解为“保持不确定性最大”的原则。
四、最大熵模型最大熵模型是基于最大熵原理建立起来的一种分类模型。
它与逻辑回归、朴素贝叶斯等分类模型相似,但在某些情况下具有更好的性能。
五、特征函数在最大熵模型中,我们需要定义一些特征函数(Function),用来描述输入样本和输出标签之间的关系。
特征函数可以是任意的函数,只要它能够从输入样本中提取出有用的信息,并与输出标签相关联即可。
六、特征期望对于一个特征函数f(x,y),我们可以定义一个特征期望(Expected Feature),表示在所有可能的输入样本x和输出标签y的组合中,该特征函数在(x,y)处的期望值。
特别地,如果该特征函数在(x,y)处成立,则期望值为1;否则为0。
七、约束条件最大熵模型需要满足一些约束条件(Constraints),以保证模型能够准确地描述训练数据。
通常我们会选择一些简单明了的约束条件,比如每个输出标签y的概率之和等于1。
八、最大熵优化问题最大熵模型可以被看作是一个最优化问题(Optimization Problem),即在满足约束条件下,寻找具有最大信息熵的概率分布。
这个问题可以使用拉格朗日乘子法(Lagrange Multiplier Method)来求解。
最大熵模型——精选推荐

们对事物了解的不确定性的消除或减少。
他把不确定的程度称为信息熵。
假设每种可能的状态都有概率,我们⽤关于被占据状态的未知信息来量化不确定性,这个信息熵即为:
其中是以
扩展到连续情形。
假设连续变量的概率密度函数是,与离散随机变量的熵的定义类似,
上式就是我们定义的随机变量的微分熵。
当被解释为⼀个随机连续向量时,就是的联合概率密度函数。
4.2. ⼩概率事件发⽣时携带的信息量⽐⼤概率事件发⽣时携带的信息量多
证明略,可以简要说明⼀下,也挺直观的。
如果事件发⽣的概率为,在这种情况下,事件了,并且不传达任何
;反之,如果事件发⽣的概率很⼩,这就有更⼤的
对所有随机变量的概率密度函数,满⾜以下约束条件:
其中,是的⼀个函数。
约束
量的矩,它随函数的表达式不同⽽发⽣变化,它综合了随机变量的所有可⽤的先验知其中,是拉格朗⽇乘⼦。
对被积函数求的微分,并令其为。
最大熵模型(matlab应用)
04
最大熵模型的优化
正则化技术
L1正则化
也称为Lasso正则化,通过在损失函数中添加权重向量的L1范数,使得权重向量中的某些元素变为零,从而实现 特征选择。
L2正则化
也称为Ridge正则化,通过在损失函数中添加权重向量的L2范数,使得权重向量的所有元素都变小,从而防止过 拟合。
特征选择优化
基于互信息的特征选择
金融领域
最大熵模型在金融领域中可用于风险 评估、股票预测和信用评分等任务。
02
最大熵模型的建立
特征选择
特征选择
在建立最大熵模型之前,需要选择与 目标变量相关的特征。通过特征选择, 可以去除无关或冗余的特征,提高模 型的精度和泛化能力。
特征选择方法
常见的特征选择方法包括基于统计的 方法、基于信息论的方法、基于模型 的方法等。在Matlab中,可以使用如 fitcdiscr等函数进行特征选择。
图像识别
总结词
详细描述
最大熵模型在图像识别中也有着重要的应用, 尤其在处理复杂图像时表现出色。
最大熵模型可以用于图像分类、目标检测和 人脸识别等任务。通过训练最大熵模型,可 以学习到图像的特征,并根据这些特征对图 像进行分类或检测目标。最大熵模型在处理 复杂图像时具有较好的鲁棒性,能够有效地 处理噪声和光照变化等因素。
它基于信息论中的熵概念,熵表示随机变量的不确定
性或混乱程度。
03
在统计推断和机器学习中,最大熵原理常用于模型选
择和特征提取。
最大熵模型的定义
01
最大熵模型是一种基于最大熵原理的概率模型,它通过最大化 熵值来选择概率分布。
02
在形式上,最大熵模型通常表示为一系列约束条件下的优化问
最大熵模型
2011-3-21
熵 : 信息熵
2011-3-21
对熵的感性认识
熵就是不确定性的变化程度。 熵与变量本身含义或值无关,只和变量的可能取值范围有 关。
熵公式的理解:熵的性质
0≤H(X) ≤log|X| 第一个等号在X为确定值的时候成立(没有变化的可能) 第二个等号在X均匀分布的时候成立
最大熵理论: 最大熵理论 : 熵增原理
2011-3-21
自然界中的熵增原理 熵 : 自然界中的 熵增原理
熵增原理是熵在自然界的变化规律 一个孤立系统的熵,自发性地趋于极大,随着熵的增加, 有序状态逐步变为混沌状态,不可能自发的产生新的有序结构。 当熵处于最小值,即能量集中程度最高、有效能量处于最 大值时,那么整个系统也处于最有序的状态,相反为最无序状 态。 熵增原理预示着自然界越变越无序。
基于最大熵的统计建模:参数估计
基于最大熵的统计建模:参数估计
GIS算法(Generalized Iterative Scaling) Darroch and Ratcliff,1972 IIS算法(Improved Iterative Scaling) Della Pietra ,1995 SCGIS算法 Goodman,2002 其他算法
最大熵模型的优缺点
最大熵模型的优点: 最大熵模型的优点: 建模时,试验者只需集中精力选择特征,而不需要花费精 力考虑如何使用这些特征。 特征选择灵活,且不需要额外的独立假定或者内在约束 模型应用在不同领域时的可移植性强 可结合更丰富的信息
最大熵模型的优缺点
时空开销大 数据稀疏问题严重 对语料库的依赖性较强
最大熵方法及其在自然语言 处理中的应用
最大熵理论
熵 信息熵 最大熵理论 最大熵模型 参数估计 特征选择 最大熵模型的应用
最大熵模型的理论与应用分析
最大熵模型的理论与应用分析随着信息时代的发展,数据的获取与处理越来越便利化,大数据分析成为了信息技术的重要研究领域。
在数据分析中,分类问题一直是一个重要的研究方向。
最大熵模型(maximum entropy model)作为一种灵活、有效的分类模型,在分类问题中得到了广泛的应用。
本文将从理论与应用两个方面,对最大熵模型进行详细的分析。
一、理论分析1、最大熵原理最大熵模型的核心是最大熵原理(maximum entropy principle)。
从信息熵的角度来看,最大熵原理认为,在未知的条件下,应选择使信息熵最大的随机变量作为概率分布。
设我们有一个随机变量$X$,它的取值为$x_1,x_2,\cdots,x_n$,对应的概率为 $p_1,p_2,\cdots,p_n$。
它的熵为:$$H(X)=-\sum_{i=1}^np_i\log_2p_i$$对于已知条件 $\{f_m(X)=a_m\}(m=1,2,\cdots,M)$,应满足以下约束条件:$$\sum_{i=1}^np_i=1$$$$\sum_{i=1}^n f_m(x_i) p_i =a_m, m=1,2,\cdots,M$$根据最大熵原理,当所有的 $\{p_i\}$ 的可能值中使得$H(X)$ 最大的概率分布应该被选出来成为 $X$ 的分布,这就是最大熵模型的基本思想。
式子表述为:$$P(X=x_i)=\exp\bigg(\sum_{k=1}^K \lambda_k f_k(x_i)\bigg) / Z$$其中 $Z$ 为规范化因子,$\lambda_k$ 为 Lagrange 乘子,$f_k(x_i)$ 是定义在取值为 $x_i$ 的样本上的特征函数,$K$ 表示特征函数的个数。
注意到 $\lambda_k$ 即决定了特征 $f_k(x)$ 对预测的影响,因此他们也被称为权重。
2、最大熵模型的优点在分类任务中,最大熵模型具有以下优点:①最大熵分类可应用于多分类、二分类以及文本分类领域,且具有很强的灵活性;②最大熵分类的理论基础是最大熵原理,具有严格的数学基础,具有较好的可解释性和推荐问题;③最大熵分类假设了特征函数可以任意选择,也即无论特征是离散的还是连续的,都可以自由选择,这种灵活性增加了最大熵分类的泛化能力;④判断每个特征的重要性,有助于增加模型的可解释性。
数学之美:最大熵模型(不要把所有鸡蛋放到一个篮子里)(下)
数学之美:最大熵模型(不要把所有鸡蛋放到一个篮子里)(下)我们上次谈到用最大熵模型可以将各种信息综合在一起。
我们留下一个问题没有回答,就是如何构造最大熵模型。
我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。
最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS(generalized iterative scaling) 的迭代算法。
GIS 的原理并不复杂,大致可以概括为以下几个步骤:1. 假定第零次迭代的初始模型为等概率的均匀分布。
2. 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则,将它们便大。
3. 重复步骤 2 直到收敛。
GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。
但是,这两人没有能对这种算法的物理含义进行很好地解释。
后来是由数学家希萨(Csiszar)解释清楚的,因此,人们在谈到这个算法时,总是同时引用Darroch 和Ratcliff 以及希萨的两篇论文。
GIS 算法每次迭代的时间都很长,需要迭代很多次才能收敛,而且不太稳定,即使在 64 位计算机上都会出现溢出。
因此,在实际应用中很少有人真正使用GIS。
大家只是通过它来了解最大熵模型的算法。
八十年代,很有天才的孪生兄弟的达拉皮垂(Della Pietra)在IBM 对GIS 算法进行了两方面的改进,提出了改进迭代算法IIS (improved iterative scaling)。
这使得最大熵模型的训练时间缩短了一到两个数量级。
这样最大熵模型才有可能变得实用。
即使如此,在当时也只有 IBM 有条件是用最大熵模型。
由于最大熵模型在数学上十分完美,对科学家们有很大的诱惑力,因此不少研究者试图把自己的问题用一个类似最大熵的近似模型去套。
谁知这一近似,最大熵模型就变得不完美了,结果可想而知,比打补丁的凑合的方法也好不了多少。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
称硬币(cont.)
为什么用log? • 假设一个Y的表达能力是H(Y)。显然,H(Y)
与Y的具体内容无关,只与|Y|有关。 • 两个Y(就是:y1y2)的表达能力是多少? • y况1可。以两表个达并三列种,情一况共,有y:2可3*以3表=9达种三情种况情
• 用y1 y2… yn表达x。即设计编码:x-> y1 y2… yn • X的“总不确定度”是:H XloX glo5g • Y的“表达能力”是: H YloYglo3g • 至少要多少个Y才能准确表示X?
HXlo5g1.46
H(Y) lo3g
称硬币(cont.)
• Why???
H H X Y llo oY X g g llo o3 5g gH H(YX)lloo53gg1.46
最大熵模型 与
自然语言处理
MaxEnt Model & NLP
laputa c-
NLP Group, AI Lab, Tsinghua Univ.
Topics
• NLP与随机过程的关系(背景) • 最大熵模型的介绍(熵的定义、最大熵
模型) • 最大熵模型的解决(非线性规划、对偶
问题、最大似然率) • 特征选取问题 • 应用实例 • 总结与启发
他的硬币轻。有一个天平,天平每次能比较两堆硬币, 得出的结果可能是以下三种之一:
• 左边比右边轻 • 右边比左边轻 • 两边同样重 问:至少要使用天平多少次才能保证找到假硬币? (某年小学生数学竞赛题目:P)
称硬币(cont.)
• 答案:2次 • 一种方法:
1+2 ? 3+4
<
>
=
1?2
5
3?4
<
11lo3g31lo9g4 3 3 lo3g 9 lo3g 3
称硬币-Version.2
《数据结构》:Huffman编码问题。
1
2
3
4பைடு நூலகம்
5
1/3 1/3 1/9
1/9
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3
…
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
x1x2…xn x1x2…xn y1 x1x2…xn y1 y2 x1x2…xn y1 y2 y3
…
p(y1=a|x1x2…xn) p(y2=a|x1x2…xn y1) p(y3=a|x1x2…xn y1 y2) p(y4=a|x1x2…xn y1 y2 y3)
NLP与随机过程
问题:
• p(yi=a|x1x2…xn y1y2…yi-1)怎么求? • yi与x1x2…xn y1y2…yi-1的关系?
(乘法原理)。因此:
H y1H y2H (Y)H (Y)H (Y Y)
注Y意 YY : Y
称硬币(cont.)
“表达能力”与“不确定度”的关H系X?lo5g1.46
H(Y) lo3g
• 都表达了一个变量所能变化的程度。在这个变 量是用来表示别的变量的时候,这个程度是表 达能力。在这个变量是被表示变量的时候,这 个程度是不确定度。而这个可变化程度,就是 一个变量的熵(Entropy)。
NLP与随机过程
NLP:已知一段文字:x1x2…xn(n个词) 标注词性y1y2…yn 标注过程:
已知:x1x2…xn 已知:x1x2…xn y1 已知:x1x2…xn y1 y2 已知:x1x2…xn y1 y2 y3
…
求:y1 求:y2 求:y3 求:y4
NLP与随机过程
yi可能有多种取值,yi被标注为a的概率有多少? 随机过程:一个随机变量的序列。
一个直观的解决:
p (y i a |x 1 .x .ny 1 .y .n )p (y p i( x 1 a .,x x .n 1 .y 1 x ..n y y .n 1 .)y .n )
问• 题(xa1xg2a…in!xn y1y2…yi-1)?
What’s Entropy?
An Example: • 假设有5个硬币:1,2,3,4,5,其中一个是假的,比其
• 显然:熵与变量本身含义无关,仅与变量的可 能取值范围有关。
称硬币-Version.2
假设有5个硬币:1,2,3,…5,其中一个是假的,比其他的 硬币轻。已知第一个硬币是假硬币的概率是三分之一; 第二个硬币是假硬币的概率也是三分之一,其他硬币是 假硬币的概率都是九分之一。
有一个天平,天平每次能比较两堆硬币,得出的结果可能 是以下三种之一:
>
<
>
1
2
3
4
• Why最少2次?
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5 • Let: yi是第i次使用天平所得到的结果:
y i Y 1 . 3 . 其 : 1 表 中 ; 2 表 示 ; 3 表 示 示
• 用天平称n次,获得的结果是:y1 y2… yn • y1 y2… yn的所有可能组合数目是3n • 我y2…们要yn通组过合y最1 y多2…可y能n找有出一x个。对所应以的:x每取个值y。1 • 因为x取X中任意一个值的时候,我们都要能
够找出x,因此对于任意一个x的取值,至少 要理…有…一个y1 y2… yn与之对应。根据鸽笼原
Yn X
称硬币(cont.)
• Let: x是假硬币的序号: x X 1 ,2 ,3 ,4 ,5
• Let: Yi是第i次使用天平所得到的结果:
y i Y 1 . 3 其 . : 1 表 中 ; 2 表 示 ; 3 表 示 示
• 左边比右边轻 • 右边比左边轻 • 两边同样重 假设使用天平n次找到假硬币。问n的期望值至少是多少? (不再是小学生问题:P)
称硬币-Version.2
因为第一个、第二个硬币是假硬币的概率 是三分之一,比其他硬币的概率大,我们 首先“怀疑”这两个。第一次可以把这两 个做比较。成功的概率是三分之二。失败 的概率是三分之一。如果失败了,第二次 称剩下的三个。所以,期望值是: