第19章-蒙特卡罗法与自助法

合集下载

蒙特卡罗法

蒙特卡罗法

蒙特卡罗法简单介绍和案例蒙特卡罗法历史悠久。

1773年法国G.-L.L.von 布丰曾通过随机投针试验来确定圆周率π的近似值,这就是应用这个方法的最早例子。

蒙特卡罗是摩纳哥著名赌城,1945年 J.von 诺伊曼等人用它来命名此法,沿用至今。

数字计算机的发展为大规模的随机试验提供了有效工具,遂使蒙特卡罗法得到广泛应用。

在连续系统和离散事件系统的仿真中,通常构造一个和系统特性相近似的概率模型,并对它进行随机试验,因此蒙特卡罗法也是系统仿真方法之一。

对于蒙特卡罗技术应用于不可预见费的估算的研究,是对蒙特卡罗技术应用的拓展,能更好地了解尝试其在项目管理方面更多的应用,用其解决项目管理的问题。

用蒙特卡罗技术研究不可预见费,尝试用蒙特卡罗解决一般项目的不可预见费求取问题,避免不可预见费过高过低的问题。

蒙特卡洛方法的基本思想是:将符合一定概率分布的大量随机数作为参数带入数学模型,求出所关注变量的概率分布,从而了解不同参数对目标变量的综合影响以及目标变量最终结果的统计特性。

蒙特卡洛方法的基本原理简单描述如下:假定函数),...,,(21nx x x f y =,蒙特卡洛方法利用一个随机数发生器通过抽样取出每一组随机变量 (ni i i x x x ,...,,21),然后按),...,,(21n x x x f y =的关系式确定函数的值),...,,(21ni i i i x x x f y =。

反复独立抽样(模拟)多次(i=1,2,…),便可得到函数的一组抽样数据(n y y y ,...,,21),当模拟次数足够多时,便可给出与实际情况相近的函数y 的概率分布与其数字特征。

蒙特卡罗法(Monte Carlo Simulation )也称随机模拟,它主要依据概率分布对随机变量进行抽样,然后将样本带入数学模型进行计算得到应变量。

虽然蒙特卡罗模拟技术只给出的是统计估计而非精确的结果且应用其研究问题需要花费大量的计算时间,但它对问题的维数不敏感,对求解对象是线性问题与否也没有原则性要求,因此在复杂系统的不确定分析中,蒙特卡罗方法成为不可或缺的手段。

Monte Carlo方法简介

Monte Carlo方法简介

Monte Carlo方法
Modelling water adsorption on Au(210) surfaces: II. Monte Carlo simulations
Monte Carlo方法
高分子构象的Monte Carlo模拟
Monte Carlo方法
Adsorption Mechanism and Dynamic Behavior of Water and Ethanol Molecules Inside Au Nanotubes
统计系统的热力学性质及其他物理量
No
统计性 质不变?
打印结果,结束
Monte Carlo方法
微正则系综蒙特卡罗方法 巨正则系综蒙特卡罗方法 正则系综蒙特卡罗方法 等温等压蒙特卡罗方法
MC 就是一种通过重要性抽样的方法计算统计平均值的 一种随机方法。 它基于统计力学,通过 微观可观测量的系 综平均来求算其宏观性质,
1、数学:本身已形成计算数学的一个分支; 2、粒子物理:输运问题、屏蔽问题、核武器试验分析等; 3、统计物理、化学,材料、工程各领域; 4、其它:疾病传播与免疫、系统工程与管理优化等等。
Monte Carlo方法
1% 49 %
Nicholas Metropolis (1915-1999)
49 % 1%
•分子模拟的两种主要方法:
⑴ ⑵ 分子动力学法 (MD,Molecular Dynamics) 基于粒子运动的经典轨迹 Monte Carlo法 (MC) 基于概率和统计力学
Monte Carlo方法
1.2 Monte Carlo方法的发展历史
Monte Carlo 原为地中海沿岸Monaco(摩纳哥)的一个城市 的地名, 是世界闻名的大赌场,Monte Carlo方法的随机抽样特 征在它的命名上得到了反映。

蒙特卡罗方法课件1

蒙特卡罗方法课件1

N
其中Ds为区域Ds的体积。这是数值方法难以作到的。
因此,在具有随机性质的问题中,如考虑的系统形状很复杂,难以用 一般数值方法求解,而使用蒙特卡罗方法,不会有原则上的困难。
(3)收敛速度与问题的维数无关 由误差定义可知,在给定置信水平情况下,MC方法的误差为O(N-1/2) , 与问题本身的维数无关。维数的变化,只引起抽样时间及估计量计算时 间的变化,不影响误差。这一特点,决定了蒙特卡罗方法对多维问题的 适应性。
三、常用概念及定理
1、随机变量 2、数学期望:即均值
离散型随机变量
连续型随机变量
3、方差:即随机变量相对于其数学期望的偏离程度
4、大数定理:即当n趋于无限大时,随机变量的平均值将 稳定于某值(真值)。 5、中心极限定理:即讨论随机变量序列部分和的分布 渐近于正态分布的一类定理。这组定理是 数理统计学和误差分析的理论基础,指出 了大量随机变量近似服从正态分布的条件。
§2 蒙特卡罗方法概述---MC优点
(1)能够比较逼真地描述具有随机性质的事物的特点及物理实验过程 从这个意义上讲,蒙特卡罗方法可以部分代替物理实验,甚至可以得 到物理实验难以得到的结果。用蒙特卡罗方法解决实际问题,可以直 接从实际问题本身出发,而不从方程或数学表达式出发。它具有直观、 形象的特点。 (2)受几何条件限制小 计算s维空间中的任一区域Ds上的积分:
g g ( x1 , x2 ,, xs )dx1dx2 dxs
Ds
无论区域Ds的形状多么特殊,只要能给出描述Ds的几何特征的条件, 就可以从Ds中均匀产生N个点:
( x , x ,, x )
(i ) 1
(i ) 2
(i ) s
得到积分的近似值:
Ds gN N

第19章-蒙特卡罗法与自助法

第19章-蒙特卡罗法与自助法
14
(2) 参数自助法(parametric bootstrap)。 假设总体分布函数的形式已知,为 F ( x, ) ,而 未知。先得到 的 ˆ) 中重复抽样。 估计量ˆ (比如使用 MLE),然后从总体 F ( x, 此法的前提是对总体分布函数的形式比较确信。在此前提下,参 数自助法比非参自助法更有效率。 在回归模型中,需先确定条件分布的具体形式,即 y | x ~ F ( x, ) 。
f ( x) 。蒙特卡罗积分估计值为 其中, w( x) g ( x) ˆ 1 S w( x ) I MC s S s 1
从密度函数 g ( x) 中抽样的方法称为“重要性抽样” (importance
7
sampling),因为函数 w( x) 决定了每个样本点的权重或重要性。
19.5 最大模拟似然法与模拟矩估计 使用 MLE 的前提是,能写出似然函数 f ( y | x , θ ) 。 有时,该似然函数可能包含无法求解的积分。 比如, 在随机效应的非线性面板模型中, 要将个体效应 ui 积分掉( ui 不可观测),才能写出似然函数。
12
假设 x1 , x2 , , xn 是来自总体 F 的随机样本。 定义总体 F 的经验分布函数(empirical distribution function) Fn :
1 n Fn ( x) i 1 1( xi x), x n 1() 为示性函数,而 1( xi x) 表示样本中小于或等于 x 的个数。 i 1
E f ( x) f ( x) 1 dx I
0 1 1
b
抽取随机变量 x 的样本容量为 S 的随机样本,记为 x1 , , xs , , xS ,则蒙特卡罗积分估计值为 f ( x) 的样本均值:

chap15 蒙特卡罗模拟和自助法

chap15 蒙特卡罗模拟和自助法

此外,注意到原来的数据中约3000个为女性,2000个为男性。这样,我们考



虑按照原数据的男女比例进行抽样;也就是说,抽取300个女性,200个男性。 要做到这一点,要先生成一个新变量,令gender为female时新变量的值为300, gender为male时新变量的值为200。输入命令: gen st = cond(gender,300,200) 这里,我们将新变量命名为st。对于条件函数cond(x, a, b),其含义为:如果x 为真(或取值不是0),则返回a的值;如果x为假(或取值为0),则返回b的 值。对于本例,如果变量“gender”的值为female(1),则令变量st的值为 300;如果变量“gender”的值为male(0),则令变量st的值为200。 下面,我们就可以利用变量st作为“exp”来进行分层抽样。输入命令: bsample st, strata(gender) 这句命令的含义为,按变量gender的值进行分层抽样,且变量gender各个取 值对应的样本容量为st的值。也就是说,对于gender取值为female的观测值, 对应的抽样样本容量为300;对于gender取值为male的观测值,对应的抽样样 本容量为200。 下面,我们看一下样本的情况。输入命令: tab gender
2 简单随机抽样 对于“gender.dta”的数据,假设我们要采用简单随机抽样法抽取300
个样本,可输入命令: bsample 300 下面,我们来看一下数据文件现在的样本容量。输入命令: count
如果要只对男性进行简单随机抽样,我们可以利用条件语句。输入命

实验内容及数据来源
本实验中,我们会介绍如何生成均匀分布和正态分布

《蒙特卡罗方法》PPT课件

《蒙特卡罗方法》PPT课件

5
1.引言
Monte Carlo方法简史 简单地介绍一下Monte Carlo方法的发展历史
1、Buffon投针实验: 1768年,法国数学家Comte de Buffon利用投针实验估计的值
完整版ppt
L
d
p
2L d
6
1.引言
7 完整版ppt
1.引言
8 完整版ppt
1.引言
9 完整版ppt
23 完整版ppt
1.引言
注意以下两点: • Monte Carlo方法与数值解法的不同: ✓ Monte Carlo方法利用随机抽样的方法来求解物理问题;
✓数值解法:从一个物理系统的数学模型出发,通过求解一 系列的微分方程来的导出系统的未知状态;
• Monte Carlo方法并非只能用来解决包含随机的过程的问题:
28 完整版ppt
2.MC基本思想
二十世纪四十年代中期,由于科学技术的发展和 电子计算机的发明,蒙特卡罗方法作为一种独立的方 法被提出来,并首先在核武器的试验与研制中得到了 应用。但其基本思想并非新颖,人们在生产实践和科 学试验中就已发现,并加以利用。
➢ 两个例子 例1. 蒲丰氏问题 例2. 射击问题(打靶游戏)
4. 编程进行计算机模拟
5. 获得统计量
j
17 完整版ppt
1.引言
MC的模拟方法-1 确定统计方案
1 确定统计模型 1) 现象 模型
随机现象Y=Y(Xi), Xi={X1, X2, X3,…}
2) 确定随机变量Xi的分布特征fi(x) 平均分布,指数分布,正态分布,Γ分布…
2 确定统计量
j
i lnim1nkn1ik(xi,...)
1.引言

计算统计学中的蒙特卡罗方法

计算统计学中的蒙特卡罗方法在计算统计学领域中,蒙特卡罗方法是一种重要的数值计算技术。

蒙特卡罗方法是一种基于随机抽样的数值计算方法,其名称来源于蒙特卡罗赌场,意为通过随机抽样来近似求解复杂的数学问题。

一、蒙特卡罗方法的基本原理蒙特卡罗方法的基本原理是通过生成大量的随机数来近似求解数学问题。

这些随机数被用来模拟概率分布或系统模型,通过对这些随机数的统计分析来得出问题的解。

蒙特卡罗方法的关键在于随机性,通过增加随机性的数量和质量,可以提高近似解的准确性。

二、蒙特卡罗方法的应用领域蒙特卡罗方法在统计学中有着广泛的应用,特别是在概率论、统计推断和模拟实验等方面。

例如,在蒙特卡罗积分法中,随机数被用来模拟复杂的积分问题,从而得到数值解;在蒙特卡罗抽样法中,随机数被用来模拟样本的分布规律,从而进行统计推断;在蒙特卡罗模拟实验中,随机数被用来模拟实际系统的行为,从而得到实验结果。

三、蒙特卡罗方法的优缺点蒙特卡罗方法的优点在于可以处理复杂的数学问题,不受维数限制,且对计算误差的控制比较灵活。

然而,蒙特卡罗方法的计算量通常比较大,需要大量的随机数才能得到准确的结果,因此在一些实时性要求较高的计算问题中可能不适用。

四、蒙特卡罗方法的改进和发展随着计算机技术的不断发展,蒙特卡罗方法在计算统计学中得到了广泛的应用和发展。

研究者们通过改进蒙特卡罗方法的随机数生成算法、抽样技术和统计分析方法,使其在更多领域发挥作用。

同时,结合蒙特卡罗方法与其他数值计算方法,可以进一步提高计算效率和准确性。

总之,蒙特卡罗方法作为一种重要的数值计算技术,在计算统计学中扮演着重要的角色。

通过对随机数的巧妙运用,可以有效地解决复杂的数学问题,为统计学研究提供了有力的工具和方法。

希望本文对蒙特卡罗方法的原理、应用和发展有所启发,促进读者对计算统计学的深入理解和应用。

蒙特卡罗方法讲解

蒙特卡罗方法讲解
蒙特卡洛方法(Monte Carlo Method)又称几何表面积法,是用来解决统计及数值分析问题的一种算法。

蒙特卡洛方法利用了随机数,其特点是算法简单,可以解决复杂的统计问题,并得到较好的结果。

蒙特卡洛方法可以被认为是统计学中一种具体的模拟技术,可以通过模拟仿真的方式来估算一个问题的可能解。

它首先利用穷举或随机的方法获得随机变量的统计数据,然后针对该统计数据利用数理统计学的方法获得解决问题的推断性结果,例如积分、概率等。

蒙特卡洛方法在计算机科学中的应用非常广泛,可以用来模拟统计物理、金融工程、统计数据反演、运行时参数优化以及系统可靠性计算等问题,因此广泛被用于许多不同的领域。

蒙特卡洛方法的基本思想是:将一个难以解决的复杂问题,通过把它分解成多个简单的子问题,再用数学方法求解这些子问题,最后综合这些简单问题的结果得到整个问题的解。

蒙特卡洛方法的这种思路,也称作“积分”,即将一个复杂的问题,分解成若干小问题,求解它们的结果,再综合起来,得到整体的结果。

蒙特卡洛方法以蒙特卡罗游戏为基础,用统计学的方法对游戏进行建模。

蒙特卡罗方法PPT课件


第1页/共83页
蒙特卡 罗方法
直接方法
可以分解为各个独立 过程的随机性事件
统计方法 数值求解多维定积分
第2页/共83页
5.1 基本思想和一般过程
• Buffon投针实验
• 1768年,法国数学家Comte de Buffon利用投针实验估计 值
L
d
p 2L
d
第3页/共83页
• 长度为 l的针随机地落在相距为d>l 的一组水平线之间, 求针与线相交的概率?
分布的随机数的抽样,进行大量的计算随机模拟实验,从中获得随机变量 的大量试验值。各种概率模型具有不同的概率分布,因此产生已知概率分 布的随机变量,是实现Monte Carlo方法的关键步骤。最简单、最基本、 最重要的一个概率分布是(0,1)上的均匀分布 (或称矩形分布)。随机数就 是具有这种均匀分布的随机变量。对于其他复杂概率模型的概率分布可以 用数学方法在此基础上产生。因此,随机数是Monte Carlo模拟的基本工 具。
方法就叫做简单抽样法或非权重随机抽样法。
• 随机抽样法的真正优势表现在对较高维积分的近似求解,诸如在多体动力
学和统计力学中所遇到的问题。蒙待卡罗方法对较高维体系的积分误差仍

,而这时梯形定则给出的误差变为1/m2/D,这里D为维数。
1m
第21页/共83页
5.3.1 简单抽样 • 将其推广到多维的情况
模拟这个概率过程。对于本来不是随机性质的确定性问题,比如计算定积 分、解线性方程组及偏微分方程边值问题等,要用蒙特卡罗方法求解,就 必须事先构造一个人为的概率过程,它的某些参量正好是所要求的问题的 解。
第10页/共83页
5.1 基本思想和一般过程 • (2) 实现从已知概率分布的抽样 • 有了明确的概率过程后,为了实现过程的数字模拟,必须实现从已知概率

人工智能中的模型评估方法

人工智能中的模型评估方法人工智能在不断地向前发展,它在各个领域的应用越来越广泛。

其中,如何评估模型的性能和效果成为了一项重要的工作,模型评估方法的选择和正确性直接影响到模型输出的准确度和稳定性,因此模型评估方法的研究和探索显得至关重要。

一、模型评估的意义首先,模型评估的意义不言而喻,评估的目的在于了解模型的性能和效果,这有利于对模型的优化和改进。

模型评估一般包括准确度、鲁棒性、健壮性、稳定性等方面,这些指标都是我们需要考虑和关注的方面。

实际上,模型评估对于人工智能的发展至关重要,模型的优劣不仅影响到人工智能应用的效率和准确性,还关系到人工智能的发展方向。

二、模型评估中的常见方法模型评估中的常见方法包括交叉验证法、留置法、自助法、蒙特卡罗法等。

1. 交叉验证法交叉验证法是目前应用较多的一种模型评估方法。

这种方法的基本思路是,将数据集分成若干部分,每次拿其中的一部分数据做为测试集,其余部分做为训练集,这样就可以进行多轮训练和测试,从而得到更准确的模型评估结果。

2. 留置法留置法也是模型评估中常用的一种方法。

这种方法将整个数据集分为两部分,一部分用于训练模型,另一部分用于测试模型,通常将训练集和测试集的比例设置为7:3或8:2。

这种方法可以较快地得到模型的评估结果,但其精度和稳定性并不如交叉验证法。

3. 自助法自助法是一种基于自主抽样的模型评估方法。

这种方法的基本思路是,从原始数据集中随机抽取一部分数据组成样本集,对样本集进行训练,然后将训练集还原到原始数据集中,这样可以得到更多的训练集和测试集,从而有效提高模型的评估精度。

4. 蒙特卡罗法蒙特卡罗法是一种通过随机模拟来评估模型性能的方法。

这种方法可以针对不同的模型场景进行定制,简单易用,但其时间复杂度较高,通常需要较长的计算时间和计算资源。

三、模型评估中的注意事项模型评估的过程需要注意一些问题,以保证评估结果的准确性和可靠性,以下是一些注意事项:1. 数据集的选择和预处理模型评估的有效性直接关系到数据集的选择和预处理,数据集应该尽可能地代表真实情况和多样性,同时需要进行有效的预处理和清理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

© 陈强,《高级计量经济学及Stata 应用》课件,第二版,2014 年,高等教育出版社。

第 19 章蒙特卡罗法与自助法19.1 蒙特卡罗法的思想与用途通过计算机模拟从总体抽取大量随机样本的计算方法统称为“蒙特卡罗法”(Monte Carlo Methods,简记MC)。

例(计算圆周率π):在边长为1 的正方形中内接1单位圆。

正方形面积为1,1 4圆面积为π 4。

如知道1 4单位圆占正方形面积的比例,就可计算π。

图19.1 计算圆周率 的随机实验向这个正方形随机地射箭,落点在正方形上服从二维均匀分布。

重复实验n 次,其中有m 次落在1 4圆内。

23⎣ ⎦根据大数定律,m n −p−→π 4,故π≈ 4m n 。

在计量中,常用 MC 来确定统计量的小样本性质。

【例】对于y i = x i 'β + εi (i = 1, , n ),对H 0 : R β = r 进行显著性水平为 5%的大样本检验:W ≡ n (R βˆ - r )' ⎡ R A var(βˆ)R '⎤-1(R βˆ - r ) −d −→ χ 2 (m )其中βˆ 为 OLS 估计量,m 为线性约束个数。

渐近χ 2分布只是真实分布的近似,故“5%”可能只是“名义显著性水平”(nominal size),而非“真实显著性水平”(true or actual size),二者之差称为“显著性水平扭曲”(size distortion)。

可用MC 来确定“真实显著性水平”。

第一步,给定β的具体取值,以及x 与的概率分布。

第二步,从x 与的分布中随机抽样,得到{x1,{ε1, ε2 , , εn }。

x2, , x n }与第三步,根据方程y i=x i'β +εi 计算{y1,y2 , , y n }。

第四步,对此样本进行OLS 估计,计算统计量W ,与χ2 (m)的5%临界值比较,确定是否拒绝原假设H0 : Rβ =r 。

第五步,大量重复第二至第四步,得到M 个随机样本(比如,M =1 000),进行M 次检验,则拒绝原假设的比例就是真实显著性4水平。

19.2 蒙特卡罗法实例:模拟中心极限定理19.3 蒙特卡罗法实例:服从卡方分布的扰动项19.4 蒙特卡罗积分MC 的另一用途是计算复杂或高维的积分,称为“蒙特卡罗积分”(Monte Carlo integration)。

56b1 1=考虑计算定积分⎰ af (x ) dx ,其中a , b 为有限值。

通过变量替换,可将积分上下限变为1 与0,故仅考虑I ≡ ⎰0f (x ) dx 。

假设 x 服从在[0, 1]上的均匀分布,则随机变量函数f (x ) 的期望值E [ f (x )] = ⎰ 0f (x ) ⋅1 dx ≡ I抽 取 随 机 变 量 x 的 样 本 容 量 为 S 的 随 机 样 本 , 记 为 {x 1, , x s , , x S },则蒙特卡罗积分估计值为 f (x ) 的样本均值:ˆ 1 MC SSs =1 f (x s ) I ∑7⎣ ⎦=根据大数定律,当S → ∞ 时,样本均值I ˆ −p −→ E [ f (x )] = I 。

如果积分上限a 或下限b 为无穷,可从某个适当的概率密度g (x ) 中抽取随机样本{x 1, , x s , , x S }。

原积分总可写为b⎡ f (x ) ⎤ f (x ) d x = g (x ) dx ≡ bw (x )g (x ) dx= E [w (x )] ⎰ a ⎰ a ⎢ g (x ) ⎥ ⎰a其中,w (x ) ≡f (x )。

蒙特卡罗积分估计值为g (x )ˆ 1 MC S Ss =1w (x s)从密度函数 g (x ) 中抽样的方法称为“重要性抽样”(importanceMC I ∑ bsampling),因为函数w(x) 决定了每个样本点的权重或重要性。

19.5 最大模拟似然法与模拟矩估计使用MLE 的前提是,能写出似然函数f ( y |x, θ)。

有时,该似然函数可能包含无法求解的积分。

比如,在随机效应的非线性面板模型中,要将个体效应u i 积分掉(u i 不可观测),才能写出似然函数。

89i i 1记u i 的密度函数为g (u i ),并假设第 i 个观测值的似然函数为f ( y i | x i , θ) = ⎰ h ( y i | x i , θ, u i )g (u i ) du i如果积分无解析解,可使用蒙特卡罗积分进行估计。

从分布g (u i )中随机抽取 S 个观测值,记为{u 1, , u S},则上式的估计值为Sˆ sf ( y i | x i , θ) = ∑h ( y i s =1| x i , θ, u i )假设样本为 iid ,则整个样本的对数似然函数估计值为S10nln L ˆ(θ) = ∑ln f ˆ( y ii =1| x i , θ)其中,n 为样本容量。

最大化上式所得到的估计量θˆ 称为“最大模拟似然估计量”(Maximum Simulated Likelihood Estimator ,简记 MSL)。

在一定正则条件下,当模拟抽样的次数S → ∞ 时,f ˆ 对 f 的近似程 度越来越好,即( f ˆ - f ) −p −→0,则 MSL 为一致估计量。

→ 0(即 S ),则 MSL 为渐近有效估 计量(渐近等价于 MLE),且服从渐近正态分布。

MSL类似地,在进行矩估计时,如果矩条件中包含无解析解的积分,也可使用蒙特卡罗积分来估计此矩条件,然后进行矩估计。

此法称为“模拟矩估计”(Method of Simulated Moments),简记MSM。

19.6 自助法的思想与用途MC 虽然威力大,但必须对总体模型做很具体的假定,所得结论不清楚在多大意义上能够推广。

11Efron (1979)提出了对原始样本进行“再抽样”(resampling)的方法,即“自助法”或“自举法”(bootstrap)。

假设从总体抽得样本容量为n 的随机样本。

来自总体的样本带有总体的信息。

将此样本看作一个总体,进行“有放回”(with replacement)地抽样,样本容量仍然为n。

这种样本被称为“自助样本”(bootstrap sample)。

由于是有放回地抽样,原来的某些观测值可能不出现,而有些观测值则可能多次出现。

可通过计算机模拟获得许多自助样本,然后利用这些自助样本对总体进行统计推断。

1213∑假设{x 1, x 2 , , x n }是来自总体 F 的随机样本。

定义总体 F 的经验分布函数(empirical distribution function) F n :F (x ) = 1 ∑n 1(x ≤ x ), - ∞ < x < ∞ n ni =1 i1(⋅)为示性函数,而ni =11(x i ≤ x ) 表示样本中小于或等于 x 的个数。

经验分布函数的形状为阶梯函数,在每个x i 处向上跳一个台阶。

p可以证明,对任意x , F n (x ) −−→ F (x ),这是自助法成立的前提。

自助法可看成是从经验分布函数中不断地抽样。

自助法的用途主要有两个方面。

首先,对于某些统计量(比如,样本中位数),常规方法很难得到标准误。

可使用自助法,计算每个自助样本的样本中位数,得到样本中位数的分布,并计算其标准误。

其次,可使用自助法得到更加渐近有效的估计量(asymptotic refinement)。

19.7 自助法的分类(1)非参数自助法(nonparametric bootstrap),也称“经验分布自助法”(empirical distribution function bootstrap)。

将原始样本进行有放回地随机抽样。

在回归模型中,意味着将( y i ,xi)成对抽样,故也称“成对自助法”(paired bootstrap)。

14(2)参数自助法(parametric bootstrap)。

假设总体分布函数的形式已知,为F (x, θ),而θ未知。

先得到θ的估计量θˆ(比如使用MLE),然后从总体F (x, θˆ)中重复抽样。

此法的前提是对总体分布函数的形式比较确信。

在此前提下,参数自助法比非参自助法更有效率。

在回归模型中,需先确定条件分布的具体形式,即y | x ~F ( x, θ)。

一种方法是,得到估计量θˆ后,从F ( x, θˆ)中随机抽样得到对应的iy。

这相当于是“固定解释变量”(fixed regressors)的情形。

i另一种方法是,先从{x1,x2 , , x n }中进行再抽样(resample),得到1516} 1 2 n 1 1 n nx *,然后再从F ( x *, θˆ)中随机抽样得到对应的y i 。

这相当于“随机ii解释变量”(stochastic regressors)的情形。

(3) 残差自助法(residual bootstrap)。

对 于 回 归 模 型 y i = g ( x i , β ) + εi , 首 先 通 过 估 计 得 到 残 差 εˆi = y i - g ( x i , βˆ)。

对 残 差{εˆ1, εˆ2 , , εˆn } {εˆ*, εˆ* , , εˆ*}。

使 用 自 助 法 , 得 到 残 差 的 自 助 样 本计 算 对 应 的 y *= g ( x , βˆ) + εˆ* , 进 而 得 到 自 助 样 本{( y *, x ),, ( y *, x i i i) 。

171 219.8 使用自助法估计标准误假设原始样本为{x 1, x 2 , , x n } 。

对于未知参数 θ 的估计量 θˆ = θˆ(x 1, x 2, , x n),需计算标准误σθˆ≡,但有时无解析式。

如果从真实总体 F 获得样本容量为 n 的 B 个随机样本,对每个样 本都可计算θˆ,得到 B 个估计值{θˆ , θˆ , , θˆ },则其中θ≡ 1 ∑Bθˆ 。

s θˆBi =1 i B181 2 n 1 2 n1 2 B但真实总体 F 的分布未知,而从总体多次抽样的成本可能很高。

以经验分布函数F n 来近似真实分布 F ,并从F n 中大量抽取随机样 本,即在原始样本{x 1, x 2 , , x n }中每次有放回地抽样,得到样本容量为 n 的自助样本{x * , x *, , x *},并计算θˆ* = θˆ(x *, x *, , x * )。

如此重复,共抽取 B 个自助样本,则得到θ 的 B 个自助估计值{θˆ*, θˆ* , , θˆ* }。

可以定义标准误的自助估计为其中,θ *≡ 1∑B* θˆθˆ* 。

相关文档
最新文档