Poisson分布的参数估计
泊松分布因子

泊松分布因子全文共四篇示例,供读者参考第一篇示例:泊松分布因子(Poisson distribution parameter)是泊松分布中的一个重要参数,它决定了随机事件发生的速率或频率。
泊松分布是描述单位时间内事件发生次数的概率分布,通常应用于描述稀有事件的发生情况,如地震发生的次数、电话呼叫的次数等。
泊松分布因子的大小影响着泊松分布曲线的形状和特征。
一般来说,泊松分布因子越大,表示事件发生的速率越快,泊松分布曲线也越陡峭,事件发生的可能性也越高。
反之,泊松分布因子越小,表示事件发生的速率越慢,曲线也越平缓,事件发生的可能性也越低。
在实际应用中,泊松分布因子的确定往往依赖于具体的问题和样本数据。
一般来说,可以通过历史数据或实验结果来估计泊松分布因子,从而预测未来事件的发生情况。
根据泊松分布的数学性质,泊松分布因子可以通过均值和方差来计算,从而精确地描述事件发生的规律和趋势。
除了影响泊松分布的形状和特征外,泊松分布因子还可以用来比较不同事件之间的发生频率。
通过比较不同事件的泊松分布因子,可以评估事件的重要性和影响力,从而有针对性地制定相应的应对措施和策略。
泊松分布因子在风险管理、运筹学、统计分析等领域都有重要的应用价值。
在实际应用中,我们需要注意泊松分布因子的取值范围和边界条件。
泊松分布因子通常为非负实数,且不应过大或过小,否则可能引发模型不稳定或失真的问题。
在确定泊松分布因子时,需要充分考虑数据的精确性和可靠性,以确保模型的准确性和可靠性。
泊松分布因子是泊松分布的一个重要参数,它影响着泊松分布曲线的形状和特征,决定了事件发生的速率和频率。
通过合理确定泊松分布因子,我们可以更好地理解事件的发生规律和趋势,从而做出更准确的预测和决策。
希望通过本文的介绍,读者能够对泊松分布因子有一个更深入的理解,并在实际应用中能够灵活运用。
第二篇示例:泊松分布因子是指在泊松分布中的一个参数,用来描述事件在一定时间或空间范围内出现的频率。
泊松过程 参数估计

泊松过程参数估计全文共四篇示例,供读者参考第一篇示例:泊松过程是一种常见的随机过程,其在很多领域都有着广泛的应用,比如通信网络、金融市场、医学统计学等。
泊松过程最基本的特点就是事件在时间上是随机地不断发生的,且事件之间是相互独立的。
泊松过程的一个关键参数就是事件的发生率,即单位时间内事件发生的次数,通常用λ来表示。
在实际应用中,我们常常需要对泊松过程的参数进行估计,以便更好地理解、分析和预测事件的发生情况。
参数估计的目的就是通过已有的样本数据,来估计未知的参数值。
泊松过程的参数估计方法有很多种,比如极大似然估计、贝叶斯估计等,下面我们就来详细介绍一下这些方法。
首先我们来介绍一下极大似然估计(Maximum Likelihood Estimation,简称MLE)。
极大似然估计是一种常用的参数估计方法,其目标是选择最能够使观测到的数据出现的概率最大的参数值。
对于泊松过程来说,假设我们有一组事件的发生时间数据,我们可以通过计算这些事件的时间间隔来得到事件发生的频率,然后通过极大似然估计的方法来估计λ的值。
具体来说,设有n个事件发生,分别在时间t1,t2,...,tn发生,时间间隔分别为Δt1=t1,Δt2=t2-t1,...,Δtn=tn-tn-1。
假设事件发生率为λ,那么事件发生时的概率密度函数为P(Δt)=λe^(-λΔt),当所有事件都发生时的联合概率密度函数为L(λ)=∏(i=1,n)λe^(-λΔti)。
然后通过最大化L(λ)来得到λ的估计值。
除了极大似然估计外,贝叶斯估计也是一种常见的参数估计方法。
贝叶斯估计是一种基于贝叶斯定理的方法,其核心思想是先验概率和后验概率的更新。
对于泊松过程来说,我们可以引入一个先验分布作为事件发生率λ的先验信息,然后通过贝叶斯定理来更新这个先验分布,得到后验分布,从而估计λ的值。
我们可以假设λ服从一个指数分布,即先验分布为P(λ)=exp(-λ),那么在得到观测数据后,我们可以根据贝叶斯定理得到后验分布为P(λ|data)∝L(λ)×P(λ),然后通过后验分布来估计λ的值。
刻度平方误差损失下Poisson分布参数的Bayes估计

Ab ta t s r c :Th a e s i to f h is n ds rb to a a t ru d rs aes u r d e r rl s u e eB y se t main o ePos o itiu in p r mee n e c l q a e ro o sf n — t
讨 论参 数 0的 B ys 计 , 于任 一 先 验分 布 , ae 估 对
倒数 的 B y s a e 估计 , 本文研究在刻度平方误差损失 函数 下 , oso P i n分 布 参 数 的 B ys估 计 及 可 容 许 s ae 性, 并给出了参数多层 B ys ae 估计的表达式. X , 。…, X , X 是其容量为 的简单随机样本 , 2 , ”, X1X2… , 。 2 z 为 , , Xl的实 现值 , 时 X1 此 ,
第3 4卷 第 5 期 20 0 8年 1 0月
兰
州
理
工
大
学
学
报
Vo . 4 13 No 5 |
Oc. 0 8 tnv r i fTe h oo y o r a fLa z o ie st o c n lg y
文章 编 号 : 35 9 (0 8 0 —1 20 1 7— 16 2 0 ) 50 5 —3 6
^ : :
在刻 度 平方误 差 损失 I 3 ]
( : ( 8 2 , : 0- ) =— () 2
意义 下 考虑 参数 0的估 计 , 中 愚为非 负整 数 , 其 特别 的当 k =0时该 损 失 函数恰 为 平方 损失 函数 , 是
Poisson分布的统计分析

Poisson分布的概率分布规律
X取值范围为非负整数,即0,1,…; 其相应取值概率为 k
P X k k! e
式中e:自然对数的底,e≈2.7182;是大于0的常数。 X服从以为参数(X的总体均数)的Poisson分布可记 为X~P()
5
Poisson分布的特性
7
正态分布与Poisson分布的关系
=3
=5
8
=10
=20
Poisson分布的特性
Poisson分布与二项分布的关系
设X~B (n , ),则当n→∞且n保持不变时,可以 证明X的极限分布是以n 为参数的Poisson分布 由以上性质可得,当n很大,很小时,二项分布近似 Poisson分布。当n很大时,二项分布概率的计算量相 当大。因此可以利用二项分布的Poisson近似这一性质, 当n很大且很小时,可以用Poisson分布概率计算替代 二项分布的概率计算
拒绝
H0
,接受
,可认为该地新生儿出生缺陷发生率高于全国。
21
Poisson分布两样本均数 的比较
方法原理
当两个样本计数均较大时,可根据Poisson分布 近似正态分布的性质作u检验。当两样本计数中有 一个较小或两个均较小时,可先作变量转换,然 后再作适当的检验。本节仅介绍两个样本计数均 较大时的u检验。根据两个样本观察单位是否相同, 所采用的计算公式又分为两种。
0
0X
X!
,计算
2 3 4 . 2 4 . 2 4 . 2 e 4.2 e 4.2 e 4.2 1! 2! 3!
= 0.014996+0.062981+0.132261+0.185165=0.395403 故按 0.05 水准,不拒绝 H 0 ,尚不能认为该地孕产妇的死亡率 低于一般。
Poisson分布的参数估计

Poisson 分布的参数估计作者:高晨 指导老师:戴林送摘要 泊松分布是概率统计学科中一种重要的离散分布,在参数估计这块,对点估计,矩估计,最大似然估计以及近似的区间估计等,该文中对泊松分布的相关知识,包括其性质,参数的相关估计,研究了泊松分布的一些性质,参数的估计,以及一些在生活中的简单应用。
关键词 Poisson 分布 参数估计 性质 简单应用1 引言Poisson 分布是离散型随机变量X 作为大量试验中稀有事件出现的频数的概率分布的数学模型,其中X 可能取值为0,1,2,……而取各个值的概率为:{},0,1,2!k e P x k k k λλ-===其中0λ>是常数,称X 服从参数为λ的泊松~(;)X P k x .1.1相关定义1. 离散型随机变量X 的函数分布律{},0,1,2k k P X x P k ===,若级数1kk k xp ∞=∑绝对收敛,称级数1kk k xp ∞=∑为随机变量X 的数学期望[]E x ,[]E x =1k k k x p ∞=∑.2. 定理:Y 是随机变量X 的函数,(),(Y g x g =是连续函数),X 是离散型随机变量,若1()kkk g x p∞=∑绝对收敛,则[][()]E Y E g x ==1()k k k g x p ∞=∑.3. 随机变量X ,若2{[()]}E X E X -存在,则称2{[()]}E X E X -为X 的方差,记为()D x 或()Var x ,即()D x =()Var x =2{[()]}E X E X -.()x σ=X 有相同的量纲),称为标准差或均方差。
注记:()D x 是刻画X 取值分散程度的一个量,也可以看成是函数()g x =2[()]X E X -的数学期望。
离散型随机变量X ,()D x =21[()]k k k x E X p ∞=-∑.其中{},1,2,3k k P X x p k ===是X 的分布律。
泊松分布参数的稳健估计_NoRestriction

学士学位论文论文题目:泊松分布参数的稳健估计作 者: 常晋源导 师: 崔恒建教授系别、年级: 数学科学学院 05级学科、专业: 统计学完成日期:09年05月北京师范大学教务处北京师范大学学士学位论文(设计)诚信承诺书本人郑重声明:所呈交的学士学位论文(设计),是本人在导师的指导下,独立进行研究工作所取得的成果。
除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担。
本人签名:常晋源 09年05月6日北京师范大学学士学位论文(设计)使用授权的说明本人完全了解北京师范大学有关收集、保留和使用学士学位论文(设计)的规定,即:本科生在校攻读学位期间论文(设计)工作的知识产权单位属北京师范大学。
学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文(设计)被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
保密的学位论文在解密后遵守此规定。
本论文(是、否√)保密论文。
保密论文在年解密后适用本授权书。
本人签名:常晋源09年05月6日导师签名:崔恒建09年05月6日泊松分布参数的稳健估计常晋源摘要本文主要以非对称分布中泊松分布为研究对象, 探讨了其参数的稳健估计方法. 在本文中, 作者以截断似然估计为基础, 结合Cizek的工作, 提出了适用于泊松分布参数的一种稳健估计方法. 该方法避免了事先选取截断比例的麻烦, 通过数据自身的信息给出在平均似然最大准则下的最优截断比例. 在文中的模拟部分, 分别就未受污染和受污染的泊松分布数据进行了模拟, 得到了不错的效果.关键词:自适应极大截断似然估计、泊松分布、崩溃点、稳健估计Robust estimation of parameter in Poisson distributionJinyuan ChangAbstractIn this paper, the author takes the Poisson distribution as representative of unsymmetrical distributions and studies the robust estimation method of the parameter. The author suggests a robust estimation method for the parameter in Poisson distribution based on the work of Cizek and the method of maximum trimmed likelihood estimation. The method mentioned in this paper avoids to choose the trimmed proportion of data in advance, and gives the optimum proportion by the information of data under the criterion of maximum average likelihood function. In simulation part, the data of Poisson distribution which be contaminated and not be contaminated has carried out a simulation respectively, has got good effect.Key words: adaptive maximum trimmed likelihood estimator, Possion distribution, breakdown point, robust estimation目录1. 介绍 12. 泊松分布的参数估计 22.1 极大似然估计 (2)2.2 M估计 (2)2.3 极大截断似然估计 (4)2.4 自适应极大截断似然估计 (4)3. 自适应极大截断似然估计的性质 53.1 自适应极大截断似然估计的渐近性质 (5)3.2 自适应极大截断似然估计的崩溃点 (6)4. 有限样本的性质 74.1 未受污染数据的模拟 (7)4.2 受污染数据的模拟 (8)5. 结论 116. 附录 11参考文献 16致谢 171. 介绍对于一个给定的分布(;f x)λ而言, 我们常常关心它的位置参数. 因为位置参数往往从一定程度上反映了该分布的平均水平. 在对位置参数进行估计的时候, 主要选取的方法有: 极大似然估计, 矩估计, M估计等. 其中极大似然估计最为常用; 但是极大似然估计由于强烈依赖于每个数据, 因此其稳健性较差. 当有一个坏数据时, 极大似然估计会与真实值有较大的差异. 为了提高估计量的稳健性, Huber[1]在1964年首次提出了M估计的概念. 极大似然估计可以看成是特殊的M估计. M估计较极大似然估计而言, 稳健性有所提高, 但是估计的有效性却比不上极大似然估计. 基于极大似然估计的有效性, Neykov和Neytchev[2]在1990年提出了极大截断似然估计的方法. 由于极大截断似然估计在实际计算时比较麻烦, Hadi和Luceno[3]在1997年给出了计算极大截断似然估计的方法. 但是截断比例的选取是一个比较困难的问题. 究竟应该选择多大, 并没有一个一致的准则. 我们只知道截断比例选取得越大, 那么得到的估计稳健性就越好, 但是估计的有效性却越差. 对于对称分布而言, 极大截断似然估计和切尾均值是一致的. Jureckova等[4]在1994年通过渐近方差达到最小的准则给出了选择截断数据的比例. 但是当分布不是对称分布的时候, Jureckova等的方法就不再适用.对于非对称分布中的泊松分布而言, 其在实际生活中有着十分重要的地位. 很多的实际模型都是基于泊松过程提出的, 然而在某个确定时刻, 泊松过程就相当于是一个泊松分布. 因此, 如何估计泊松分布的参数在理论和实际中都有着重要意义. 理论上, 我们可以在估计泊松分布参数的方法基础上, 考虑其是否适合于其它非对称分布的位置参数估计; 实际中, 较为准确地估计出泊松分布的参数对未来情况的预测有着重要作用.Cizek[5]在解决广义线性模型——Binary-Choice回归模型时, 提出了一种通过数据自身情况决定截断比例的方法. 本文就是在这个想法的基础上, 通过一定的改进, 提出了一种估计泊松分布参数的方法; 并说明了该方法在估计泊松分布参数时的可行性.在本文的第2章中, 我们通过比较已有估计的优缺点, 提出了自适应极大截断似然估计的概念; 在第3章中, 我们就泊松分布假设下, 自适应极大似然估计的极限情况和稳健性进行了探讨; 在第4章中, 我们通过Monte Carlo方法进行模拟, 比较了自适应极大截断似然估计和其它已有方法在估计泊松分布参数时的表现; 在最后一章中, 我们就文中的引理与定理给出了相应的证明.2. 泊松分布的参数估计在本章中, 我们首先给出估计泊松分布参数的常用方法: 极大似然估计, M 估计以及极大截断似然估计; 然后就这三种估计各自的优缺点进行分析; 最后基于这三种估计方法的不足之处, 提出一种名叫自适应极大截断似然估计的方法.2.1 极大似然估计对于分布而言, 其密度函数记为F ();f x λ, 其中λ为待估的参数. 假设1,,n X X L 是服从分布的独立样本. 称由(2.1)式确定的F ()MLE λ为参数λ的极大似然估计.()(MLE 1arg max log ;ni i f x λ)λλ∈==∑%%R (2.1) 对于泊松分布而言, (){}()0,1,;!xf x e x λλλ−=1L x . 因此由(2.1)确定的极大似然估计为()MLE 1nx x nλ++=L (2.2) 因此, 在泊松分布中, 其参数的极大似然估计就是统计量X .从该表达式, 我们可以发现当数据中有一个坏数据(即离群值)的时候, 该表达式会与真实结果之间产生较大的偏差.对于泊松分布参数λ的极大似然估计()MLE λ而言, 其方差为n λ. 另一方面, 由Rao-Cramer 不等式可知: 对于λ的任何无偏估计而言, 其方差的下界为n λ. 因此, 在对泊松分布参数进行估计时, ()MLE λ是最有效的估计(即最小方差无偏估计). 进一步, 由极大似然估计的近似分布性质可知: ()MLE λ具有近似分布(,N λλ)n . 这也就是为什么在估计泊松分布的参数时常用极大似然估计的原因.2.2 M 估计对于分布而言, 其密度函数记为F ();f x λ, 其中λ为待估的参数. 假设1,,n X X L 是服从分布的独立样本. 在正则条件下, F λ的极大似然估计()MLE λ等价于方程(2.3)的解.()()1;0;ni i if x f x λλ=′=∑%%(2.3) 对于泊松分布而言, (2.3)式即为()10nii xλ=−=∑% (2.4) 令, 则泊松分布参数()0u Ψ=u λ的极大似然估计()MLE λ就是(2.5)的解.()10nii xλ=Ψ−=∑% (2.5) 对于(2.4)式而言, 我们可以发现大数据i x 对其影响很大. 换而言之, 如果数据被污染, 有离群值在里面的话, 那么用(2.4)式得到的估计会与真实值有较大偏差. Huber [1]提出我们可以选择对大数据不敏感的()u Ψ代替上面给出的,以减小离群值对估计的影响. 我们称(2.6)式的解()0u Ψ()ME λ为M 估计.()10nii xλ=Ψ−=∑% (2.6) 进一步, 考虑到数据的尺度问题, 将(2.6)改进为10ni i x λσ=⎛⎞−Ψ=⎜⎟⎝⎠∑% (2.7)其中2σ为方差. 因此, 在泊松分布中, 其参数λ的M 估计()ME λ是(2.8)的解.10ni =⎛⎞Ψ=∑ (2.8) 由M 估计的近似分布性质可知: ()ME λ具有近似分布22,E N n E λλ⎛⎞⎡⎤⎜⎟Ψ⎢⎥⎜⎟⎣⎦⎜⎟⎧⎫⎜⎟⎡⎤⎪⎪′Ψ⎨⎬⎜⎟⎢⎥⎜⎟⎪⎪⎣⎦⎩⎭⎝⎠Huber 建议在(2.7)中取和d 如下:()u Ψ()(), sign , u k u k u u k −≤≤⎧⎪Ψ=⎨⋅>⎪⎩u k()median median 0.6745i i x x d −= 其中用d 作为σ的估计.Hampel [6]在自己的博士论文中给出了估计泊松分布参数的最优方法. 由于其给出的最优方法中性质并不太好, Simpson 等()u Ψ[7]在1987年给出了一个性质更好的用于估计泊松分布的参数.()u Ψ2.3 极大截断似然估计基于上面提到的极大似然估计和M 估计的性质, 我们可以发现: 极大似然估计虽然是最小方差无偏估计, 但其受离群值的影响很大, 其稳健性较差; M 估计虽然具有较好的稳健性, 但是函数()u Ψ的选取较为麻烦, 即便是Hampel 和Simpson 等给出的也较为麻烦, 这为实际操作带来了不小的麻烦. Neykov 和Neytchev ()u Ψ[2]基于极大似然估计的优良性质, 提出通过似然函数截断一些可能的坏数据后再进行估计的方法. 这种方法既保留了似然函数的部分性质, 又提高了估计量的稳健性.对于分布而言, 其密度函数记为F ();f x λ, 其中λ为待估的参数. 我们称(2.9)所对应的估计()MTLE,h λ为参数λ的极大截断似然估计. ()[]([]MTLE,1arg max;nh i j j nh l x λ)λλ∈Λ=+=∑%% (2.9) 其中()(;log ;l x f x )λλ=%%, [](;i j l x )λ%表示(){}1;ni i l x λ=%中的第j 次序统计量, 为Λλ%的取值范围. 要使估计()MTLE,h λ与真实结果相差不太大的话, 我们可以从Λ入手进行考虑. 在估计泊松分布参数的时候, 我们可以通过如下的定理, 给出Λ.定理1 若()~i x P λ, 则{}[]median i x λ⎯⎯→P.证明见附录.通过这个定理, 我们可以发现: 只要让{}{}median ,median 1i i x x κΛ=+−⎡⎤⎣⎦, 其中充分小. 那么0κ>()MTLE,h λ与λ就不会相差太大.2.4 自适应极大截断似然估计基于2.3小节中提到的极大截断似然估计而言, 它有一些不错的性质. 但是截断比例的选取并没有一致的方法. 通常情况下, 截断比例的选取依赖于一些先验知识. 当取得越大, 则h h ()MTLE,h λ受坏数据的影响越小, 但有效性会降低. 因此, 我们考虑用平均似然达到最大的方法来确定截断比例. 称(2.10)所对应的h截断比例为最优截断比例.*h [)[]((MTLE,*[]0,[]11arg max ;nh j ih j nh h l n nh λδλ∈=+=−∑))x (2.10) 其中()MTLE,h λ的定义如(2.9)所示, λδ为对截断比例上限的限制.令()()*MTLE,AMTLE h λλ=, 称估计量()AMTLE λ为自适应极大截断似然估计. 在实际操作中, 我们可以用下面的方法来给出λδ.对于给定的样本{}, 我们首先用样本的中位数1ni i x ={}median i x 作为位置参数λ的估计, 记{}median i u =x ; 然后令1!u uu e u λδ−=−. 我们来解释为什么这样选取λδ.根据定理1, 我们可以看出受数据影响较小的中位数在样本量趋于无穷的时候, 虽然不是无偏估计, 但其和真实值之间的差异并不太大. 在样本量充分大的时候, 用上面所给的λδ作为截断上限可以保证得到的估计与λ相差不大.3. 自适应极大截断似然估计的性质在本章中, 我们首先对于自适应极大截断似然估计考虑它的极限性质, 然后给出该估计的崩溃点.3.1 自适应极大截断似然估计的极限性质根据(2.10)关于自适应极大截断似然估计中最优截断比例的定义, 我们可以知道: 当样本量的时候, 会以概率1趋于, 有(3.1)式确定.n →∞*h 0h 0h )()()()()()()()MTLE,MTLE,MTLE,100,arg max ;;h h h h h E l x l x G λλδλλ−⎡∈⎣=>%%%%h )(3.1) 其中表示变量()1G h λ−%(;l x λ%分布的下分位点, 即h ()()()1Pr ;1l x G h h λλ−>=%%−; ()MTLE,h λ%表示当样本量的时候, n →∞()MTLE,h λ依概率收敛的极限, λδ%表示当样本量n 的时候, →∞λδ依概率收敛的极限.为了说明当样本量的时候, n →∞()AMTLE λ依概率收敛的极限. 我们首先给出如下引理.引理1 对于确定的0+λ∈R , ()()()()100;;E l x l x G h λλλ−>关于是不降的函数.h 证明见附录.根据引理1, 我们可以得到()AMTLE λ依概率收敛的极限, 即下面的定理.定理2 若()~x P λ, 则()[]AMTLE λλ⎯⎯→P.证明见附录.通过定理2, 我们可以发现: 在估计泊松分布的参数时, ()AMTLE λ是渐近有偏的估计; 但是该估计具有较好的稳健性(我们在下一小节中将进行阐述). 对比定理1和定理2, 我们可以发现: 用中位数和自适应极大截断似然估计对泊松分布参数进行估计的时候, 这二者的极限是相同的; 但是在第4章中, 我们将看到在有限样本的时候, 用自适应极大截断似然估计会比中位数更好.3.2 自适应极大截断似然估计崩溃点对于一个估计而言, 我们常常考虑它受坏数据影响的情况. 我们称一个估计是稳健的, 是指它受坏数据影响较小, 即数据集中有坏数据和没有坏数据时的估计结果相差不大. 但这种定义只是一个描述性的定义, 对问题的分析没有太大的作用. Müller 和Neykov [8]给出了一种描述一个估计稳健性的指标. 在本文中, 我们也用这个定义来描述估计的稳健性. 定义: 对于估计而言, 给定样本:ng →Ωk{}1ni i x ==x 时, 可以得到.()g ∈Ωx 令(){}{}:card :nM j j (j x x M =∈≠≤k kx x , )()()M M g g =k x x ).称(3.2)式确定的为该估计的崩溃点.(*,g εx (){*1,min g nε=x :M 不存在紧集()0int Ω⊆Ω, 使得()}0M g ⊆Ωx (3.2) 定理3 在估计泊松分布参数时, ()AMTLE λ的崩溃点接近0.5 证明见附录.从定理3, 我们可以看出()AMTLE λ的崩溃点很高, 这说明该估计的稳健性很好. 虽然该估计并非渐近无偏的, 但是其高崩溃点的性质非常良好; 同时, 该估计与真实值之间相差并不太大, 因此我们有理由预期: 在实际操作中, 该估计方法具有良好的表现. 我们在第4章中会通过模拟的方法来说明这一点.4. 有限样本的性质在本章中, 我们将通过模拟的方法来说明自适应极大截断似然估计在有限样本时的表现. 本章分为两个小节, 第一小节采用的是未受污染的数据; 第二小节采用的是受污染的数据.在这两个小节中, 我们考虑的样本量n 分别为100, 200和400. 对于相同样本量的数据, 我们分别用极大似然估计, M 估计, 极大截断似然估计, 自适应极大截断似然估计和中位数对泊松分布的参数进行估计. 对于某一种估计结果ˆλ, 我们考虑它的均方误差MSE 和平均偏差EB. 这二者的定义如(4.1)所示.()()2ˆˆMSE E λλλ=− ()ˆˆEB E λλλ=− (4.1) 在实际计算这两个指标时, 我们采用Monte Carlo 方法, 用多次模拟的平均值近似真值. 这由大数定律是可以保证的. 为了提高估计的精度, 在Monte Carlo 方法的基础上, 我们用Hammersley 等[9]减少方差的方法对模拟方法进行改进.4.1 未受污染数据的模拟取不同的λ得到的模拟结果如表1所示.表1 未受污染数据的模拟情况0.5λ=1λ=100n =200n =400n =100n =200n =400n =估计方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.0049 0.00060.0024 -0.00030.0013-0.00010.00980.00050.0050-0.0005 0.0025 0.0001ME0.0342 -0.15850.0308 -0.16920.0303-0.17160.0147-0.07120.0101-0.0730 0.0077 -0.0731MTLE(0.1) 0.0730 -0.24870.0689 -0.25800.0676-0.25820.0007-0.00110.00000.0001 0.0000 0.0001MTLE(0.2) 0.1679 -0.39030.1669 -0.40450.1683-0.40870.0011-0.00190.00000.0001 0.0000 0.0001AMTLE 0.0090 -0.06590.0069 -0.06820.0059-0.06850.0015-0.00210.00000.0001 0.0000 0.0001MEDIAN 0.2480 -0.48290.2499 -0.49890.2500-0.50000.0022-0.00260 0 0 03.5λ=4λ=100n =200n =400n =100n =200n =400n =估计方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.0353 0.00260.0177 0.00250.00870.00010.03980.00200.0202-0.0025 0.0100 -0.0001ME0.0982 -0.04350.0683 -0.06930.0441-0.10170.0485-0.07600.0282-0.0809 0.0170 -0.0794MTLE(0.1) 0.1267 -0.10800.0976 -0.14030.0708-0.17160.0455-0.03160.0121-0.0109 0.0013 -0.0015MTLE(0.2) 0.2136 -0.23700.2192 -0.31970.2236-0.39680.0738-0.05790.0218-0.0206 0.0026 -0.0026AMTLE 0.0404 -0.07070.0225 -0.07100.0138-0.07260.04120.00890.01160.0126 0.0021 0.0096MEDIAN 0.2344 -0.26680.2418 -0.34640.2466-0.42240.0866-0.08540.0266-0.0289 0.0034 -0.0038(附表) 10.5λ=11λ=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.1053 0.00330.0514 -0.00630.02520.00250.11120.00190.0548-0.0031 0.0268 0.0006ME0.1601 0.04660.1071 0.02340.09450.02210.13490.04100.05260.0219 0.0260 0.0230MTLE(0.1) 0.2092 -0.05510.1598 -0.10440.1339-0.14440.1829-0.04090.0842-0.0474 0.0259 -0.0213MTLE(0.2) 0.2488 -0.10880.2042 -0.16500.1953-0.22150.2214-0.09160.1134-0.0902 0.0380 -0.0420AMTLE 0.1149 -0.06990.0594 -0.08080.0307-0.07120.1213-0.07220.0635-0.0789 0.0339 -0.0752MEDIAN 0.2769 -0.17380.2424 -0.22820.2431-0.29740.2434-0.14740.1357-0.1176 0.0498 -0.0515λ20.5=21λ=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.2054 -0.00860.1033 0.00330.05070.00270.20990.00410.1058-0.0014 0.0525 0.0040ME0.2626 0.05770.1495 0.05590.10150.05500.26940.07430.12670.0444 0.0612 0.0400MTLE(0.1) 0.3396 -0.04090.2035 -0.05720.1624-0.09280.3463-0.02180.1794-0.0494 0.0758 -0.0372MTLE(0.2) 0.3983 -0.08580.2412 -0.09970.1926-0.13260.4021-0.06290.2204-0.0826 0.1008 -0.0510AMTLE 0.2192 -0.08290.1110 -0.07010.0571-0.07120.2221-0.06830.1157-0.0757 0.0599 -0.0709MEDIAN 0.4158 -0.17960.2720 -0.17800.2452-0.21540.4174-0.16230.2474-0.1578 0.1211 -0.1075注: λ1=的时候, 样本量等于200和样本量等于400的时候, 出现的0.0000表示的是, 模拟结果的量级比小数点后四位还要小.从表1中, 我们可以发现: 当数据未受污染时, 自适应极大截断似然估计的MSE 是较其他稳健方法而言, 是最小的; 并且EB 也不是太大, 也就是说在未受污染的情况下, 自适应极大截断似然估计有良好的表现; 对于中位数估计而言, 当位置参数很小或者非整数时, 其估计效果不佳, 比如在0.5λ=的时候, 中位数估计的结果和零非常的接近, 在很多样本中中位数就是0, 这与实际是不相符合的. 从这一点也能看出, 自适应极大截断似然估计就中位数估计而言, 有一定的改进作用.4.2 受污染数据的模拟在本小节中, 我们主要对两类污染下各估计方法的好坏进行模拟. 第一类是混合泊松分布()()()1P P ελελ′−+, 第二类是点污染()()1x P ελεδ−+, 其中ε表示污染数据的比例.模拟第一类污染下各估计方法的好坏, 得到的模拟结果如表2所示; 模拟第二类污染下各估计方法的好坏, 得到的模拟结果如表3所示.0.5λ=, 5λ′=0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.2379 -0.3610 0.2256 -0.43970.2089-0.48430.25900.49930.25480.4997 0.2523 0.4998ME0.1289 -0.2287 0.1154 -0.28060.1097-0.28720.15680.04000.15440.0570 0.1595 0.0883MTLE(0.1) 0.0348 0.0073 0.0171 -0.02030.0066-0.03820.12850.28680.13600.3043 0.1463 0.3256MTLE(0.2) 0.0653 -0.1133 0.0491 -0.15490.0397-0.18010.13240.18930.13850.2115 0.1471 0.2396AMTLE 0.0111 0.0632 0.0073 0.06110.00540.05930.06380.23580.06050.2370 0.0595 0.2394MEDIAN 0.0702 0.2507 0.0664 0.25050.06410.24950.16150.12230.16500.1460 0.1714 0.17633λλ′=7.5, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.2363 0.4484 0.2204 0.45050.21060.44930.84430.89750.83130.9014 0.8074 0.8988ME0.0834 0.2166 0.0654 0.21700.05660.21740.34550.55400.32850.5567 0.3160 0.5536MTLE(0.1) 0.0386 0.0773 0.0084 0.03970.00210.02060.27630.39540.21310.3538 0.1399 0.3013MTLE(0.2) 0.0317 0.0368 0.0039 0.01160.00020.00250.23800.29400.17300.2404 0.0971 0.1812AMTLE 0.0490 0.1099 0.0185 0.08070.01050.06520.22810.24640.16160.1716 0.0826 0.0872MEDIAN 0.0309 0.0182 0.0030 0.00310.27190.37350.20560.3288 0.1298 0.275810.5λλ′=18, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.4296 0.5569 0.3956 0.55900.38980.55040.92940.95290.86860.9508 0.8358 0.9487ME0.2993 0.3896 0.2272 0.39930.21450.42640.64150.72130.57740.7187 0.5445 0.7172MTLE(0.1) 0.2839 0.2809 0.2171 0.29950.21170.35250.63770.66190.47360.6185 0.3618 0.5788MTLE(0.2) 0.2968 0.2309 0.2349 0.25010.23340.30880.60490.61310.43980.5811 0.3297 0.5500AMTLE 0.2082 0.2243 0.1494 0.22440.12100.22470.48050.52590.35750.5277 0.2684 0.5262MEDIAN 0.2884 0.1780 0.2418 0.21870.24340.29190.54530.55990.39550.5404 0.2891 0.516021λ=, 30λ′=0.1ε= 0.2ε= 100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EB MLE 0.5525 0.4986 0.2636 0.49770.21540.48370.85030.85410.75940.8462 0.6994 0.8507ME0.3117 0.2970 0.1972 0.29570.14660.30290.69000.67720.58790.6881 0.5255 0.6854MTLE(0.1) 0.4552 0.3189 0.2687 0.28180.16980.24290.85510.69010.66950.6758 0.6329 0.6884MTLE(0.2) 0.4748 0.2786 0.2763 0.24850.16780.21280.85240.64870.64770.6312 0.6102 0.6397AMTLE 0.3601 0.3011 0.2476 0.30700.13390.30610.74880.51340.59350.5093 0.5514 0.5218MEDIAN 0.4273 0.1820 0.2502 0.17340.14210.13430.72960.55370.57920.5606 0.5792 0.58640.5λ=, 5x =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.2372 -0.33740.2444 -0.41340.2487-0.47480.25490.60090.25280.6008 0.2511 0.6001ME0.0161 0.09150.0122 0.08990.00990.08920.11760.32840.11280.3287 0.1097 0.3278MTLE(0.1) 0.0378 0.05270.0210 0.02920.00680.00790.16950.38660.18330.4082 0.1978 0.4292MTLE(0.2) 0.0676 -0.09150.0521 -0.13230.0390-0.16680.15230.27450.16620.3132 0.1828 0.3535AMTLE 0.0671 0.15030.0648 0.15010.06370.15020.17780.20190.18690.2508 0.1990 0.3020MEDIAN 0.1284 -0.20470.1152 -0.25470.1060-0.29940.22900.14010.23590.1876 0.2401 0.24849x λ=3, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.2803 0.50360.2633 0.49990.25620.4995 1.03250.9998 1.0118 1.0001 1.0051 0.9996ME0.1152 0.27920.0948 0.27540.08550.27560.59330.73910.56790.7382 0.5549 0.7371MTLE(0.1) 0.0449 0.09030.0116 0.05160.00380.03320.56900.68470.50460.6610 0.4411 0.6293MTLE(0.2) 0.0592 0.07460.0116 0.02340.00130.00520.31650.34920.26720.2932 0.1922 0.2128AMTLE 0.0388 0.05090.0063 0.01920.00070.00710.32440.34960.26910.2998 0.2005 0.2078MEDIAN 0.0373 0.02960.0047 00047 0.00010.00020.31420.33610.26580.2800 0.1911 0.199419x λ=10.5, =0.1ε=0.2ε=100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 0.6212 0.52760.5209 0.54970.48450.5936 2.4007 1.4787 2.3686 1.5133 2.3052 1.5075ME0.2960 0.44770.2439 0.44360.21930.44260.97310.94340.93340.9448 0.9131 0.9449MTLE(0.1) 0.4889 0.57500.3939 0.56960.35100.5674 1.7089 1.2541 1.6573 1.2602 1.6686 1.2767MTLE(0.2) 0.4017 0.53010.3127 0.51660.27880.5141 1.3066 1.0687 1.2341 1.0594 1.2012 1.0544AMTLE 0.3017 0.30490.2506 0.30150.22670.30110.89470.85020.85280.8509 0.8323 0.8510MEDIAN 0.3416 0.30370.2645 0.34410.24650.35131.06550.87810.94180.8494 0.8541 0.807410x 21λ=, =0.1ε= 0.2ε= 100n =200n =400n =100n =200n =400n =估计 方法MSE EB MSE EB MSE EB MSE EB MSE EB MSE EBMLE 1.4179 -1.1074 1.3121 -1.1031 1.2480-1.0959 5.0439-2.2079 4.9377-2.2028 4.8713 -2.1975ME1.1494 -0.95451.0208 -0.94960.9490-0.9433 4.4050-2.0369 4.2707-2.0350 4.1836 -2.0295MTLE(0.1) 0.4522 -0.27520.2452 -0.24550.1410-0.22913.0026-1.6043 2.8809-1.6139 2.8738 -1.6265MTLE(0.2) 0.9557 -0.76590.8224 -0.77820.8301-0.8325 1.0486-0.73220.7406-0.6779 0.6415 -0.6627AMTLE 0.4762 -0.31910.2948 -0.31290.2036-0.3125 2.8728-1.0548 2.7845-1.0830 2.8060 -1.1076MEDIAN 1.0719 -0.80920.8838 -0.80070.8535-0.84243.0596-1.61512.9017-1.6178 2.8758 -1.6269通过上面的表2和表3, 我们可以发现: 在这两类污染下, 自适应极大截断似然估计具有良好的性质, 对于不同的污染比例, 其估计结果都是不错的.5. 结论通过上面的分析, 我们可以发现: 自适应极大截断似然估计在估计泊松分布参数的时候, 具有较好的稳健性质, 并且该估计不用事先给定截断数据的比例, 在实际运用中较为方便.6. 附录为了证明定理1, 我们首先给出如下引理. 引理: 令()()21210,1mm jj j m j g m p C p p +−+==−∑, 则()0, 0.5lim ,0.5, 0.51, 0.5m p g m p p p →∞>⎧⎪==⎨⎪<⎩当时, 结论显然. 下面证明的情形. 0.5p =0.5p >假设12,,m 1ξξ+L 独立同分布于()1,B p , 则()()21121210,1Pr 2121mm jj j m m j m g m p C p p m m ξξ+−++=++⎛⎞=−=≤⎜⎟++⎝⎠∑L 从而()1211,Pr 212m g m p m ξξ+++⎛⎞≤≤⎜⎟+⎝⎠L因为, 所以存在0.5p >0ε>使得0.5p ε−>, 则()121121,Pr Pr 2121m m g m p p p m m ξξξξεε++++⎛++⎛⎞⎞≤≤−≤−≥⎜⎟⎜⎟++⎝⎠⎝⎠L L由大数定理可知: 121Pr 021m p m ξξε+⎛++⎞−≥→⎜⎟+⎝⎠L , 当时.m →∞从而当时, 0.5p >(),0g m p →又()()()21212121211,111m mjjj m jj m m m j m j g m p Cpp C p p ++−+−++=+==−=−−∑∑j j 所以时, 由可知0.5p <()2121010mjj m m j C p p +−+=−→∑(),g m p →1. □定理1的证明:首先考虑样本数为奇数的情形.假设1,,~()n X X P λL , 其中2n m 1=+为偶数. 下面我们考虑的分布.()1m X +()()()()()11Pr 1Pr 1Pr m m X k X k A ++==−≠=−U B其中至少{A =1m +个数, 1k ≤−}{B =至少1m +个数 1k ≥+}则()()()()1Pr 1Pr Pr m X k A +==−−B其中()212112110Pr !!j m u u m k ju u m j m u u k A C e e u u λλj+−+−∞−−+=+==⎛⎞⎛⎞=⎜⎟⎜⎟⎝⎠⎝⎠∑∑∑()212121101Pr !!m jju u m k ju m j m u u k B C e e u u λλ+−+∞−−+=+==+⎛⎞⎛=⎜⎟⎜⎝⎠⎝∑∑∑u ⎞⎟⎠要证()[]1m X λ+⎯⎯→P, 只用证明()[]10m E X λ+−→即可.又()[][]()()()[][]()()()[]11Pr Pr m m k k E X k X k k X k λλλλλ++≤>−=−⋅=+−⋅=∑∑1m +所以有()[][]()()()[]()()112Pr m m k E X k X k E X λλλ++≤−=−⋅=+∑1m +下面我们来说明()()[]1m E X λ+→.因为()()()()()()1101Pr Pr m m k k E X k X k k X k ∞∞++===⋅==⋅=∑∑1m +21211211102121211011!! !!j m u u m k ju u m k j m u u k m jju u m k j u m j m u u k k C e e u u Ce e u u λλλλ+−∞+−∞−−+==+==+−+∞−−+=+==+⎡⎛⎞⎛⎞=−⎢⎜⎟⎜⎟⎢⎝⎠⎝⎠⎣⎤⎛⎞⎛−ju ⎞⎥⎜⎟⎜⎟⎥⎝⎠⎝⎦∑∑∑∑∑∑∑⎠211211002121=001!! !!j m u u m k j u u m k j u u k j m u u mk ju u m j u u k k C e e u u Ce e u u λλλλ+−∞−∞−−+====+−∞−−+==+⎡⎛⎞⎛⎞=⎢⎜⎟⎜⎟⎢⎝⎠⎝⎠⎣⎤⎛⎞⎛⎞−j j⎥⎜⎟⎜⎟⎥⎝⎠⎝⎠⎦∑∑∑∑∑∑∑令1!uk uk u p e u λ−−==∑, 1!uuk u k q eu λ∞−=+=∑, 则1!kk k k x p q e k λλ−=−−=则()()()21212121110001m m m j j jj j m j k m k k k m k k m k j j k E X k x C p x q C p q x ∞+−+−+++===⎡⎤=⋅⋅+−⎢⎥⎣⎦∑∑∑+≥+对于, .k ∀()212121211000m m m j j j j jm j m k k k m k k j j k C p x q C p q +−+−+++==⎡⎤+−⎢⎥⎣⎦∑∑从而由Fatou 定理可知:()()()2121212111000inf lim inf lim m mm j j j j jm j m k k k m k k m m m k j j E X k C p x q C p q ∞+−+−+++→∞→∞===⎡⎤≥+−⎢⎥⎣⎦∑∑∑ 考虑k 满足: {}{}1:0.5:0.5k k k S k p p k p +=<<=U 当k 时, 由上述引理有S ∉()()2121212100mmm jjjj j m jm kk k m k k k j j Cpx q C x p q +−+−++==+−+∑∑→又由于对于给定的λ而言, !kk x e k λλ−=在[]k λ=时达到最大从而{}[]{}1:0.5k k k p p λ+<<=另一方面, 在λ+∈R 时, 使{}:0.5k k p =≠∅的λ的集合在Lebesgue 测度下为0 所以()()[]212121210001lim m mm j j j jj m j k m k k k m k k k m k j j k k x C p x q C x p q x λ∞+−+−++→∞===⎡⎤⋅⋅+−+=⎢⎥⎣⎦∑∑∑ 对几乎处处λ+∈R 成立. 则()()[]1inf lim m m E X λ+→∞≥.对于固定的m 和k 而言,对函数()()212121210mmm jjj j j m m kk m k k j j Cpx q C p x q +−j +−++==+−+∑∑使用中值定理有()()()()2121221212101mmm jjj j j m j m mm m kk m k k m k k j j Cpx q C p x q x C p m q O x +−+−+++==+−+=⋅++∑∑ 对于给定的λ而言, , lim 1k k p →∞=lim 0k k q →∞=.则, 存在, 使得(0,0.5ε∀∈)0K 0k K ∀>均有k x ε<, 并且10k p .5ε>−> 从而()()()()()()01111Pr Pr K m m m k k K E X k X k k X k ∞++==+=⋅=+⋅=∑∑1+进一步, 有()()()()()()0002111111Pr 1K mm m k m kkk k m m k k K k K E X k X k k x C pm qk x O x ∞∞+++==+=+=⋅=+⋅⋅++⋅⋅∑∑∑由于, 则存在与0k k k x λ∞=⋅=<∞∑ε无关的, 使得10M >()01k k k K k x O x M ε∞=+⋅⋅<∑.又因为, 所以1k k p q +<20.5m mm k k p q <则()()()()()002211111Pr 10.5K m mk m m m k k K E X k X k k x C m M ε∞+++==+≤⋅=+⋅⋅++∑∑. 又由于()()222121!10.50.5!!m m m m C m m m +++=⋅m由String公式!~mm m e ⎞⎟⎠, 有()22110.5~m m m C m ++从而()()()()111sup lim sup lim Pr K m m m m k E X k X k M ε++→∞→∞=≤⋅=∑+.根据的选取可知, 0K {}[]{}{}10:0.51,2,,k k k p p K λ+<<=⊆L . 所以()()[]011sup lim Pr K m m k k X k λ+→∞=⋅==∑.令0ε→可知: ()()[]1sup lim m m E X λ+→∞≤.综上所述有[]()()()()[]11inf lim sup lim m m m m E X E X λλ++→∞→∞≤≤≤.即()()[]1lim m m E X λ+→∞=对几乎处处的λ+∈R 成立.又由引理知[]()()()[][]12Pr m k k X k λλλ+≤−⋅=→−∑.所以()[]10m E X λ+−→, 则()[]1m X λ+⎯⎯→P.对于样本数为偶数时, 用类似方法可得相同的结论. □引理1的证明:记()()()()()100;;g h E l x l x G h λλλ−=>. 根据的定义可知: 当增加时, ()1G h λ−h ()01G h λ−也增加.取, 并且令1h h <2()(){}01101:;A x l x G h λλ−=>()(), {}01202:;A x l x G h λλ−=>22, 则.21A A ⊆若, 则; 1A A =()()12g h g h =若, 则1A A Ù()()()()()()()()21212111Pr Pr \;,Pr Pr A A A g h g h E l x x A x A A A λ=+∈2∉.又()()()12;,2E l x x A x A g h λ∈∉≤, 则()()12g h g h ≤.从而, ()()()(100;;E l x l x G h λλλ−>)关于是不降的函数. □ h定理2的证明: 首先计算(3.1)中的.0h 因为()()MTLE,MTLE,h h λλ⎯⎯→P %, 而{}(){}MTLE,median median 1h i ix x λκ≤<+−. 所以由定理1可知: []()[]MTLE,1h λλλκ[≤≤+−%对)0,h λδ∀∈成立. 由)()()()()()()()MTLE,MTLE,MTLE,100,arg max ;;h h h h h E l x l x G λλδλλ−⎡∈⎣=>%%%%h 可知 )()()()()()()()()()()()()()()MTLE,00MTLE,0MTLE,MTLE,10,MTLE,MTLE,10 max ;;;;h h h h h h h E l x l x G h E l x l x G h λλδλλλλλ−⎡∈⎣−>=>%%%%%%%对于()()()()()()()00MTLE,0MTLE,MTLE,10;;h h h E l x l x Gh λλλ−>%%%而言, 有引理1可知()()()()()()()()()()()()()()00MTLE,00MTLE,0MTLE,MTLE,10MTLE,MTLE,1;;;;h h h h h h E l x l x G h E l x l x Gλλλλλλλδ−−>≤>%%%%%%% 由于()~x P λ, []()[]0MTLE,1h λλλκ≤≤+−%[], [][][]!e λλλδλ−=%λ 所以, ()()()(){}[]{}0MTLE,0MTLE,1:;h h x l x G λλλδλ−>=%%%从而有)()()()()()()()[][]()[][]MTLE,MTLE,MTLE,10,;max ;;1!h h h h l E l x l x Gh e hλλλλδλλλλλλ−−⎡∈⎣>≤−%%%%.另一方面,)()()()()()()()[][]()[][]MTLE,MTLE,MTLE,10,;max ;;1!h h h h l E l x l x Gh e hλλλλδλλλλλλ−−⎡∈⎣>≥−%%%%是显然的.则0h λδ=%, 故()[]AMTLE λλ→. □定理3的证明:根据()AMTLE λ及()MTLE,h λ的定义, 我们可以知道{}(){}AMTLE median median 1i i x x λ≤<+由中位数{}median i x 的崩溃点接近0.5, 那么()AMTLE λ的崩溃点也接近0.5 □参考文献[1] P. J. Huber. Robust estimation of a location parameter. Ann. Math. Statist . 1964, 35: 73-101. [2] N. Neykov and P. Neytchev. A robust alternative of the maximum likelihood estimators. COMPSTAT 1990-Short Communications, 99-100.[3] A. S. Hadi and A. Luceno. Maximum trimmed likelihood estimators: a unified approach,examples, and algorithms. Computational Statistics & Data Analysis . 1997, 25: 251-272. [4] J. Jureckova, R. Koenker and A. H. Welsh. Adaptive choice of trimming proportions. Ann. Inst. Statist. Math. 1994, 46: 737-755.[5] P. Cizek. Robust and efficient adaptive estimation of binary-choice regression models. Journal of the American Statistical Association . 2008, 103: 687-696.[6] F. Hampel. Contributions to the theory of robust estimation. Ph.D. thesis, Univ. California,Berkeley. 1968.[7] D. G. Simpson, R. J. Carroll and D. Ruppert. M-estimation for discrete data: Asymptoticdistribution theory and implication. Ann. Statist. 1987, 15: 657-669.[8] C. H. Müller and N. Neykov. Breakdown points of trimmed likelihood estimators and relatedestimators in generalized linear models. Journal of Statistical Planning and Inference. 2003, 116: 503-519.[9] J. M. Hammersley and D. C. Handscomb. Monte Carlo Method. Wiley, New York, 1964.致谢在本文的写作过程中, 得到了崔恒建教授及其博士生胡涛师兄的大力帮助, 在此向他们表示感谢! 在模拟数据的过程中, 左恒同学和袁朝慧同学也给予了大力的支持, 在此也向这两位同学表示感谢!。
二项分布和泊松分布参数的区间估计

二项分布和泊松分布参数的区间估计一、二项分布的参数估计:二项分布描述了在给定n次独立的伯努利试验中成功的次数。
其中,n表示试验次数,p表示每次试验成功的概率。
在实际问题中,n和p通常是未知的,我们需要使用样本数据来对它们进行估计。
1.估计p的置信区间:当估计二项分布参数p时,我们通常需要计算p的置信区间。
常用的方法有矩估计法和最大似然估计法。
矩估计法假设样本均值等于总体均值,样本方差等于总体方差除以样本大小。
计算公式为:p̂=x/n其中,x表示成功的次数,n表示试验的总次数。
利用矩估计法可以得到p̂的标准误差为:se(p̂) = sqrt(p̂(1-p̂)/n)我们可以根据样本数据和分位数来计算p的置信区间。
例如,95%的置信区间可以通过以下公式计算:p̂± Z*se(p̂)其中,Z是标准正态分布的分位数。
2.估计n的置信区间:当估计二项分布参数n时,我们假设p是已知的。
计算n的置信区间的方法有多种,例如最大似然估计法、滞后估计法等。
最大似然估计法假设样本数据是来自二项分布,通过极大化似然函数来估计参数n。
计算公式为:n̂=x/p̂其中,x表示成功的次数,p̂表示每次试验成功的概率。
利用最大似然估计法可以得到n̂的标准误差为:se(n̂) = sqrt(x/p̂^2)我们可以根据样本数据和分位数来计算n的置信区间。
例如,95%的置信区间可以通过以下公式计算:n̂± Z*se(n̂)其中,Z是标准正态分布的分位数。
二、泊松分布的参数估计:泊松分布描述了单位时间或单位面积内发生事件的次数。
其中,λ表示单位时间或单位面积内事件的平均发生率。
在实际问题中,λ通常是未知的,我们需要使用样本数据来对其进行估计。
1.估计λ的置信区间:在估计泊松分布参数λ时,我们通常需要计算λ的置信区间。
常用的方法有矩估计法和最大似然估计法。
矩估计法假设样本均值等于总体均值,样本方差等于总体方差。
计算公式为:λ̂=x̂其中,x̂表示样本均值。
统计学与研究方法试题答案

统计学与研究方法试题答案第一章绪论1单选题1、总体是指()A.全部研究对象B.全部研究对象中抽取的一份C.全部样本D.全部研究指标E.全部同质研究对象的某个变量的值2、统计学中所说的样本是指()A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C.依照研究者要求选取总体中有意义的一部分D.依照随机原则抽取总体中有代表性的一部分E.有目的的选择总体中的典型部分3、下列资料属等级资料的是()A.白细胞计数B.住院天数C.门急诊就诊人数D.病人的病情分类E.ABO血型分类4、为了估计某年华北地区家庭医疗费用的平均支出,从华北地区的5个城市随机抽样调查了1500户家庭,他们的平均年医疗费用支出是997元,标准差是391元。
该研究中研究者感兴趣的总体是()A.华北地区1500户家庭B.华北地区的5个城市C.华北地区1500户家庭的年医疗费用D.华北地区所有家庭的年医疗费用E.全国所有家庭的年医疗费用5、欲了解研究人群中原发性高血压病(EH)的患病情况,某研究者调查了1043人,获得了文化程度、高血压家族史、月人均收入、吸烟、饮酒、打鼾、脉压差、心率等指标信息。
则构成计数资料的指标有()A.文化程度、高血压家族史吸烟、饮酒、打鼾B.月人均收入、脉压差、心率C.文化程度、高血压家族史、、打鼾D.吸烟、饮酒E.高血压家族史、饮酒、打鼾第二章计量资料统计描述及计数资料统计描述1、描述一组偏态分布资料的变异度,以()指标较好。
A.全距B.标准差C.变异系数D.四分位数间距E.方差2、用均数和标准差可以全面描述()资料的特征。
A.正偏态分布B.负偏态分布C.正态分布D.对称分布E.对数正态分布3、各观察值均加(或减)同一数后()。
A.均数不变B.几何均数不变C.中位数不变D.标准差不变E.变异系数不变4、比较某地1~2岁和5~5.5岁儿童身高的变异程度。
宜用()。
A.极差B.四分位数间距C.方差D.变异系数E.标准差5、偏态分布宜用()描述其分布的集中趋势。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Poisson 分布的参数估计
作者:高晨 指导老师:戴林送
摘要 泊松分布是概率统计学科中一种重要的离散分布,在参数估计这块,对点估计,矩估计,最大似然
估计以及近似的区间估计等,该文中对泊松分布的相关知识,包括其性质,参数的相关估计,研究了泊松 分布的一些性质,参数的估计,以及一些在生活中的简单应用。
安庆师范学院数学与计算科学学院 2011 届毕业论文
由上知,Poisson 分布的数学期望为参数 , E[ X 2 ] E[ X ( X 1) X ] = E[ X ( X 1)] E[ X ]
E[X (X 1)] E(X )
k(k 1) ke
k 0
k0 k !
k0 k !
即 P{x k} 满足 Pk 0, k 0,1, 2; Pk 1. k 1
我们知道,无论是离散型或是非离散型的随机变量 都可以借助分布函数 F (x) P{X x}, x 来描述, X 落在任意区间[x1, x2 ] 的概率
P{xn
k}
n(n 1)(n k k!
1) [ ]n[1 ]nk nn
=
n
{1 [1
1 ] [1
2 ] [1 Fra bibliotekk1]} [1
n nk
]n
k!
n
n
n
n
显然当 k=0 时,故 P{xn k} e 。当 k 1 且 k 时,有
证明 有引理 1,
第 6 页 共 16 页
安庆师范学院数学与计算科学学院 2011 届毕业论文
E ( g1 (
))
E ( g1 (
))
E(e
X
)
E(e
1(n n
X
)
)
X
e n P(n X X )
X
en
(n)e n e .
X 0
X 0
X!
而
E(2Xi )
x0
x)
(2) X X!
e 2,
X X1 X 2 ~ P(2) .
n
n X X i ~ P(n) . i 1
结 论 1 设 函 数 g1( ) g1() e , 可 以 证 明 g1() 的 无 偏 估 计 为 2Xi , 而 不 是
g1( ) e X .
k 0
k!
2e
k2
k2 (k 2)!
2ee 2
D( X ) E( X 2) [E(x)]2 .
Poisson 分布 E[x] = D(x) = ,也就是说在 Poisson 分布中只含有一个参数 ,只要知道一
个 Poisson 分布的数学期望或者方差就能够完全确定它的分布。
为估计母体的参数 值的大小,具体抽取样本值 x1, x2 , xn 。再把样本值 x1, x2 , xn 放
第 4 页 共 16 页
安庆师范学院数学与计算科学学院 2011 届毕业论文
入原来的样本 1,2 ,n 。构造统计量 1,2 ,n 。把 x1, x2 , xn 代入得 的统计 值q(x1 xn ) 用作 的近似值,用来计算参数 的估计值的统计量 1,2 ,n 称为参数
E[x] = k ke e k1 e e .
k0 k !
k1 (k 1)!
2.22 方差
Poisson 分布:
P{x k} ke , k 0,1, 2 , 0 的方差 D(x) . k!
第 2 页 共 16 页
2
D(x) = [xk E( X )] pk .
k 1
其中 P{X xk} pk , k 1, 2,3 是 X 的分布律。 D(x) = E(x2 ) [E(x)]2.
2 性质
2.1.Poisson 分布中 P{x k} 0, k 0,1, 2
具有
P{x k} ke e k e e 1
的极大似然估计量
L (1,n )
。
设
的函数 u
u
,
具有单值反函数
u ,u U
,又设
是
X
的概率分布中
参数 的最大似然估计,则 u u 为 u 最大似然估计。
易知,由 e 的单调性,得 e 的一个最大似然估计为 u1 e X
x1 !
xn !
xi
i1 x1 !
x
e !
n
n
n
ln L n xi ln ln xi !
i 1
i 1
L
是
的可导函数,用导数求极值
ln L
n
1
xi 0 得 x
2 ln L 2
x
0
得
使
L
达到极大值,从而得
1. 离散型随机变量 X 的函数分布律 P{X xk} Pk , k 0,1, 2 ,若级数 xk pk 绝 k 1
对收敛,称级数 xk pk 为随机变量 X 的数学期望 E[x] , k 1 E[x]= xk pk . k 1 2. 定理:Y 是随机变量 X 的函数,Y g (x), (g 是连续函数),X 是离散型随机变量,
P{x1 X x2} F (x2 ) F (x1) .
P{X k} k e, 0, k 0,1, 2 , X ~ P(k; x) . k!
2.2 数字特征 2.21 数学期望
Poisson 分布:
P{x k} ke , k 0,1, 2 k!
若 g(xk )pk 绝对收敛,则 k 1 E[Y ] E[g(x)] = g(xk )pk . k 1 3. 随机变量 X ,若 E{[ X E( X )]2} 存在,则称 E{[ X E( X )]2} 为 X 的方差,记
为 D(x) 或Var(x) ,即
D(x) =Var(x) = E{[ X E( X )]2} .
u1 e X ,u2
1 n
n
1( Xi 0)
i 1
.
由于前者利用了泊松分布的信息,而后者没有利用分布信息,所以称前者为“参数的最大似 然估计”,后者为“非参数的最大似然估计”。
4.3 参数的无偏估计 当总体为泊松分布 P() 时,即
P{X x} x e, x 0,1, 2 , x!
的估计量。
4.2 参数的两个最大似然估计 P{x k} ke , k 0,1, 2 0 为未知参数 k!
设 x1, x2 xn 为子样 1,2 ,n 一组观测值
似然函数
n
L
L ; x1, x2,xn
x1 e xn e
关键词 Poisson 分布 参数估计 性质 简单应用
1 引言 Poisson 分布是离散型随机变量 X 作为大量试验中稀有事件出现的频数的概率分布的 数学模型,其中 X 可能取值为 0,1,2,……而取各个值的概率为: P{x k} ke , k 0,1, 2 k!
其中 0 是常数,称 X 服从参数为 的泊松 X ~ P(k; x) . 1.1 相关定义
)e e i t
e it 1
对任意的 t,有
it
e
1
it
t2 2!
1
.
于是
it e 1 i
t
t2 2
1
t2 2
从而对任意的点列 ,有
t2
lim
2xP(X i
x0
x)
2x
x0
x e x!
.
e (2)x ee 2 e
x0 x!
结论 2 已知函数 g2 ( ) g2 () e2
可以证明 g2 () 的无偏估计为
t(
X
i
)
1, 1
(
X
i
取偶数值时为
1,
X
i
未知参数
0
,可以证明样本均值
X
和样本方差
S2
1 n 1
n i 1
(X i
X
)
都是总体参
数 的无偏估计。推广到一般情况,对任意的实数 , 0 1, X (1 )S 2 也都是
的无偏估计,即 X 或 S 2 或 X (1 )S 2 。
1 [1
1 ] [1
2 ] [1
k
1] 1
, [1
nnk ]n
e
n
n
n
n
从而
P{xn
k}
k e k!
,
故
第 3 页 共 16 页
安庆师范学院数学与计算科学学院 2011 届毕业论文
lim
n
P{xn
k}
k e k!
3 相关定理
定理【1】 随机变量 xn (n 1, 2, 3) 服从二项分布,其分布律为 P{xn k} Cnk pnk (1 pn )nk , k 0,1, 2 , n.