关于Poisson分布的检验
poisson分布

u
6 1 .5 3 5 9 2 1 .1 6 6 0 6 1 .5 3 5 9 2 .9 2 5 1 2 2 1 .1 6 6 0 2 .8 3 4 7 4
7 .5 6 1
25
x 1
x!
3
Poisson分布的概念
• 服从Poisson分布的例子:
– – – – – – 均匀液体中的细菌分布 放射性物质单位时间内的放射次数 粉尘在观察容积内的分布 非传染性罕见疾病在人群中的分布 天空中的流星数 公共汽车站一固定时间内来到的乘客数
4
Poisson分布的条件
• 与二项分布相似 • 平稳性(随机分布性):x的取值与观察 单位的位置无关,与观察单位的大小有 关 • 独立增量性:在某个观察单位上x的取值 与前面各观察单位上x的取值无关 • 普通性:观察单位可以小到只有1个事件 发生,发生概率不变
u 580 432 580 432 4 . 65
23
Poisson分布两样本均数的比较
• 两样本观察单位不同
– 首先将样本计数X1、X2化成观察单位相同下 X 的平均水平 X 、 。 – 当 m m 时,两个总体中的样本均数之差近 似服从正态分布 N (0, m / n m / n )
Poisson分布总体均数的估计
• 正态近似法
– 随着总体均数的增加,离散型样本计数所服 从的Poisson分布逼近正态分布 N ( m , m )
• 例7.2 测得某放射性同位素半小时内发出 的脉冲数为490个,试估计该放射性同位 素平均每30分钟脉冲数的95%可信区间。
14
Poisson分布总体均数的估计
Poisson分布
邓 伟 2008.4
泊松分布的概念及表和查表方法

2. 各段是否发生事故是独立的
把在[0,1)时段内发生的事故数X视作在n个划分之后的小时段 内有事故的时段数,那么按照上述两个假定,X应服从二项分布 。于是,我们有
0.140374
0.089235
0.052129
0.028626
0.014994
0.007567
4
0.000004
0.000055
0.000250
0.000715
0.001580
0.002964
0.004968
0.007669
0.011115
0.015328
0.047067
0.090224
0.133602
例如采用0.05J/㎡紫外线照射大肠杆菌时,每个基因组〔~4×106核苷酸对〕平均产生3个嘧啶二体。实际上每个基因组二体的分布是服从泊松分布的,将取如下形式:
……
是未产生二体的菌的存在概率,实际上其值的5%与采用0.05J/㎡照射时的大肠杆菌uvrA-株,recA-株〔除去既不能修复又不能重组修复的二重突变〕的生存率是一致的。由于该菌株每个基因组有一个二体就是致死量,因此 就意味着全部死亡的概率。
0.223130
0.135335
0.082085
0.049787
0.030197
0.018316
0.011109
0.006738
0.002479
0.000912
0.000335
0.000123
Poisson

二项分布复习一、二项分布的资料为0-1资料:观察结果为二分类资料二、观察对象之间是独立的三、在实际研究中,n是已知的,但是π往往是未知的,需要用实际观察资料进行估计的。
π往往是研究者最关心的问题。
1.点估计:如观察n个对象,有X个患病,则患病率π=Xn2.区间估计:小样本时:查表或用软件直接计算;大样本时,用总体近似计算或软件计算。
四、由样本资料比较总体π(单样本检验):n较小时,确切概率法;大样本时,正态近似。
例:已知A药物治疗幽门螺旋杆菌感染的治愈率为60%。
现拟用B药物治疗,根据临床药理知识,B药疗效不会低于A药。
现用B药治疗幽门螺旋杆菌感染患者10人,其中9人治愈。
问B 药治疗幽门螺旋杆菌感染的治愈率是否高于60%。
H0:B药的幽门螺旋杆菌感染治愈率π=60%H1:B药的幽门螺旋杆菌感染治愈率π>60%单侧检验α=0.05本例,n=10,π0=60%,n(1-π0)=10×40%=4<5,不宜用正态近似的u检验进行统计分析,应采用确切概率法进行检验。
假设检验的P值定义为,在H成立的总体中那些极端事件的累积概率,它反映了根据现有样本信息来拒绝H所冒的风险,如果此风险很小(小于检验水准α),则有理由拒绝H。
此例中的所谓极端事件就是不支持H而支持1H的那些事件,也就是计算0H成立的总体中0(π=60%)出现幽门螺旋杆菌感染治愈人数等于现有样本值9X=或更大的累积概率。
根据二项分布概率函数()(1)x n xn P X x ππ-⎛⎫=- ⎪⎝⎭,计算()()()0464.00061.00403.06.0)6.01(6.09101099109=+=+-⎪⎪⎭⎫ ⎝⎛=+=≥P P X P <0.05 因此,差别具有统计学意义,可以认为B 药疗效优于A 药。
如果研究前并不知道B 药疗效不低于A 药的信息,则此例研究问题可改为,B 药治疗幽门螺旋杆菌感染的治愈率与A 药治愈率(60%)是否有差别。
泊松模式误码检测

泊松模式误码检测1.泊松模式误码检测原理泊松模式误码检测基于泊松分布(Poisson Distribution)的原理。
泊松分布是一种描述事物发生的随机性的概率分布,适用于稀有事件发生的情况。
在数据传输过程中,误码通常被认为是随机出现的稀有事件,因此可以使用泊松模式进行误码检测。
泊松模式的形式如下:P(x)=(e^-λ*λ^x)/x!其中,P(x)表示在单位时间内发生x个事件的概率,e为自然对数的底数,λ为平均每个时间单位发生事件的频率,x为具体发生的事件数。
利用泊松模式进行误码检测的思路是,假设数据传输过程中误码的发生符合泊松分布,然后通过统计实际的误码情况,计算误差率是否符合泊松分布的概率。
2.泊松模式误码检测应用2.1误码探测与诊断通过泊松模式误码检测,可以对数据传输过程中的误码情况进行探测和诊断。
通过分析误码发生的频率和情况,可以找出导致误码的具体原因,比如线路故障、设备损坏或者信号干扰等。
这对于网络管理和故障排除非常重要。
2.2误码率预测2.3误码对比分析3.泊松模式误码检测优缺点3.1优点-理论基础牢固:泊松模式误码检测的原理基于泊松分布,理论基础非常牢固,适用于真实世界中的稀有事件发生。
-适用范围广:泊松模式误码检测可以应用于不同的通信网络和数据传输方案中,涵盖了各种不同的误码情景。
-高效快速:泊松模式误码检测算法简单高效,可以快速计算误码率和概率。
3.2缺点-基于假设:泊松模式误码检测假设误码发生符合泊松分布,但实际情况可能会受到其他复杂因素的影响,例如信噪比、信道质量等。
-只适用于稀有事件:泊松模式误码检测只适用于误码是稀有事件的情况,对于误码频繁发生的情况,其有效性会受到影响。
-精确性有限:泊松模式误码检测基于统计概率,结果只能提供误码发生的概率,对于具体的误码情况和原因可能无法给出详细分析。
4.结论。
泊松分布的概念及表和查表方法

泊松分布的概念及表和查表方法Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
中文名泊松分布外文名poisson distribution 分类数学时间1838年台译卜瓦松分布提出西莫恩·德尼·泊松目录1命名原因2分布特点3关系4应用场景5应用示例6推导7形式与性质命名原因泊松分布实例泊松分布(Poisson distribution),台译卜瓦松分布(法语:loi de Poisson,英语:Poisson distribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。
泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Sim éon-Denis Poisson)命名的,他在1838年时发表。
这个分布在更早些时候由贝努里家族的一个人描述过。
分布特点泊松分布的概率函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。
泊松分布适合于描述单位时间内随机事件发生的次数。
泊松分布的期望和方差均为特征函数为关系泊松分布与二项分布泊松分布当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。
通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。
应用场景在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。
poisson 分布

P( X = X ) =
X!
e
−u
Piosson分布的总体均数为µ µ Piosson分布的均数和方差相等。 µ=σ2
σ= µ
Piosson分布的条件
由于n分布是二项分布的特例,所以,
二项分布的三个条件也就是Piosson分布的适用 条件。 另外,单位时间、面积或容积、人群中观察事 件的分布应该均匀,才符合Piosson分布。
例题:
一般人群食管癌的发生率为8/10000。某研究 者在当地随机抽取500人,结果6人患食管癌。 请问当地食管癌是否高于一般? 分析题意,选择合适的统计量计算方法。 二项分布计算方法: n k n−k
P( X
= k)
=
( )π
k
(1 − π )
Piosson分布的计算方法:均数是?
P( X = X ) =
恰有X 例阳 性的概率 累积概率 正态近似条件 均数 标准差
X !
最多有k例 至少有k例 n π 与n(1- π)均大于5 u= n π u= nπ (率) π
σ x = n π (1 − π )
n≥20 u= n π =σ2 σ
σ =
X
µ
可信区间估计 p (1 − p ) S = n ≦ 50 查表 n 正态近似 p±µ αSp 样本率(均数)与总体 算出p(x≦k)或P(X≧k)与α比较 率(均数)比较(单侧) 正态近似(单、双侧) 两样本率(均数) 比较(正态近似)
Piosson分布
泊松分布
Piosson分布的意义
盒子中装有999个黑棋子,一个白棋子, 在一次抽样中,抽中白棋子的概率1/1000 在100次抽样中,抽中1,2,…10个白棋 子的概率分别是……
泊松分布的概念及表和查表方法
泊松分布的概念及表和查表方法目录1命名原因2分布特点3关系4应用场景5应用示例6推导7形式与性质命名原因泊松分布实例泊松分布(Poisson distribution),台译卜瓦松分布(法语:loi de Poisson,英语:Poisson distribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。
泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,他在1838年时发表。
这个分布在更早些时候由贝努里家族的一个人描述过。
分布特点泊松分布的概率函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。
泊松分布适合于描述单位时间内随机事件发生的次数。
泊松分布的期望和方差均为特征函数为关系泊松分布与二项分布泊松分布当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。
通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。
应用场景在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。
因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位(在早期学界认为人类行为是服从泊松分布,2005年在nature上发表的文章揭示了人类行为具有高度非均匀性)。
应用示例泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
r语言 泊松分布z检验
R语言中的泊松分布z检验1. 泊松分布简介泊松分布是一种离散型概率分布,常用于描述单位时间或单位面积内随机事件发生的次数。
泊松分布的概率质量函数(PMF)可以表示为:其中,λ是事件发生的平均次数。
2. 泊松分布z检验的背景和目的泊松分布z检验用于判断观测数据是否符合泊松分布的假设。
它的背景和目的如下:•背景:假设我们有一组观测数据,我们希望知道这组数据是否符合泊松分布的假设。
•目的:通过进行泊松分布z检验,我们可以判断观测数据是否与泊松分布假设一致,从而对数据的统计特征进行评估和推断。
3. 泊松分布z检验的步骤泊松分布z检验的步骤如下:步骤1:假设检验的设定•零假设(H0):观测数据符合泊松分布。
•备择假设(H1):观测数据不符合泊松分布。
步骤2:计算观测数据的样本均值和样本方差•样本均值(X̄):观测数据的平均值。
•样本方差(S^2):观测数据的方差。
步骤3:计算泊松分布的理论均值和理论方差•泊松分布的理论均值(μ):根据观测数据的样本均值计算,即μ = X̄。
•泊松分布的理论方差(σ2):根据观测数据的样本均值计算,即σ2 = X̄。
步骤4:计算标准化统计量•标准化统计量(z):根据观测数据的样本均值、样本方差和泊松分布的理论均值、理论方差计算,即z = (X̄ - μ) / sqrt(σ^2 / n)。
步骤5:计算p值•p值:根据标准化统计量和备择假设计算,即p值 = P(Z > |z|)。
步骤6:假设检验的结论•如果p值小于显著性水平(通常为0.05),则拒绝零假设,认为观测数据不符合泊松分布。
•如果p值大于等于显著性水平,则接受零假设,认为观测数据符合泊松分布。
4. R语言中的泊松分布z检验实现在R语言中,我们可以使用poisson.test()函数进行泊松分布z检验。
下面是一个示例代码:```{r} # 生成符合泊松分布的观测数据 observed <- rpois(n = 100, lambda = 2)进行泊松分布z检验result <- poisson.test(x = observed)输出检验结果print(result)在这个示例代码中,我们首先使用`rpois()`函数生成100个符合泊松分布的观测数据。
泊松分布的检验——可以的
泊松分布的检验2010-02-18 23:26因为很多总体的分布是泊松分布,因此极易引发我们的猜想,比如,某人开了一个商店,每分钟来店里交易的人数是不是泊松分布?某支股票或合约每分钟的交易次数是不是符合泊松分布?考虑从收集数据到最后检验分布的步骤和方法。
收集数据每分钟进入商场买东西的顾客人数。
至于交易的价值,这里暂不研究。
比如,一个店内某1分钟内有5个顾客进来买东西,其交易金额为100元。
另外一分钟内有7位顾客进来买东西,交易金额为200元,这里的检验只考虑人数,而不考虑交易金额。
所以观测数据记为 5、7,而不是100、200。
假设样本数据记录在M文件:tF.mtradeFrequency=[1 9 38 29 27 28 25 20 19 13 8 14 15 24 10 13 15 6 14 13 10 9 13 7 6 6 6 15 20 16 14 8 8 8 22 31 19 10 14 11 13 3 6 8 6 9 6 10 11 10 7 8 13……]图形图形比较直观,因此容易给予我们进行各种假设的有效提示。
先进行图形的一般训练,以累积一些感性的经验或进行图形比较的基础积累。
所以,需要使用MATLAB的disttool工具反复变化泊松分布的参数lambda以获得各种图形(概率分布图),这样在脑海里有些印象。
假设样本数据为:tradeFrequency=[1 9 38 29 27 28 25 20 ……]画出它们的概率分布图,这样和泊松分布的概率分布图比较一下看看。
或许我们可能觉得它更象正态分布的概率分布图(密度图),或者是其他的,总之,我们获得一些假设。
这样就找到了下一步的工作方向。
频数表table=tabulate(tradeFrequency);table =1.0000 7.0000 3.11112.0000 8.00003.55563.0000 19.0000 8.44444.0000 16.0000 7.1111 plot(table(:,1),table(:,3)/100,'+')plot(table(:,1),table(:,3)/100)bar(table(:,1),table(:,3)/100)检验泊松分布计算平均数:lambda=mean(tradeFrequency) lambda = 9.1422X=tradeFrequency';H=kstest(X,[X poisscdf(X,lambda)])H=1 拒绝原假设,即不符合泊松分布。
卫生统计学Poisson分布及其应用
卫生统计学Poisson分布及其应用在卫生统计学的领域中,Poisson 分布是一种非常重要的概率分布,它在众多的卫生和医学研究中发挥着关键作用。
首先,让我们来了解一下什么是 Poisson 分布。
Poisson 分布是一种离散型概率分布,通常用于描述在一定时间、空间或其他特定范围内,某事件发生的次数。
比如说,在一定时间段内医院急诊室接收的病人数量、某地区某种疾病的发病例数、单位面积内细菌的数量等等。
Poisson 分布有几个显著的特点。
它的概率质量函数可以表示为:P(X = k) =(e^(λ) λ^k) / k! ,其中 X 表示事件发生的次数,k 是具体的次数,λ 是单位时间或空间内事件的平均发生次数,e 是自然常数。
Poisson 分布的一个重要前提是事件的发生是独立的,并且在给定的时间或空间内,事件发生的概率是恒定的。
这意味着一个事件的发生不会影响其他事件发生的概率。
那么,Poisson 分布在卫生统计学中有哪些应用呢?在疾病监测方面,Poisson 分布可以帮助我们评估某地区某种疾病的发病情况是否异常。
假设某地区通常每年某种传染病的发病数服从Poisson 分布,平均发病数为λ。
如果某一年的发病数明显高于λ,就可能提示存在异常情况,比如疾病的爆发或者传播方式的改变,需要进一步调查和采取措施。
在生物医学研究中,Poisson 分布可用于分析细胞内某种分子的数量、微生物的计数等。
例如,研究人员想要了解某种细胞内特定蛋白质分子的数量,通过多次观察和计数,可以判断其是否符合 Poisson 分布,并据此进行进一步的分析和推断。
在职业卫生领域,Poisson 分布能用于评估工人接触有害物质后发生某种职业病的风险。
如果在一定数量的工人中,某种职业病的发生次数远高于基于 Poisson 分布计算出的预期值,就可能表明工作环境中的有害物质暴露水平过高,需要采取防护措施。
Poisson 分布还可以用于医学影像学中的粒子计数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录承诺保证书 ,,,,,,,,,,,,,,,,,,,,,,,,,,I 1引言 ,,,,,,,,,,,,,,,,,,,,,,,,,,11.1研究背景,,,,,,,,,,,,,,,,,,,,,,,,,,11.2研究方法及目的,,,,,,,,,,,,,,,,,,,,,,,12 Poisson分布检验的步骤和基本理论,,,,,,,,,,,,22.1检验步骤,,,,,,,,,,,,,,,,,,,,,,,,,,22.2检验的基本原理,,,,,,,,,,,,,,,,,,,,,,,3 3关于Poisson分布检验的三个案例及实际研究,,,,,,,,73.1案例分析,,,,,,,,,,,,,,,,,,,,,,,,73.2对单位时间到来顾客数的实际研究,,,,,,,,,,,,,,,13参考文献 ,,,,,,,,,,,,,,,,,,,,,,,,,,18英文摘要 ,,,,,,,,,,,,,,,,,,,,,,,,,,19关于 Poisson 分布的检验肖秋光摘要: Poisson 分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用.本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计. 其中2检验是众所周知的拟合优度检验,它能适用于任意的备择假设. 另外,通过三个例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论 .关键词: Poisson 分布假设检验独立变量 2 统计量1引言1.1研究背景改革开放三十年来随着社会的发展、经济的增长,科学技术日新月异、人民拥有的物质日益丰富、感受到的文化也更加多元、社会的各种法规制度日臻成熟,无论是住房、保险、交通、旅游、高质量产品还是教育、饮食等 . 其结果是构成了大量的随机数据,而这些数据有没有什么规律可循呢?就需要我们对它进行研究 . 在现实生活中的许多数据经过人们大量的研究是服从泊松分布的. 若通过观察记录得到了一组数据,它是否服从泊松分布,则需要我们对其进行检验.泊松分布是 1837 年由法国数学家泊松( Poisson S.D.1781--1840 )首次提出的 . 它是概率论中的一种重要的离散型随机变量的概率分布,在理论上和实践中都有广泛的应用 . 如 110 报警台 24 小时接到的报警次数、一定时间内发生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物质放射出的粒子数目等.1.2研究方法及目的由于向 110 报警台的报警是一次次到来的;自然灾害是一次次发生的;放射性粒子是一个个射出的;进入商场的人是一个个到来的,,它们都可以看成是一种于随机时刻到来的“质点流”. 要对其进行研究,首先,必须收集到有效的数据 . 其次,由于得到的样本数据通常是实验或统计而来,因此它不能完全的反映事物的本质 . 我们主要对部分数据进行抽取分析,根据部分数据对全体数据做出推断及判断 .因此,研究单位时间内产生的诸多随机变量有助于当事者们对各种新措施、新技术作出更为科学合理的决策 . 例如,商场每个时段到达的人数不一,通过调查可以确定哪个时段是人流的高峰期,可以在这个时段做一些宣传或促销产生的效益就会比其他时段高,并有效控制成本,使其用最小的投入换来最大的收益.2Poisson 分布检验的步骤及基本理论2.1检验步骤2.1.1数据整理进行 Poisson 分布的检验时,首先要对收集到的数据进行整理. 假设收集到单位时间的量为x1 , x2 , x3x n,然后把这些量按从小到大顺序排列起来,并查出其频数稍加整理制成表格如下:表 1单位时间的量x i012,,x i频数 p i p0p1p2,,p i其中满足: x1x2x n0 p0 1 p1x i p i2.1.2用图像对样本数据进行模拟由于图形比较直观,而且样本数据在一定程度上能有效反映总体的分布规律,故可以用样本数据的图像模拟通过对比,对该分布进行初步判断.泊松分布的图形一般为左偏,但随数值的增大,图形趋于对称.图 12.1.3检验得出结论2.2检验的基本理论2.2.1假设检验假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断 .假设检验的步骤:①根据问题建立原假设和备择假设原假设是设总体参数等于某一数值,而备则假设是根据研究的目的来确定:可采用双侧检验,也可采用单侧检验 . 确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置 .②选择适当的样本统计量,并确定以H 0为真时的抽样分布这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值 .③选定显著性水平,确定临界值应在抽样之前就确定下来,根据单、双侧检验的情况,将放置一侧或双侧 . 然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值.④进行判别,得出结论将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论 .2.2.2最大似然估计及拟合优度 2 检验最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的 . 下面我们具体描述一下最大似然估计:首先,假设 x 1, x 2 , , x n 为独立同分布的样本, θ 为模型参数 ,f 为我们所使用的模型,遵循我们上述的独立同分布假设 . 参数为 θ 的模型 f 产生上述样本可表示为f (x 1, x 2 , , x n | ) f ( x 1 | ) f (x 2 | ) f (x n | )在上面的假定模型且参数是未知的基础上,这时,我们已知的有x 1 , x 2 , , x n ,未知的有 θ,所以似然函数定义为 :nL ( ) f ( x 1, x 2 , , x n | )f ( x i | ),i1L ( ) 称为样本的似然函数 . 倘若存在一个值 ?,使得在?时有L ( x 1 , x 2 , , x n | ?) max L( x 1 , x 2 , , x n |)则称 ?是 的一个极大似然估计值,简记为 MLE.在实际应用中通常采用的是两边取对数,得到公式如下:nln L ( )ln f (x i | ) ,i 1由于 ln( x) 是 x 的单调增函数,因此,使对数似然函数 ln L( ) 达到最大与 L( )达到最大是等价的 .令 dln L() 0 ,即可解出 的极大似然估计值?.d若总体 X 是具有参数0 的泊松分布, X 1 , X 2 , , X n 为来自总体 X 的一个样本,则似然函数为:x innn1 x iL( )x i ! e () i 1 eni 1i 1x i !nnnx iln L ( )ln x i ! n(x i ) ln ,d ln L( )ni 1i 1i 1dn令 d ln L ( )x i1 n0 ,得如下方程:ni 10 ,从中解得:?x i , dn i 1又 d 2ln L( ) |?n20 ,于是参数的最大似然估计为: ? x .d 2nx ii 12拟合优度的检验,是通过 2统计量来检验变量的实际分布是否与理论分布相同 . 所谓拟合优度,是指实际观察的频数与期望(理论)频数相似的程度 . 2检验可以对各种假设的分布进行检验 . 在对各种分布进行检验时,应将各变量值做适当分类,使每一类别的期望频数大于等于 5. 在选定类别时,如果变量值是有限个,则可以将其每一个取值作为一个类别; 如果变量值可以取无限个,则通过适当合并,将其变为有限个区间,把每一个区间视为一类.2.2.3 P 值检验所谓 P 值,是指在一个假设检验问题中, 利用观测值能够做出拒绝原假设选择的最小显著性水平, 如果 p 值小于显著性水平 ,则相应的检验统计量的值落入拒绝域中 . 其检验规则为:若p 值,则拒绝原假设 H 0 ;若p 值,则接受原假设 H 0 .2.2.4 Poisson 分布检验设总体 X 服从具有参数为0 的泊松分布, X 1,X 2,X 3, , X n 为其样本 .考虑检验问题: H 0:0;H 1:0,现有nnx inx i1 n1 p( x i ; )ee ni 1ne nexp ( x i ) lnni 1i 1x i !( x i !)i 1( x i !)i 1i 1n其中 T x 1 , x 2 , , x nx i ,b( ) lni 11nh(x1 , x2 , , x n )n,c( )ei 11,T c1 & c2因此 ( x1 , x2 ,, x n )b i ,T c j , j 1,20,c1 T c2n n则E 0X i E 0(x1, x2 , , x n )x ii 1i1M( 0, 0) E0( x1, x2 , , x n )n当 H 0为真时,统计量 T X i服从参数为 n 0的泊松分布, E (T )n 0,则i 1c11 (n0 ) j e n(n 0 ) j e n0b1 (n0)c1enb2 (n0)c2enj 0j!j c2 1j!c1!c2!n 0c11 j (n 0 ) j e n0j ( n 0 ) j e n0b1c1(n0)c1e n0b2c2( n0)c2e n0j 0j!j c2 1j !c1 !c2 !在一般情况下上述方程不易求解,但当0不接近于零而 n 又不很小时,统计量nX i n0U i 1的渐进分布为正态分布N (0,1) ,则n 0n nP 0X i n 0u P 0X i n 0ui1i1对一切实数 u 都渐近地成立(这是因为正态分布具有对称性). 因此,b1,b2,c1, c2由下式确定:2c11 ( n0 )j en0b1 (n0) c1e n 0(n 0 )j e n0b2 (n0) c2e n 0 j 0j!c1!j c2 1j!c23关于 Poisson 分布检验的三个案例及实际研究3.1案例分析3.1.1论反腐败与泊松分布腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的关注 . 调查显示最近几年科级腐败正在加剧,小官受贿成隐患 . 据悉,某检察院工作人员对某经济较落后省的 320 个底层官员在一年时间内的受贿金额调查纪录如下表所示 . 根据这些数据(金额 0 表示未受贿,金额 1 表示受贿金额大于 0 小于等于 1,其余类同)检验受贿金额是否服从泊送分布 .表 2 1年内320个官员受贿金额(万元)统计表金012345678910合额计人154770815225169410320数来源于参考文献 [6]用折线图像模拟数据如下:官员受贿频数图1008060人数系列 1 40201 2 3 4 5 6 7 8 9 1011受贿金额图2从图形走势看,为左偏凸值分布,与泊松分布较为相似,可初步判定为泊松分布 .在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设H 0:一年的时间内受贿官员的受贿金额服从泊送分布;H 1:一年的时间内受贿官员的受贿金额不服从泊送分布;ex,式中:是未知参数 .我们知道泊送分布的概率密度函数为f ( X x)x!如果假设为真时,可以根据本数据估计. 由上表的数据可以的到在320 个底层官员中,平均每一官员受贿的金额(万元),即?01514791100320 3.0因此,可以用?作为的估计值,即得到为真时的概率密度函数3x e 3f ( X x)x!根据该密度函数,就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得. 例如,在一年内受贿金额为0 万元的官员人数的概率是 f ( X0)0.498 ,受贿金额为1万元的概率是 f ( X 1)0.1494等 . 然后用查出的概率分别乘以样本容量n(n320) ,就可以得到各类别期望的频数 . 例如,在 320 个官员中受贿金额为0 万元的期望频数是0.049832015.936 .下表列出了2统计量的计算过程 .表 3 2 统计量的计算过程受贿金额为真时的实际频数期望频数(n i e i )2 x i f ( X x i )n i e i n f ( X x i )e i00.04981515.9360.055010.14944747.8080.013720.22407071.680.039430.22408171.68 1.211840.16805253.760.057650.10082532.256 1.632260.05041616.128 1.015970.02169 6.91280.00814 2.5920.981290.002710.86410 万元以上0.001200.384合计 1.0000320320 5.0068我们注意到表中,受贿金额为 8,9 和 10 万元次及以上金额的期望频数都小于 5,所以将这三类归于受贿金额为7 万元的合并为一类,所以合并之后的类别数 k 8 .这时 2 统计量为28(n i e i ) 25.0068i1e i需要注意的是:根据 Pearson 定理,上式的2统计量服从自由度为 k r1的2分布,其中 k 时类别的个数, r 是估计的总体参数的个数 . 在这里k8, r 1 (只估计了一个参数),所以自由度为 k r 18 1 1 6.于是,当0.05时,查表可得2(6) 12.592 .对于样本的2值,因为220.050.05(6) 落在接受域中.所以接受 H 0,拒绝 H 1,即在一年的时间中该地区官员的受贿金额是服从泊松分布的.大家熟知当 n 很大, p 很小时的二项分布趋于泊松分布 . 按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外,其最明显的特征则是常常集中分布 . 通过上面检验和大量案例表明 , 腐败现象作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律,特点是总体上的稀有性和局部的密集性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式 . 因此治理腐败:一是要尽早发现,尽快惩前毖后;二是不能搞扩大化;三是要综合治理 .其次表明,泊松分布密集出现的概率跟社会体制有关,尤其是在经济转型、社会发生变革的时期容易出现。