非参数统计-总体分布的拟合优度检验
非参数统计

例外
例外
有的统计问题,从不同的角度,可以理解为参数性的,也可以理解为非参数性的。例如线性回归(见回归分 析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的。但是,如果对随机误差 的分布类型没有作任何假定,则从问题的总体分布这个角度看,也可以看成是非参数性的。
统计方法
统计方法
谢谢观看
重要的非参数统计方法秩方法是基于秩统计量(见统计量)的一类重要的非参数统计方法。设有样本 X1,X2,…,Xn,把它们由小到大排列,若Xi在这个次序中占第Ri个位置(最小的占第1个位置),则称Xi的秩为 Ri(i=1,2,…,n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1,X2,…,Xm 和Y1,Y2,…,Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本,F连续但未知,θ也未知,检验假设 H:θ=0,备择假设为θ>0(见假设检验)。记Yi在混合样本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩为Ri, 且为诸秩的和,当W >C时,否定假设H,这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期 结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1,Y1),(X2,Y2),…,(Xn,Yn)是从二维总体(X,Y) 中抽出的样本,Ri为Xi在(X1,X2,…,Xn)中的秩,Qi为Yi在(Y1,Y2,…,Yn)中的秩,定义秩相关系数为 (Ri,Qi)(i=1,2,…n)的通常的相关系数(见相关分析)。它可以作为X、Y之间相关程度的度量,也可用于检 验关于X、Y独立性的假设。
次序统计量和U统计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数(见概率分布)、 检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间(见区间估计)等。后者主要用于构造总体分 布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验。
拟合优度检验课件

为了解决上述问题,以 Ti 为权求加权值
自由度的确定
变量之间存在着一个制约关系: 故统计量 渐近 (k-1) 个自由度的 分布。
在 F(x) 尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个。
1
若有 r 个未知参数需用相应的估计量来代替,自由度就减少 r 个。
【例1】
子二代
子一代
…
黄色纯系
…
绿色纯系
他的一组观察结果为:
黄70,绿27
近似为2.59:1,与理论值相近。
根据他的理论,子二代中,黄、绿之比 近似为3:1,
添加标题
提出假设H0: O-T=0 (p1=3/4,p2=1/4)
添加标题
这里,n=70+27=97,k=2,
添加标题
检验孟德尔的3:1理论:
04解:05 Nhomakorabea将有关计算结果列表如下:
06
因H0所假设的理论分布中有一个未知参数 λ,故自由度为4-1-1=2。
将npi < 5的组予以合并,即将发生3次及4次战争的组归并为一组。
按α =0.05,自由度为4-1-1=2,查表得: 统计量: 未落入拒绝域。 故认为每年发生战争的次数 X 服从参数为 0.69的泊松分布。
【例】下表给出不同给药方式与给药效果,求证:给药方式与给药效果有无关联。
若事件 A 和事件 B 是相互独立的,则
提出零假设:假设实测数与理论数无差异。即H0:O-T=0。 计算理论数:若事件 A 和事件 B 是相互独立的,则 P(AB)=P(A)P(B)。 例如:在给药方式和效果之间是相互独立的前提下,计算口服(事件B)有效(事件A)的概率 P(BA)=P(B)P(A) = (98/193) (122/193)。其理论数T1=(98/193)(122/193) 193 = (98)(122)/193 。 每个理论值用Tij表示,Tij=(i行总数)(j列总数)/总数。
非参数统计1

或近似概率
P值
零假设下,P(T>t)的值称为p值。
若p值很小,说明观测值的实现在零假设下为小概率 事件,故拒绝零假设。犯第一类错误的概率为p。
比如: (1)研究保险公司的索赔请求数时,可能假定索赔请求
数来自泊松分布P(a);
(2)研究化肥对农作物产量的影响效果时,平均意义 之下,每测量单元(可能是)产量服从正态分布
N(a,b).
一个典型的参数检验过程
1. 总体参数
Example: Population Mean
2. 假定数据的形态为
Whole Numbers or Fractions
Pitman于1948年回答了非参数统计方法相对于 参数方法来说的相对效率方面的问题;
非参数统计的历史(续)
60年代中后期,Cox和Ferguson最早将非参数方法 应用于生存分析。
70年代到80年代,非参数统计借助计算机技术和 大量计算获得更稳健的估计和预测,以P.J.Huber 以及 F.Hampel为代表的统计学家从计算技术的实 现角度,为衡量估计量的稳定性提出了新准则。
这里,j为求均值前删掉的最小或最大观测值的数目。
顺序统计量的分布:
设总体的分布函数F(x),则第r个顺序统计量的分布 函数为:
Fr (x)
P(X (r)
x)
P(至少
r个X
小于或等于
i
x)
n
P( X1, X 2 ,L , X n中恰好有j个小于x)
jr
n
C
七章节非参数统计

检验环节
1.拟定配对样本,分别计算差别正与负旳数目,无差 别则记为0,将它从样本中剔除,并相应地降低样本容 量n,把正负号数目之和视为样本总个数(n) 。
2.
H0: p=0.5 ; H1:p≠0.5
3.观察样本容量,假如n≤25,则作为二项分布处理
假如n>25,则作为正态近似处理。
Z
ˆ P 0.5
计算检验统计量
2 k ( foi fei )2
i 1
f ei
抽样并对样本资料编成频 数分布,形成k个互斥旳类 型组。 (f0)
以“原假设H0为真”导出 一组期望频数(fe)
比较χ2值与临界值 作出检验判断
2
2 (k 1m)
自由度(df)=k-1-m。
其中k为组数。(各组理论频数不得不大于5,如不足5 ,可合并相邻旳组,如需合并,则k为合并后旳组数)
拒绝域 现检验统计量(-)=3 (即3个负号),0.073>0.05 所以,原假设H0:P=0.5在5%明显性水平上不能被 拒绝。也即不能以为职员在观看影片前后旳认识有 明显提升。
例2:随机抽取60名消费者对甲、乙两种品牌旳饮料评 分,甲 、乙得分之差为“+”号者35个,“-”号15 个,“0”号10个 。以明显性水平α=0.05检验两种饮料是否同等受欢迎。 解:H0:P=0.5, H1:P≠0.5
检验环节 将样本数据配对并计算各对正负差值
将差数取绝对值按从小到大顺序排列并编上等级, 即拟定顺序号1、2、3等。对于相等旳值,则取其位 序旳平均数为等级
建立假设:H0:T+= T- ; H1 : T+ ≠T-(双侧) H1 :T+>T-或T+<T-(单侧)
计算检验统计量: 当n>25时 Z T n(n 1) / 4
非参数统计(non-parametricstatistics)又称任意分布检验(

例11.6(P195)。
(一)建立检验假设
H0:某中药治疗四种病型 的疗效总体分布相同 H1:四个总体的分布不同 或不全同
0.05
(二)计算统计量H值 (1)编秩:a、计算各等级的合计人数 b、确定秩次范围 c、计算平均秩次 (2)求各组秩和
R1 65(139.5) 18(304.0) 30(397.5) 13(504.5)
血浆总皮质醇含量有差别(不同或不全同)。
若还希望分析具体哪些组之间有差别,需进一步两两组 间比较。方法见《卫生统计学》第五版P196,《医学统计学》 第二版P183等。
当相同秩次较多(超过25%)时,需进行如下校正。
例11.4(P193),见表11-4。
(一)建立检验假设
H0:接种三种不同菌型伤 寒杆菌存活日数总体分 布相同 H1:三个总体的位置不同 或不全同
适用于完全随机设计分组的多个样本比较(即不满足参
数统计条件的),目的在于判断多个总体分布是否相同。
例11.3(P192),见表11-3。
(一)建立检验假设
H
:血浆总皮质醇含量的
0
三个总体分布相同
H1:血浆总皮质醇含量的 三个总体分布不同或不 全同
0.05
(二)计算统计量H值
1、编秩
先将各组数据分别由小到大排列,统一编秩,不同组的
注意:等级资料对程度的比较不应选检验。
例11.5(P194)。
(一)建立检验假设
H
:吸烟工人和不吸烟工
0
人的HbCO%含量总体分布位置相
同
H1:吸烟工人的HbCO%含量高于不吸烟工人 的HbCO%含量
0.0(5 单侧)
(二)计算统计量u值
(1)编秩:a、计算各等级的合计人数
非参数统计实验(全)新

第四章 非参数统计实验参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。
这就是非参数统计的宗旨。
非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。
实验一 卡方检验(Chi-square test )实验目的:掌握卡方检验方法。
实验内容:一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:SPSS 非参数统计分析菜单项和Crosstabs 菜单项。
知识准备:一、卡方拟合优度检验2χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问题,用来检验实际观察数目与理论期望数目是否有显著差异。
当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。
若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为ke e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差异。
其计算公式为:∑∑-=-==期望频数期望频数实际频数2122)()(ki ii i e e f χ很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。
2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。
在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的2χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到相应的临界值)1(2-k αχ。
若)1(22-≥k αχχ,则拒绝H 0,否则不能拒绝H 0。
非参数统计_第四章 单样本非参数检验_new

总体是否服从制定p值二项分布的方法,具体过程如下:
二项分布检验
(1)建立零假设和备选假设 ������0 :样本来自的总体服从指定p值的二项分布; ������1 :样本来自的总体不服从指定p值的二项分布。 (2)构造统计量 当样本数量������ ≤ 20时,令θ为n-k和k的较大者,根据样本数量n,显著性水平 α和p值,通过查二项分布临界值表,确定θ临界值的上界。 当������ > 20时,可以构造统计量 ������ =
在管理实践中,很多管理学的问题都可以抽象为单样本检验问题,
因此单样本非参数检验也随着管理科学研究的深入得到广泛应用。
卡方检验
一、卡方检验
(一)、分类数据的 拟合优度检验
2
对总体分布的形式建立假设并进行检验。这一类检验问题统称为
分布的拟合检验,它们是一类非参数检验问题。
我们从一个在生物学中很有名的例子开始。 例 在19世纪,孟德尔按颜色与形状把豌豆分为四类:黄圆、绿圆、 黄皱和绿皱。孟德尔根据遗传学原理判断这四类的比例应为9:3:3:1。 为做验证,孟德尔在一次豌豆实验中收获了n=556个豌豆,其中这四 类豌豆的个数分别为315,108,101,32。该数据是否与孟德尔提出 的比例吻合?
为α时,否定域为Θ = ������| ������ > ������1−������ 。
2
(4)计算统计量和做出统计决策 当������ ≤ 20时,若θ超过临界值的上界,拒绝零假设;否则,接受零假设。
当������ > 20时,计算出统计量Z的值。如果统计量的值落在否定域中,拒绝零
《拟合优度检验》课件

柯克伦科夫勒检验
总结词
柯克伦科夫勒检验是一种基于概率的拟合优度检验方法,用于检验观测频数与期望频数之间的差异是否显著。
详细描述
柯克伦科夫勒检验基于二项分布,通过计算观测频数与期望频数的离差平方和,得到柯克伦科夫勒统计量。在样 本量足够大的情况下,柯克伦科夫勒统计量近似服从正态分布。通过比较柯克伦科夫勒统计量与临界值,可以判 断观测频数与期望频数是否存在显著差异。
03
拟合优度检验的步骤
Chapter
确定检验假设
零假设(H0)
样本数据与理论分布无显著差异。
对立假设(H1)
样本数据与理论分布存在显著差异。
计算检验统计量
统计量计算
根据样本数据和理论分布的性质,计 算相应的统计量,如卡方统计量、熵 值统计量等。
统计量性质
了解统计量的分布特性,以便后续的 临界值判断。
斯皮尔曼秩检验
总结词
斯皮尔曼秩检验是一种非参数拟合优度检验方法,用于检验观测频数与期望频数之间的差异是否显著 。
详细描述
斯皮尔曼秩检验基于秩次,通过将观测频数与期望频数按照大小排序,并计算秩次之差得到秩次统计 量。在自由度等于分类数减一的情况下,秩次统计量服从F分布。通过比较秩次统计量与临界值,可 以判断观测频数与期望频数是否存在显著差异。
Chapter
皮尔逊卡方检验
总结词
皮尔逊卡方检验是最常用的拟合优度检验方法之一 ,用于检验观测频数与期望频数之间的差异是否显 著。
详细描述
皮尔逊卡方检验基于卡方分布,通过计算观测频数 与期望频数的离差平方和,得到卡方统计量。在自 由度等于分类数减一的情况下,卡方统计量服从卡 方分布。通过比较卡方统计量与临界值,可以判断 观测频数与期望频数是否存在显著差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、采用Shapiro-Wilk法进行正态性
检验
三、采用Kolmogorov-Smirnov法进行
本章介绍的拟合优度检验方法
1. 卡方检验
2. 正态性检验的W法(Shapiro-wilk法)、D法( Kolmogorov-Smirnov法)
第一节 卡方拟合优度检验 的原理与计算步骤
1. 原理
判断样本观察频数(Observed frequency) 与理论(期望)频数(Expected frequency )之差
注意:理论频数不宜过小,否则需要合并
χ2分布(chi-square distribution)
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
卡方分布下的检验水准及其临界值
第二节 离散型随机变量分布的 拟合优度检验
一、二项分布的拟合优度检验
二、Poisson分布的拟合优度检验
一、二项分布的拟合优度检验
【例7.4】某研究人员在某地随机抽查了150 户3口之家,结果全家无某疾病有112户,家 庭中1人患病的有20户,2人患病的有11户, 3人全患病有7户,问该病在该地是否有家族 聚集性。
112 0.6360 95.4084
2.885
2.885
1
20 0.3106 46.5948
15.179 18.065
2
11 0.0505
7.5852
3
7 0.0027
0.4116 7.996 12.513 30.578
150
8
H0:该病分布服从二项分布,H1:不服从二项分布
α=0.05
ˆ
发病总人数 调查总人数
【例7.3】将酵母细胞的稀释液置于某种计量 仪器上,数出每一小方格内的酵母细胞数, 共观察了413个小方格,结果见表7.3第1、2 列,试问该资料是否服从Poisson分布?
H0:方格内酵母细胞的个数服从 Poisson 分布;
H1:…个数不服从 Poisson 分布
α=0.05
理论概率 P( x) x e
解:如果家庭成员之间的发病与否(X)互 不影响,则X符合二项分布(两种互斥结果 、试验条件不变、各次试验独立)。也就 表明疾病不具有家族聚集性。
表 7.2 二项分布的拟合优度χ2 检验计算表
每户发 观察 理论概率 理论
χ2 分量
累计χ2 值
病人数 家庭数
家庭数
(1)
(2)
(3)
(4)
(5)
(6)
0
1.26461
2.16478
P(2) 2 e 1.418892 0.24198 0.24359, P(7) 1 P(x 6) 0.00067
2!
2
理论细胞计数为 0 的方格数应等于 0.24198×413=99.939,…。
因细胞计数为 5、6、7 的三组,理论频数均小于 5,故将这三组数据合并
6 2 1 413
理论概率 (Pi) (3)
0.24198 0.34335 0.24359 0.11521 0.04087 0.01160 0.00274 0.00067
理论 方格数 (Ei)
(4)
099.939 141.802 100.601 047.580 016.878 004.790 001.133 6.201 000.278
是否由抽样误差所引起。
数据格式与计算公式
类别或组段 观察频数
理论频数
1
O1
E1
2
O2
E2
…
…
…
k
Ok
Ek
问题:试判断这份样本,是否来自该理论分布?
P2
k
i1
(Oi Ei)2, Ei
a为参数的个数
k1a
注意:理论频数Ei不宜过 小(如不小于5),否则需 要合并组段!
2. 计算步骤
(1) H 0:样本的总体分布与该理论分布无区别 H1 :样本与该理论分布有区别
总体分布的拟合优度检验
Goodness of Fit Test for Distribution of Population
为什么要知道总体分布?
1. 参数统计学推断方法(如t检验、F检验)均以 服从某一分布(如正态分布)为假定条件。
2. 实际工作中需要了解样本观察频数(Observed frequency,简记为O)是否与某一理论频数( Expected frequency,简记为E)相符。
x!
fx 0 103 1143 7 1 586 1.41889
n
413
413
P(7)=0.000556
卡方分量
表 7.3 Poisson 分布的拟合优度χ2 检验计算表
方格内 细胞数
(X) (1)
0 1 2 3 4 5 6 7 合计
实际 方格数 (Oi)
(2)
103 143
98 42 18
Oi Ei
(5) 3.061 1.198 2.601 5.580 1.122
2.799
Oi Ei 2
(6) 09.3697 01.4352 06.7652 31.1364 01.2589
07.8344
Oi Ei 2 Ei
(7) 0.09375 0.01012 0.06723 0.65446 0.07462
自由度=6-1-1=4。
2 0.05,4
9.49 ,本例 P
〉0.05,表示服从 Poisson 分布。
其他离散型变量分布的拟合优度检验
1. 二项分布 2. Poisson分布 3. 超几何分布 4. 负二项分布
可仿照上述二项分布、Poisson分 布的方法进行分布的拟合优度检验。
第三节 连续型随机变量分布的 拟合优度检验
0.05
(2)列出各组的实际频数与理论频数
(3) Pearson 2 统计量
2 P
k (实际频数-理论频数)2
i 1
理论频数
O1 E1 2 (O2 E2 )2 ... (Ok Ek )2
E1
E2
Ek
k 1 (计算理论分布时所用
自由度 参数的个数)
(4) 确定概率 P 并作出统计推论。
01121 20 211 3 7 3150
63 450
0.14
1ˆ 1 0.14 0.86
理论概率 P( X
0)
3 0
0.140
0.863
0.63606 ,…
理论家庭数=150*理论概率 =3-1-1=1。
χ20.05,1=3.84, ∴p<0.05,…具有家庭聚集性
二、Poisson分布的拟合优度检验