拟合优度检验和方差检验
拟合优度检验方法分析

(三)计算理论次数 依据各理论比例9:3:3:1计算理论次数:
黑色无角牛的理论次数T1:360×9/16=202.5; 黑色有角牛的理论次数T2:360×3/16=67.5; 红色无角牛的理论次数T3:360×3/16=67.5; 红色有角牛的理论次数T4:360×1/16=22.5。
【例】 在研究牛的毛色和角的有无两对 相对性状分离现象时 ,用黑色无角牛和红 色有角牛杂交 ,子二代出现黑色无角牛192 头,黑色有角牛78头,红色无角牛72头, 红色有角牛18头,共360头。试 问这两对性 状是否符合孟德尔遗传规律中9∶3∶3∶1的 遗传比例?
检验步骤:
(一)提出无效假设与备择假设 H0:实际观察次数之比符合9:3:3:1的理论比例。 HA:实际观察次数之比不符合9:3:3:1的理论比 例。 (二)选择计算公式 由于本例的属性类别分类数 k=4:自由 度df=k-
数据格式与计算公式
类别或组段 观察频数
理论频数
1
O1
E1
2
O2
E2
…
…
…
k
Ok
Ek
问题:试判断这份样本,是否来自该理论分布?
2 P
k i 1
(Oi
Ei )2 , Ei
a为参数的个数
k 1 a
df = k-1-a
注意:理论频数Ei不宜过小(如不
小于5),否则需要合并组段!
计算步骤
(1)
H
§ 7.1 拟合优度检验
回顾下2分布——p56
❖ 设有一平均数为μ、方差为 2的正态总 体。现从此总体中独立随机抽取n个随机 变量:x1、x2、…、 xn,并求出其样本方 差S2
拟合优度检验

计算上例的χ 值并做推断。先计算各理论数Ti。
2
给药方式 口服
(B )
有效( A )
O1=58 ( 98)(122 ) = 61.95 T1 = 193 O3=64 ( 95)(122 ) = 60.05 T3 = 193
无效( A )
总数
T2
( 98)( 71) = 36.5 =
193
O4=31 ( 95)( 71)
列联表中的数据可以用以下符号表示: a c a+c b d b+d a+b c+d N
在行总数和列总数及N都保持不变的情况下,a、b、c、d的各种组合 的概率可以由下式给出:
P=
( a + b )!( c + d )!( a + c )!( d + b )!
N !a !b !c !d !
零假设:不存在处理效应。若P > α 则接受零假设;反之则拒绝。 若a、b、c、d中的任何一个出现0时,则直接用该概率值作为判断标 准。若无,则应当将这个组合的概率以及从最接近于0的哪个观测值到 0的各种组合的概率都计入。这样才能构成一个尾区的概率。
将以上数据列成下表:
Y_R_ 实际观测数O 理论频率p 理论数T O-T (O-T) 2/ T 315 9/16 312.75 2.25 0.016
Y_rr 101 3/16 104.25 -3.25 0.101
yyR_ 108 3/16 104.25 3.75 0.135
yyrr 32 1/16 34.75 -2.75 0.218
2. 总体参数未知 例 调查到幼儿园接小孩的家长性别,以10人为一组,记录每组女性的人数,共得到
100组,列入下表的第2列中。问女性家长人数是否符合二项分布。 解:人群中男女比率各 占一半,但去接小孩的 家长中是否也是这个比 率就不一定。因此二项 分布的参数ϕ 是未知 的,需从样本数据估 计。
多元线性回归模型拟合优度假设检验

− nY 2 = Y′ − nY 2 Y
将上述结果代入R2的公式,得到:
′ − nY 2 − (Y′ −Y′ β ) Y′ β − nY 2 Xˆ Σe2 YY Y Xˆ 2 = R =1− 2 = 2 Y′ − nY 2 Y Σ(Y −Y ) Y′ − nY Y
这就是决定系数R2 的矩阵形式。
判定系数
1、t统计量 、 统计量
由于
ˆ) Cov(β = σ 2 ( X′X) −1
以cii表示矩阵(X’X)-1 主对角线上的第i个元素, 于是参数估计量的方差为: ˆ Var ( β ) = σ 2 c
i ii
其中σ2为随机误差项的方差,在实际计算 时,用它的估计量代替:
ˆ σ2 =
∑e
2 i
n − k −1
注意:一元线性回归中, 检验与F 注意:一元线性回归中,t检验与F检验一致 一方面,t检验与F检验都是对相同的原假设 一方面 H0:β1=0 进行检验; 另一方面,两个统计量之间有如下关系: 另一方面
F= ˆ ∑y
2 i 2 i
∑ e ( n − 2)
ei2 ∑
=
ˆ β12 ∑ xi2
∑ e ( n − 2)
1、方程显著性的 检验 、方程显著性的F检验
即检验模型
Yi=β0+β1X1i+β2X2i+ … +βkXki+µi i=1,2, …,n
中的参数βj是否显著不为0。 可提出如下原假设与备择假设: H0: β0=β1=β2= … =βk=0 H1: βj不全为0
F检验的思想来自于总离差平方和的分解式: 检验的思想 TSS=ESS+RSS
t 1 = 7.378, t 2 = 2.201
拟合优度检验-

的 分 离 现 象 符 合 孟 德 尔遗传规律中9∶3∶3∶1 的遗传比例。
例7.1;7.2(P93;94)
• 总体参数未知 例P95,表7-1 不同之处:要由样本估计出总体参数。
7.2.3 对正态分布的检验(P96) 7.2.4 其他类型问题的检验(P97)
表
性别
动物性别实际观察次数与理论次数
实际观察 理论次 次数Oi 数Ti O i-T i (Oi-Ti)2/Ti
雌
雄 合计
428
448 876
438
438 876
-10
10 0
0.2283
0.2283 0.4563
从上表可以看到 ,实际观察次数与理论次数存在
一定的差异。 这个差异是属于抽样误差、还是其性别
§7.3、独立性检验
7.3.1 列联表2 检验(P97)
一、独立性检验的意义
对次数资料,除进行拟合优度检验外,有时需 要分析两类因子是相互独立还是彼此相关。如研究 两类药物对实验动物某种疾病治疗效果的好坏,先 将动物分为两组,一组用第一种药物治疗,另一组 用第二种药物治疗,然后统计每种药物的治愈头数 和未治愈头数。
当自由度大于1时,原公式的2分布与连续型随机
变量2分布相近似,这时,可不作连续性矫正,但要
求各组内的理论次数不小于5。若某组的理论次数小 于5,则应把它与其相邻的一组或几组合并,直到理 论次数大 于5 为止。
• 统计量:
(Oi Ti ) Ti i 1
2 r
2
• 使用条件:
– 各理论值均大于5。 – 若自由度为1,则应作连续性矫正:
比例发生了实质性的变化?
要回答这个问题: ①首先需要确定一个统计量用以表示实际观察次数与 理论次数偏离的程度; ②然后判断这一偏离程度是否属于抽样误差,即进行 显著性检验。
卡方-拟合优度检验

7.2.2 对二项分布的检验(P93)
下面结合实例说明适合性检验方法。
(总体参数已知 )
【例】 在研究牛的毛色和角的有无两对相对性状分离
现象时 ,用黑色无角牛和红色有角牛杂交 ,子二代出
现黑色无角牛192头,黑色有角牛78头,红色无角牛72 头,红色有角牛18头,共360头。试 问这两对性状是否 符合孟德尔遗传规律中9∶3∶3∶1的遗传比例?
1、rc个理论次数的总和等于rc个实际次数的总和;
2、r个横行中的每一个横行理论次数总和等于该 行实际次数的总和 。 独立的行约束条件只有r-1个; 3、类似地,独立的列约束条件有c-1个。 因而在进行独立性检验时,自由度为rc-1-(r-1)-(c1)=(r-1)(c-1),即等于(横行属性类别数-1)×(直 列属性类别数-1)。
黑色无角牛的理论次数T1:360×9/16=202.5;
黑色有角牛的理论次数T2:360×3/16=67.5; 红色无角牛的理论次数T3:360×3/16=67.5;
红色有角牛的理论次数T4:360×1/16=22.5。
或 T4=360-202.5-67.5-67.5=22.5
(四)列表计算2
表 2计算表
表
性别
动物性别实际观察次数与理论次数
实际观察 理论次 次数Oi 数Ti O i-T i (Oi-Ti)2/Ti
雌
雄 合计
428
448 876
438
438 876
-10
10 0
0.2283
0.2283 0.4563
从上表可以看到 ,实际观察次数与理论次数存在
一定的差异。 这个差异是属于抽样误差、还是其性别
(1)提出零假设:认为有效或无效与给药方式并无关联。 实际观察的结果与在两者之间并无关联的前提下,从理论 上推导出的理论数之间无差异。即H0:O-T=0。 ( 2 )根据概率乘法法则,若事件 A 和事件 B 是相互独立 的,或者说它们之间并无关联,这时事件A和事件B同时出 现的概率等于它们分别出现的概率乘积。
第7章 拟合优度检验

§7.1拟合优度检验的一般原理 拟合优度检验的一般原理
7.1.1 什么是拟合优度检验
拟合优度检验( 拟合优度检验(goodness of fit test) ) 是用来检验实际观测数与依照某种假设或模型 计算出来的理论数之间的一致性,以便判断该 计算出来的理论数之间的一致性, 假设或模型是否与观测数相配合。拟合优度检 假设或模型是否与观测数相配合。 验也会出现Ⅰ型错误(弃真) 验也会出现Ⅰ型错误(弃真)和Ⅱ型错误(取伪)。 型错误(取伪)
上一张 下一张 主 页 退 出
7.2.2 对二项分布的检验 1.总体参数 ϕ 已知 纯合的黄圆豌豆与绿皱豌豆杂交,F 例7.1 纯合的黄圆豌豆与绿皱豌豆杂交,F1 代自交,第二代分离数目如下: 代自交,第二代分离数目如下:
Y_R_ (黄圆) 黄圆) 315 Y_rr (黄皱) 黄皱) 101 yyR_ yyR_ (绿圆) 绿圆) 108 yyrr (绿皱) 绿皱) 32 556
χ2检验是对一个正态总体的标准差所作的检验。 检验是对一个正态总体的标准差所作的检验。
引例: 引例: 根据遗传学理论,动物的性别比例是1:1。 根据遗传学理论,动物的性别比例是1:1。 统计某羊场一年所产的876只羔羊中 只羔羊中, 统计某羊场一年所产的876只羔羊中,有 公羔428只 母羔448只 1:1的性别 公羔428只,母羔448只。按1:1的性别 比例计算, 母羔均应为438只 比例计算,公、母羔均应为438只。以A 表示实际观察次数, 论次数, 表示实际观察次数,T 表 示 理 论次数, 可将上述情况列成表7 可将上述情况列成表7-1。
从上述结果可以看出,矫正后的χ2比矫正前 从上述结果可以看出, 的低,若未加矫正,就已经接受H0,矫正后的χ2 的低,若未加矫正,就已经接受H 更低,不会影响结论,可以不加矫正。若未矫正 更低,不会影响结论,可以不加矫正。 时χ2> χ2α,一定要计算矫正的χ2。
精选拟合优度检验和假设检验

2、关于拟合优度检验与方程显著性检验关系的讨论
由
可推出:
与
或
R2
R2
R2
R2
在中国居民人均收入-消费一元模型中,
在中国居民人均收入-消费二元模型中,
三、变量的显著性检验(t检验)
方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的
因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。 这一检验是由对变量的 t 检验完成的。
二、方程的显著性检验(F检验)
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
1、方程显著性的F检验
即检验模型 Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n中的参数j是否显著不为0。
注意:一元线性是对相同的原假设H0:1=0 进行检验; 另一方面,两个统计量之间有如下关系:
在中国居民人均收入-消费支出二元模型例中,由应用软件计算出参数的t值:
给定显著性水平=0.05,查得相应临界值: t0.025(28) =2.048。
对于中国居民人均消费支出的例子: 一元模型:F=985.6616(P54) 二元模型:F=560.5650 (P72)
给定显著性水平 =0.05,查分布表,得到临界值: 一元例:F(1,30)=4.17 二元例: F(2,28)=3.34
显然有 F F(k,n-k-1) 即二个模型的线性关系在95%的水平下显著成立。
根据数理统计学中的知识,在原假设H0成立的条件下,统计量
服从自由度为(k , n-k-1)的F分布
给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1) 或 FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。
计量-多元回归统计检验

§3.3 多元线性回归模型的统计检验 一、拟合优度检验1、可决系数与调整的可决系数在一元线性回归模型中,使用可决系数2R 来衡量样本回归线对样本观测值的拟合程度。
在多元线性回归模型中,我们也可用该统计量来衡量样本回归线对样本观测值的拟合程度。
记∑-=2)(Y Y TSS i 为总离差平方和,∑-=2)ˆ(Y Y ESS i 为回归平方和,∑-=2)ˆ(ii Y Y RSS 为剩余平方和,则 2222)ˆ()ˆ)(ˆ(2)ˆ())ˆ()ˆ(()(Y Y Y Y Y Y Y Y Y Y Y Y Y Y TSS ii i i i i ii i i -∑+--∑+-∑=-+-∑=-∑= 由于∑∑-=--)ˆ()ˆ)(ˆ(Y Y e Y Y Y Y iiii∑∑∑∑++++=i ki i k i i i e Y X e X e e βββˆˆˆ110=0 所以有:ESS RSS Y Y Y Y TSS ii i +=-+-=∑∑22)ˆ()ˆ( (3.3.1) 即总离差平方和可分解为回归平方和与剩余平方和两部分。
回归平方和反映了总离差平方和中可由样本回归线解释的部分,它越大,剩余平方和越小,表明样本回归线与样本观测值的拟合程度越高。
因此,可用回归平方和占总离差平方和的比重来衡量样本回归线对样本观测值的拟合程度:TSSRSSTSS ESS R -==12 (3.3.2)该统计量越接近于1,模型的拟合优度越高。
在应用过程中发现,如果在模型中增加一个解释变量,2R 往往增大。
这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。
这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。
但是,现实情况往往是,由增加解释变量个数引起的2R 的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度,2R 就不是一个适合的指标,必须加以调整。
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 /2
(n
1)
}
1
P{
(n 1)s2
2/ 2 (n 1)
2
(n 1)s2
2 1
/
2
(n
1)
} 1
所以 2的一个置信区间是
(n 1)s2 2 (n 1)s2
2 / 2 (n 1)
2 1
/
2
(n
1)
2000年12月
北京大学光华管理学院 王明进 陈
8
奇志
灌装量方差的90%置信区间
❖ 如何得到自由度为17的卡方分布的上下0.05分位数? (查表得到分别为8.67176, 27.5871)
2000年12月
北京大学光华管理学院 王明进 陈
13
奇志
怎样用模型来刻画我们的问题?
❖ 我们的总体是什么?
❖ 对总体假定是服从正态分布的,可以吗?
X 1~ N (1 , 1 2 );X 2~ N (2 ,2 2 )
❖ 检验假设:
H 0 :
1 22 2, H 1:
2 2
12
❖ 拒绝域的形状是什么?
❖ 关于样本方差的抽样分布的一个结果
(n1)s2
2
~2(n1)
2000年12月
北京大学光华管理学院 王明进 陈
6
奇志
再看卡方分布...
自由度为n-1的卡方分布 以及其上下分位数
21-(n-1)
2(n-1)
2000年12月
北京大学光华管理学院 王明进 陈
7
奇志
方差的区间估计
P{
2 1
/
2
(n
1)
(n 1)s2
12
奇志
选择哪个公司的校车服务?
Dullus县学校要更新明年的校车服务合同,需要从 Milbank和Gulf Park两家公司中选择一个。选择校 车运送或者到达时间的方差作为衡量公司服务质量 的指标。学校需要了解这两家公司的服务质量是否 相同,如果相同,他们就会选择价格较低的一家。 他们调查了M公司的25个到达时间以及G公司的16 个到达时间,分别得到样本的方差是48和20。他们 是否有充分的理由认为两家公司的服务质量不同?
ቤተ መጻሕፍቲ ባይዱ
北京大学光华管理学院 王明进 陈
11
奇志
小结:单样本方差的检验
H0 : 2 02, H1 : 2 02; H0 : 2 02, H1 : 2 02; H0 : 2 02, H1 : 2 02;
❖ 它们的拒绝域的形状分别是什么?怎样确定 拒绝域?
❖ 此时对总体和样本有什么要求?
2000年12月
北京大学光华管理学院 王明进 陈
即自由度为ssn122 21~-1F和(n1n21-,1n的2F1分) 布。
2000年12月
北京大学光华管理学院 王明进 陈
15
奇志
关于F分布...
自由度为n和m的F分布。 如何找到分位数?
F1-
F
一个重要的性质:
F (n,m )1/F 1(m ,n)
2000年12月
北京大学光华管理学院 王明进 陈
❖ 匹配样本(双样本)的均值检验问题;
❖ 检验的P值。
2000年12月
北京大学光华管理学院 王明进 陈
2
奇志
第五讲
方差检验和拟合优度检验
2000年12月
2000年12月
北京大学光华管理学院 王明进 陈
3
奇志
关于方差…
❖ 方差刻画了什么?
一种零件的尺寸的方差;
一种股票收益率的方差;...
❖ 方差的点估计:
(n 1) s 2 0 .25
2
(n
1)
❖ 此时犯第一类错误的概率不会超过,为 什么?
2000年12月
北京大学光华管理学院 王明进 陈
10
奇志
取显著水平=0.05时
❖ 拒绝域为
s2
0.25 ( n 1)
2
(
n
1)
0.25 17
27.5871
0.405693
❖ 可以认为该机器不合格吗?
2000年12月
2000年12月
s12 s2 2
c1
或s12 s2 2
c2,
如何c1 确 ,c2?定
北京大学光华管理学院 王明进 陈
14
奇志
下一步,我们需要知道...
❖ 在H0成立时, s12 / s22的抽样分布是什么? ❖ 已有的结果:
当样本容量为n1和n2的独立简单随机样 本分别取自两个方差相等的正态总体时,
第四讲复习(续)
❖ 问题: 在构造拒绝域时,为什么统计量的抽样分布 是重要的?
❖ 问题: 对第7章中的概念你是否有了更新的认 识呢?
2000年12月
北京大学光华管理学院 王明进 陈
1
奇志
第四讲复习(续)
❖ 置信区间和假设检验的关系; 置信系数是1-的置信区间和显著水平是的 双边检验的拒绝域有什么关系?
16
奇志
确定我们的拒绝域
❖ 拒绝域应为
s12 s22
F(n11,n21) 2
或
者
s12 s22
F12(n11,n21)1F /2(n21,n11)
❖ 对选择校车问题,使用显著水平0.10,则
s12 s2 2
F0.05 (2,4 1)52.2或 9 者
s12 s2 2
F0.95 (2,4 1)51/F0.05 (1,52)41/2.11 0.4739
❖ 灌装量方差的置信水平是90%置信区间是 (0.246492,0.784155)
❖ 问题: 1)怎么解释以上区间的含义? 2)给定显著水平0.10, 能否拒绝原假设H0:
2=0.30, 为什么?拒绝域是什么?
2000年12月
北京大学光华管理学院 王明进 陈
9
奇志
该机器是否合格?
❖ 检验假设:H0: 20.25, H1: 2>0.25; ❖ 拒绝域的形状: s2>c, c=? ❖ 根据抽样分布确定拒绝域为
❖ 问题:
1)该机器灌装量的方差的点估计是多少?
2)该方差的置信水平为90%的置信区间是什么?
3)如果一个可以接受的方案是方差不超过0.25,根据测试 的结果你是否认为该机器不合格?
2000年12月
北京大学光华管理学院 王明进 陈
5
奇志
如何得到方差的置信区间?
❖ 为了求置信区间,我们需要什么?
❖ 为此,我们需要对总体的分布做哪些要求?对 于饮料的灌装量,这种要求是否合理?
样本方差
n
s2
1 n1
(xi x)2
i1
❖ 方差的区间估计呢?
2000年12月
北京大学光华管理学院 王明进 陈
4
奇志
自动饮料机的例子
❖ 某种自动饮料机的饮料灌装量的方差是一个重要的技术指标, 方差太大,意味着可能经常出现过度灌装或者灌装不足,这 会引起饮料机的拥有者或者顾客的不满。在对某一特定的机 器灌装量的测试中,由18杯饮料组成的随机样本得到样本方 差是0.40。
(见P.680-681)
2000年12月
北京大学光华管理学院 王明进 陈
17
奇志
对校车选择的建议
根据上面的分析,你对Dullus学校选择校车 有什么建议?你的根据是什么?
2000年12月