第五章第一次课 卡方检验 第一节检验原理 第二及节 适合性检验
重庆大学生物统计学_第五章 卡方检验

卡方 (χ2) 分布的函数
( ) CHIDIST:自由度为n的卡方分布在x点处的单尾概率 P χ2 > x
CHIINV: 返回自由度为n的卡方分布的单尾概率函数的逆函 数• CHIDIST •
X•
需要计算分布的数字(X非负值) •
Degrees_freedom • 自由度 •
CHIINV • Probability • 卡方分布的单尾概率 • Degrees_freedom • 自由度 •
没有关联 • 2. 规定显著性水平 • 3. 根据无效假设计算出理论数 • 4. 根据规定的显著水平和自由度计算出卡方值,
再和计算的卡方值进行比较。 • 如果接受假设,则说明因子之间无相关联,
是相互独立的 • 如果拒绝假设,则说明因子之间的关联是显
著的,不独立 •
一、2X2列联表的独立性检验 •
设A、B是一个随机试验中的两个事件,其中A可能 出现r1、r2个结果,B可能出现c1、c2个结果,两 因子相互作用形成4个数,分别以O11、O12、O21、 O22表示,即 • 2X2列联表的一般形式 •
故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率
(4)推断:由CHIINV(0.025, 1)=6.63, 即 χ c 2 > χ0 2.05(1),即P<0.05
故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率
独立性检验 •
步骤: • 1. 提出无效假设,即认为所观测的各属性之间
故应否定H0,接受HA,认为吸烟与患气管病极显著相关
(4)推断:由CHIINV(0.025, 1)=6.63, 即 故应否定H0,接受HA,认为吸烟与患气管炎病密切相关
二、rXc列联表的独立性检验 •
生物统计学—卡方检验

独立性检验
步骤: 1. 提出无效假设,即认为所观测的各属性之间
没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值,
再和计算的卡方值进行比较。 如果接受假设,则说明因子之间无相关联,
是相互独立的 如果拒绝假设,则说明因子之间的关联是显
著的,不独立
一、2X2列联表的独立性检验
设A、B是一个随机试验中的两个事件,其中A可能
出现r1、r2个结果,B可能出现c1、c2个结果,两 因子相互作用形成4个数,分别以O11、O12、O21、 O22表示,即
2X2列联表的一般形式
r1 r2 总和
c1 O11 O21 C1=O11+O21
c2 O12 O22 C2=O12+O22
解:(1)假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
(2)选取显著水平 0.05
(3)检验计算: 计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
红色 400.5
总数 1602
k
cc2 i 1
Oi Ei
0.5 2 301.63
1
2
2
xx
将样本方差代入,则:c
2
(k
1) s 2
2
其c2服从自由度为(k-1)的卡方分布
卡方函数的使用
假设
H 0:
2
2 0
,
适用右尾检验 ,其否定区为: c 2 c2
假设
H
0:
2
2 0
,
适用左尾检验
,其否定区为:
c
2
c2 1
假设
生物统计学第四版--教学大纲

课程简介《生物统计学》是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,是生物学各专业的专业基础课。
本门课程在第七学期进行,是在学生已学习了《高等数学》课程和《植物学》、《动物学》、《生理学》、《遗传学》等生物学各学科的基础知识的基础上开设本门课程。
本课程系统地介绍了生物统计学的基本原理和方法,在简要叙述了生物统计学的概念、产生、发展和作用、生物学研究中试验资料的整理、特征数的计算、概率和概率分布、抽样分布基础上,着重介绍了平均数和频率的假设检验、X 2检验、方差分析、直线回归与相关分析、可直线化的非线性回归分析、协方差分析、试验设计的原理和常用试验设计及其统计分析、多元回归与相关分析和多项式回归分析,同时简要介绍聚类分析、判别分析、主成分分析、因子分析、典型相关、时间序列分析等多元分析。
本课程的主要目的是培养学生具有生物学试验设计的能力和对试验资料进行统计分析处理的能力.一、教学环节和教学方法1教学环节本门课程为生物学的专业基础课,在第七学期进行。
学生已学习了《高等数学》课程和《植物学》、《动物学》、《生理学》、《遗传学》等生物学各学科的基础知识,在此基础上开设本门课程。
主要教学形式为课堂讲授,主要教学环节包括课堂讲授、辅导答疑、课外作业、习题讲解等。
2教学方法以课堂讲授为主,研制电子教案和多媒体幻灯片以及C A I课件,在教学方法和手段上采用现代教育技术.二、本课程的性质和任务《生物统计学》是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,是生物学各专业的专业基础课.随着生物学的不断发展,对生物体的研究和观察已不再局限于定性的描述,而是需要从大量调查和测定数据中,应用统计学方法,分析和解释其数量上的变化,以正确制定试验计划,科学地对试验结果进行分析,从而作出符合科学实际的推断。
《生物统计学》不仅提供如何正确地设计科学试验和收集数据的方法,而且也提供如何正确地整理、分析数据,得出客观、科学的结论的方法。
5 卡方检验分析

二、 主要应用对象:检验试验数据的次数分布是否和某种理论分布 (如二项分布、正态分布等等)相符;在遗传学上常用 检验来测定 所得结果是否符合孟德尔规律、自由组合规律等。 三、 实例: 有一鲤鱼遗传试验,以荷包红鲤(红色)与湘江野鲤(青灰色) 杂交,其 F2 代获得如表 5.2 所列的体色分离尾数,问这一资料的实际 观察数是否符合孟德尔的青∶红 =3 ∶ 1 一对等位基因的遗传规律? P73。 表 5.1 鲤鱼遗传试验 F2 观测结果 体色 青灰色 红色 总数 F2 观测尾数 1503 99 1602 这是典型的两组数据的适合性检验问题。
2 2)在自由度 df=1 时,须进行连续性矫正,其矫正的 c 为:
2 c 1
k
( O E 0.5) 2 E
当 df≥2 时,一般不作连续性矫正。
第二节 适合性检验
一、 概念:检验实际观测值与理论数是否符合的假设检验,叫适合 性检验。也叫吻合度检验 二、 主要应用对象:检验试验数据的次数分布是否和某种理论分布 (如二项分布、正态分布等等)相符;在遗传学上常用 检验来测定 所得结果是否符合孟德尔规律、自由组合规律等。 三、 实例: 有一鲤鱼遗传试验,以荷包红鲤(红色)与湘江野鲤(青灰色) 杂交,其 F2 代获得如表 5.2 所列的体色分离尾数,问这一资料的实际
B 18 18.6
C 12 14.4
测验步骤: .提出假设: H0:消费者对不同产品的态度没有改变 HA:消费者对不同产品的态度有所改变. 2.确定显著水平.(=0.05)
3.检验计算:
(30 27) 2 (18 18.6) 2 (12 14.4) 2 0.871 27 18.6 14.4
2
4.统计推断:0.052=5.99,由于20.052,所以接受H0 而否定HA.即消费者对3种不同产品的满意程度没 有改变.
生物统计学 第五章 卡方检验

验,通过假设所观测的各属性之间没有关联, 然后证明这种无关联的假设是否成立。
同质性检验 在连续型资料的假设检验中,对一个样本方差
的同质性检验,也需进行χ2 检验。
第五章 第一节 χ2检验的原理与方法 第二节 适合性检验 第三节 独立性检验
➢ χ2检验就是统计样本的实际观测值与理论推算
离散型资料 总体分布未知
检验对象
总体参数或几个总体参 数之差
不是对总体参数而是对 总体分布的假设检验
χ2 检验的相关知识
三、χ2检验的用途 指对样本的理论数先通过一定的理论分布推算
适合性检验 出来,然后用实际观测值与理论数相比较,从
而得出实际观测值与理论数之间是否吻合。因 此又叫吻合度检验。 是指研究两个或两个以上的计数资料或属性资
(4)推断
确定自由度,df=(r-1)(c-1),查临界值 表,进行推断。
给药方式 口服 注射 总数
给药方式与给药效果的2×2列联表
有效 58 64 122(C1)
无效 40 31 71(C2)
总数
98(R1) 95(R2) 193(T)
有效率 59.2% 67.4%
1.H0 :给药方式与给药效果相互独立。 HA :给药方式与给药效果有关联。
进行计算:
2 1
n
Oi2 n pi
Oi -第 i 组的实际观测数 pi -第 i 组的理论比率 n-总次数
豌豆
F2代,共556粒
315
101 108
32
此结果是否符合自由组合规律
根据自由组合规律,理论分离比为:
黄圆:黄皱:绿圆:绿皱= 9 :3 :3 :1 16 16 16 16
第五章卡方检验

χ2= ∑
(Oi-Ei)2 Ei
χ2值就等于各组观测 值和理论值差的平方与理 论值之比,再求其和。
(Oi − Ei ) χ =∑ Ei i =1
2 k
2
已经证明当k充分大时,由上式定义 的统计量近似服从����ቤተ መጻሕፍቲ ባይዱ�������2分布
χ2 检验的原理是: 应用理论推算值(E)与实际观测值 (O)之间的偏离程度来决定其χ2值的大 小。在计算理论推算值(E)与实际观测 值(O)之间的符合程度时,一般采用 ∑(E-O)2。对于k组资料采用:
∑ (O − E )
i i
2
值越大,观测值与理论值相差也就
越大,反之越小。
奖学金
200元
一等 10元
5%
70元
三 等 10元 实际得到60元
14%
实际得到190元
等级 观测值(O) 理论(E) O-E 一等 三等 190 60 200 70 -10 -10
(O-E)2 100 100
两组差数虽然相同,但其差数占理论值的比重不同。
χ2< χ20.05
P>0.05
接受H0 ,即豌豆F2分离符合9:3:3:1的自由组合规律。
方法二
315 101 108 32
黄圆:黄皱:绿圆:绿皱=
2 i
9 3 3 1 : : : 16 16 16 16
2 2 2 2 1 O 1 315 101 108 32 + + χ2 = ∑ −n = × + − 556 = 0.470 3 1 3 n pi 556 9 16 16 16 16
χ2 =0.016+0.101+0.135+0.218=0.470
5. 卡方检验

v−v 理 论 数 编码 u= Φ(u) 组界 v−v sv = Ti u Φ(u) = ∆Φ(u) n 变 量 组界 sv (Vt) 15.7 0 0.5 -2.153 0.0157 0.5 -2.153 0.0157 41.1 1 1.5 -1.582 0.0568 1.5 -1.582 0.0568 99.4 2 2.5 -1.011 0.1562 2.5 -1.011 0.1562 173.8 3 3.5 -0.440 0.3300 3.5 -0.440 0.3300 222.1 4 4.5 4.5 0.131 0.131 0.5521 0.5521 206.6 5 5.5 5.5 0.702 0.702 0.7587 0.7587 140.0 6 6.5 6.5 1.274 1.274 0.8987 0.8987 68.8 7 7.5 7.5 1.845 1.845 0.9675 0.9675 24.7 8 8.5 8.5 2.416 2.416 0.9922 0.9922 7.8 9 1000
2
i 1
k
( O i E i 0 .5 ) Ei
2
§2. 适合度检验
1) O = E 2) 选取显著水平为0.05或0.01; 3) 检验计算: 4) 推断:根据df=k-1,
例:
体色
鲤鱼遗传试验F2观测结果
F2观测尾数
青灰色 1503
红色 99
总数 1602
显性
隐性
检验步骤: 1) 零假设:F2代符合3:1规律;备择假设:不符合 2) 选取显著水平为00.01; 3) 检验计算:由于只有二组数据,自由率为1,需要 矫正。
第一步:分组 第二步:引入编 码变量Vt,计算 出其平均值 v 和 标准差 sV 第三步:确定 编码变量的组 界
5第五章 拟合优度检验

体色 F2观测尾数
鲤鱼遗传试验F2观测结果
青灰色 1503 红色 99 总数 1602
⒈ 提出无效假设与备择假设
H 0 : 鲤鱼体色F2 代分离符合3: 1 比率 H A : 鲤鱼体色F2 代分离不符合3: 1 比率
⒉计算理论次数 青灰色的理论数为: E1=1602 ×3/4=1201.5 红色的理论数: E2=1602×1/4=400.5 2 3.计算 c 因为该资料只有k=2组,所以此例的 自由度为2-1=1 ( O,需进行连续性矫正。 E 0.5) 2
9 9 p(0) , 9 3 3 1 16 3 p(1) p(2) , 16 1 p(3) 16
9 T0 179 100.6875 , 16 3 T1 T2 179 33.5625 16
1 T3 179 11.1875 16
按公式
行总数 列总数 Ei 总数
计算各格理论值,填于各格 括号中。再计算统计量:
2
( 254 236.5 0.5)
2
236.5 2 ( 246 263.5 0.5)
( 219 236.5 0.5)
2
236.5 2 ( 281 263.5 0.5)
263.5 263.5 1.222 1.222 1.097 1.097 4.638
尾区概率 P=P1+P0=0.122+0.010=0.132。 由于不知什么性别对药物反 应强烈;∴应进行双侧检验, 即与 =0.025 比较。 2 , ∴接受H0,男女对该药反应 无显著不同。
2 P
0.025
作业26/11
p102
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 x 2检验
教学要求1.了解卡方分布的特点,掌握适合性检验的原理和适用范围 2. 掌握独立性检验的原理和适用范围
一、χ2检验的定义
χ2 检验(Chi-square test) 对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。
χ2检验与测量数据假设检验的区别:
(1)测量数据的假设检验,其数据属于连续变量,而χ2检验的数据属于点计而来的间断变量。
(2) 测量数据所来自的总体要求呈正态分布,而χ2检验的数据所来自的总体分布是未知的。
(3)
测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验,而χ2 检验在多数情况下不是对总体参数的检验,而是对总体分布的假设检验。
二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
适合性检验(吻合度检验):是指对样本的理论数先通过一定的理论分布推算出来,然后用实际观测值与理论数相比较,从而得出实际观测值与理论数之间是否吻合。
因此又叫吻合度检验。
独立性检验:
是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。
同质性检验:
在连续型资料的假设检验中,对一个样本方差的同质性检验,也需进行χ2 检验。
连续型资料假设检验
χ2 检验
第一节:χ2检验的原理与方法
χ2检验的基本原理:χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。
实际观测值与理论推算值之间的偏离程度就决定其χ2值的大小。
理论值与实际值之间偏差越大,χ2值就越大,越不符合;偏差越小,χ2值就越小,越趋于符合;若两值完全相等时,χ2值就为0,表明理论值完全符合。
χ2检验统计量的基本形式:
(Oi-Ei)2
χ2=∑
Ei
O--实际观察的频数(observational frequency)
E--无效假设下的期望频数(expectation frequency)
要回答这个问题,首先需要确定一个统计量,将其用来表示实际观测值与理论值偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。
判断实际观测值与理论值偏离的程度,最简单的办法是求出实际观测值与理论值的差数。
由于差数之和正负相消,并不能反映实际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际观测值与理论值的差数平方后再相加,也就是计算:
∑(O-E)2
O--实际观察的频数
E--无效假设下的期望频数
数的平方除以相应的理论值,将之化为相对数,从而来反映(O-E)2 的比重,最后将各组求和,这个总和就是χ2。
羔羊性别观测值与理论值
χ2值就等于各组观测值和理论值差的平方与理论值之比,再求其和。
χ2值的特点
可加性 非负值
随O 和E 而变化
χ2值与概率P 成反比, χ2值越小,P 值越大,说明实际值与理论值之差越小,样本分布与假设的理论分布越相一致;
χ2越大,P 值越小,说明两者之差越大,样本分布与假设理论分布越不一致。
χ2检验的基本步骤
1.
提出无效假设H 0:观测值与理论值的差异由抽样误差引起,即观测值=理论值。
同时给出相就的备择假设HA :观测值与理论值的差值不等于0,即观测值≠理论值
2. 确定显著水平α:一般确定为0.05或0.01
3.
计算样本的χ2值
χ2
= ∑
(O i -E i )2
E i
χ2
= ∑
(O i -E i )2
E
4. 进行统计推断
χ2检验的注意事项
1、 任何一组的理论次数Ei 都必须大于5,如果Ei ≤5,则需要合并理论组或增大样本容量以满足Ei >5
2、
2、在自由度=1时,需进行连续性矫正,其矫正的χ2c 为:
χ2分布是连续型变量的分布,每个不同的自由度都有一个相应的χ2分布曲线,所以其
分布是一组曲线。
由于检验的对象-次数资料是间断性的,而χ2分布是连续型的,检验计算所得的χ2
值只是近似地服从χ2分布,所以应用连续型的χ2分布的概率检验间断性资料所得的χ2值就有一定的偏差。
χ2 < χ
2
α
P > α χ2 > χ2α
P < α
H 0 H 0
χ2= ∑
( O i -E i - 0.5 )2
E i
由次数资料算得的χ2均有偏大的趋势,即概率偏低。
当df=1,尤其是小样本时,必须作连续性矫正。
第五章 第二节 适合性检验
适合性检验定义:比较观测数与理论数是否符合的假设检验。
用 途
鲤鱼遗传试验F2观测结果
(1) H0:鲤鱼体色F2分离符合3:1比率; HA :鲤鱼体色F2分离不符合3:1比率; (2)取显著水平α=0.05 (3)计算统计数χ2 :
样本的分布与理论分布是否相等
适合性检验的df 由于受理论值的总和等于
观测值总和这一条件的约束,故df =n-1
χ2c
=
∑
( O i -E i - 0.5 )2
E i
df= k-1 = 2-1 =1 需要连续性校正
在无效假设H0正确的前提下,青灰色的理论数为:Ei =1602×3/4=1201.5 红色理论数为: Ei =1602×1/4=400.5
=75.41+226.22=301.63
(4)查χ2值表,当df=1时,χ20.05 =3.84。
现实得χ2c =301.63>χ20.05 ,故应否
定H0 ,接受HA ,即认为鲤鱼体色F2分离不符合3:1比率。
在遗传学中,有许多显、隐性比率可以划分为两组的资料,如欲测其与某种理论比率的适合性,则χ2值可用下表中的简式进行计算:
检验两组资料与某种理论比率符合度的χ2值公式
例:大豆花色遗传试验F2观测结果
χ2
= ∑
( O i -E i - 0.5 )2
E i
i=1
2
=
(1503-1201.5 - 0.5 )2 1201.5 (99-400.5 - 0.5 )2 400.5
(1) H0 :大豆花色F2分离符合3:1比率;
HA :大豆花色F2分离不符合3:1比率;
(2)取显著水平α=0.05
(3)计算统计数χ2值:
接受H0 ,即大豆花色F2分离符合3:1比率
对于资料组数多于两组的值,还可以通过下面简式进行计算:
Oi -第i 组的实际观测数
pi -第i 组的理论比率
n-总次数
根据自由组合规律,理论分离比为:
(1) H0 :豌豆F2分离符合9:3:3:1的自由组合规律; HA :豌豆F2分离不符合9:3:3:1的自由组合规律; (2)取显著水平α =0.05 (3)计算统计数χ2值:
χ2 =0.016+0.101+0.135+0.218=0.470 (4)查值表,进行推断:
F2代,共556粒
315 101 108 32
豌豆
此结果是否符合自由组合规律
接受H0 ,即豌豆F2分离符合9:3:3:1的自由组合规律。
χ2 =0.016+0.101+0.135+0.218=0.470
P >0.05
315 101 108 32。