抽样第十二章
抽样技术课后习题答案

12
160
1700
3
170
2000
13
180
2000
4
150
1500
14
130
1400
5
160
1700
15
150
1600
6
130
1400
16
100
1200
7
140
1500
17
180
1900
8
100
1200
18
100
1100
9
110
1200
19
170
1800
10
140
1500
20
120
1300
20
试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。
解:由题意得到 , , ,
故 (份)
(份)
(份)
于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。
4.2
某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政策改革措施的意见,结果如下:
1
42
6.2
11
60
6.3
2
51
5.8
12
52
6.7
3
49
6.7
13
61
5.9
4
55
4.9
14
49
6.1
5
47
5.2
15
57
6.0
《抽样技术》第四版习题答案

第2章2.1 解:()1 这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大_y E y y -=近似服从标准正态分布, _Y 的195%α-=的置信区间为y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n-=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r 的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭,所以()2_2rY V y z α⎛⎫⎪= ⎪⎝⎭。
也就是2_2_222/221111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫⎪⎛⎫⎝⎭⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。
把_29.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。
第十二章审计抽样

本章的重点为:(1)审计抽样,包括抽样风险与⾮抽样风险、样本设计、样本选取、对样本实施审计程序、样本结果评价;(2)控制测试中抽样技术的运⽤,主要是三种抽样⽅法的具体运⽤;(3)实质性程序中抽样技术的运⽤,主要是两种抽样⽅法的具体运⽤。
&&本章难点&抽样结果的评价、五种抽样⽅法的具体运⽤。
&本章重点内容总结&§1 审计抽样概述在设计审计程序时,CPA应当确定选取测试项⽬的适当⽅法。
选取测试项⽬旨在帮助CPA确定实施审计程序的范围。
审计程序的范围是指实施审计程序的数量,包括抽取的样本量,对某项控制活动的观察次数等。
CPA可以使⽤的⽅法有三种:(1)选取全部项⽬;(2)选取特定项⽬;(3)审计抽样。
§2审计抽样⼀、抽样风险和⾮抽样风险(⼀)抽样风险1.抽样风险是指CPA根据样本得出的结论,与对总体全部项⽬实施与样本同样的审计程序得出的结论存在差异的可能性。
也就是说,样本中包含的⾦额错报或对设定控制的偏差,可能不能代表某类交易或账户余额总体中存在的错报或控制偏差。
2.抽样风险的类型。
抽样风险分为下列两种类型:(1)在实施控制测试时,CPA推断的控制有效性⾼于其实际有效性的风险,或在实施细节测试时,CPA推断某⼀重⼤错报不存在⽽实际上存在的风险。
此类风险影响审计的效果,并可能导致CPA发表不恰当的审计意见。
(2)在实施控制测试时,CPA推断的控制有效性低于其实际有效性的风险,或在实施细节测试时,CPA推断某⼀重⼤错报存在⽽实际上不存在的风险。
此类风险影响审计的效率。
也就是说,⽆论在控制测试中还是在细节测试中,抽样风险都可以分为两种类型:⼀类是影响审计效果的抽样风险,另⼀类是影响审计效率的抽样风险。
但在控制测试和细节测试中,这两类抽样风险的表现形式有所不同。
在实施控制测试时,CPA要关注的两类抽样风险是信赖过度风险和信赖不⾜风险。
信赖过度风险是指推断的控制有效性⾼于其实际有效性的风险。
现代管理学第十二章练习及答案

现代管理学第十二章社会调查方法与技术一、单选题1.在社会调查中,两个变量相关系数在0.5~0.7之间,说明变间的相关程度()A.较低B.一般C.显著D.极高答案:C解析:表示变量之间相关关系密切程度的指标,称为关系数或相关指数。
一般情况下,两个变量之间的相关系数的取值在0与1之间。
如果相关系数在0.3以下,表明变量间相关程度低;如果相关系数在0.3~0.5之间,表明变量间相关程度一般;如果相关系数在0.5~0.7之间,表明变量间相关程度显著;如果相关系数在0.7~0.9之间,表明变量间相关程度高;如果相关系数在0.9以上,表明变量间相关程度极高。
2.一项社会调查在问卷中了解不同年龄的居民对网络购物的看法和态度,其中的“看法和态度”属于()A.因变量B.自变量C.中间变量D.中间变量答案:A解析:自变量是不受外部因素影响而自身产生变化的变量,如年龄、身高等;因变量是指受外界因素的影响而产生变化的变量,如人们对某事物的看法和态度,它往往受职业、文化程度以及所处的工作、生活环境的影响;中间变量是指介于自变量、因变量之间的变量。
3.若确认社会调查资料基本可靠,则要求信度系数达到()A.0.3以上B.0.5以上C.0.8以上D.0.9以上答案:C解析:信度与效度是调查研究的重要概念之一。
信度即资料的可靠性与真实性,它一般用信度系数来表示。
信度系数在0.8以上,一般认为调查资料是基本可靠的。
4.某牙膏生产企业在近期的一项调查中重点了解城市中成年居民每天刷牙的次数,这指标属于()A.评价性指标B.问题性指标C.主观性指标D.描述性指标答案:D解析:描述性指标是反映社会现象实际情况的指标,如居民拥有电视机台数、生活消费支出等。
某牙膏生产企业在近期的一项调查中重点了解城市中成年居民每天刷牙的次数就属于描述性指标。
5.抽样调查中,抽取样本的所有抽样单位的名单是()A.总体B.抽样框C.概率抽样D.非概率抽样答案:B解析:抽样框也称抽样范畴,是从中抽取样本的所有抽样单位的名单。
抽样PPT优选课件

2020/10/18
12
谢谢您的聆听与观看
THANK YOU FOR YOUR GUIDANCE.
生病的次数 1-2次 3-6次
7次以上
人数 4 5 1
(1)你同意他们的做法吗?说说你的理由.
(2)为了了解我市老年人的健康状况,你认为应当怎样收集数
据?与同伴交流.
2020/10/18
6
(3)小华利用派出所的户籍网随机调查了该地区10% 的老年人,发现他们一年平均生病3次左右你认为他的 调查方式如何?
3.下列叙述正确的是( B )
A. 大样本一定能保证调查结论正确 B. 抽样调查时,既要关注样本的大小,又要关注样本的代表性 C. 大样本调查一定比小样本调查准确 D. 所有调查都应该采用普查,而不应该采用抽样调查
2020/10/18
9
4.为了估计湖里有多少条鱼,我们从湖里捕上100条做上标记, 然后放回湖里,经过一段时间待带标记的鱼完全混合于鱼群 中后,第二次捕得200条,发现其中带标记的鱼25条,通过这种
象小华这种随机调查的方式是收集数据常用的方法
议一议: 抽样调查时应注意什么?
答:抽样调查时要注意样本的代表性和广泛性.即被调查的 对象不得太少,被调查对象应是随意抽取的,调查数据应 是真实的。
抽样调查的可行性:
1.抽样调查只考查总体的一部分,因此它的优点是 调查范围小,节省时间、人力、物力和财力;
2.但其调查结果往往不如普查得到的结果准确.
审计第十二章习题及答案

第十二章风险应对一、单项选择题1、分析程序是注册会计师执行财务报表审计业务时运用的一种重要的审计程序。
这种程序通常适合于审计()。
A.连续三年中各年营业成本占营业收入的比例B.连续三年中各年预付账款与当年年末应收账款的比例C.被审计期间实际发生的坏账损失占当年年末应收票据的比例D.相邻两个会计期间营业外支出中包含的无形资产的损失情况2、注册会计师应当设计控制测试,以获取控制在整个拟信赖的期间有效运行的充分、适当的审计证据。
下列关于控制测试范围的叙述不正确的是()。
A.控制执行的频率越高,控制测试的范围越小B.控制的预期偏差率越高,对拟信赖控制实施控制测试的范围越大C.如果控制的预期偏差率过高,注册会计师应当考虑控制可能不足以将认定层次的重大错报风险降至可接受的低水平,从而针对某一认定实施的控制测试可能是无效的D.信息技术处理具有内在一贯性,除非系统发生变动,注册会计师通常不需要增加自动化控制的测试范围3、下列关于实质性程序的结果对控制测试结果的影响表述不正确的是()。
A.如果通过实施实质性程序发现某项认定存在错报,注册会计师可以得出控制运行有效的结论B.如果通过实施实质性程序未发现某项认定存在错报,这本身并不能说明与该认定有关的控制是有效运行的C.如果通过实施实质性程序发现某项认定存在错报,注册会计师应当在评价相关控制的运行有效性时予以考虑D.如果实施实质性程序发现被审计单位没有识别的重大错报,通常表明内部控制存在重大缺陷,注册会计师应当就这些缺陷与管理层和治理层进行沟通4、注册会计师在了解及评价被审计单位内部控制后,实施控制测试的范围是()。
A.有重大缺陷的内部控制B.拟信赖的内部控制C.对财务报表有重大影响的内部控制D.并未有效运行的内部控制5、下列关于控制测试的说法不正确的是()。
A.控制测试与了解内部控制的目的不同,但二者有时可以采用相同的审计程序类型B.控制测试与细节测试的目的不同,但注册会计师可以考虑针对同一交易同时实施控制测试和细节测试,以实现双重目的C.如果确定评估的认定层次重大错报风险是特别风险,并拟信赖旨在减轻特别风险的控制,注册会计师可以信赖以前审计获取的证据而不再测试D.注册会计师可以考虑在评价控制设计和获取其得到执行的审计证据的同时测试控制运行有效性,以提高审计效率6、审计甲有限责任公司2018年度财务报表时,注册会计师A在风险评估阶段发现甲有限责任公司在2018年12月份发生了多笔重大的销售业务,并且还有若干笔大额销售业务在2018年底尚未完成。
高中总复习第一轮数学 第十二章概率与统计(理)12.1 离散型随机变量的分布列

第十二章概率与统计(理)网络体系总览考点目标定位1.离散型随机变量的分布列.离散型随机变量的期望和方差.2.抽样方法、总体分布的估计、正态分布、线性回归.复习方略指南在复习中,要注意理解变量的多样性,深化函数的思想方法在实际问题中的应用,充分注意一些概念的实际意义,理解概率中处理问题的基本思想方法,掌握所学概率知识的实际应用.1.把握基本题型应用本章知识要解决的题型主要分两大类:一类是应用随机变量的概念,特别是离散型随机变量分布列以及期望与方差的基础知识,讨论随机变量的取值范围,取相应值的概率及期望、方差的求解计算;另一类主要是如何抽取样本及如何用样本去估计总体.作为本章知识的一个综合应用,教材以实习作业作为一节给出,应给予足够的重视.2.强化双基训练主要是培养扎实的基础知识,迅捷准确的运算能力,严谨的判断推理能力.3.强化方法选择特别在教学中要掌握思维过程,引导学生发现解决问题的方法,达到举一反三的目的,还要进行题后反思,使学生在大脑记忆中构建良好的数学认知结构,形成条理化、有序化、网络化的有机体系.4.培养应用意识要挖掘知识之间的内在联系,从形式结构、数字特征、图形图表的位置特点等方面进行联想和试验,找到知识的“结点”.再有就是将实际问题转化为纯数学问题进行训练,以培养利用所学知识解决实际问题的能力.12.1 离散型随机变量的分布列巩固·夯实基础一、自主梳理1.随机变量的概念如果随机试验的结果可以用一个变量表示,那么这样的变量叫做随机变量,它常用希腊字母ξ、η等表示.(1)离散型随机变量.如果对于随机变量可能取的值,可以按一定次序一一列出,那么这样的随机变量叫做离散型随机变量.(2)若ξ是随机变量,η=aξ+b,其中a、b是常数,则η也是随机变量.2.离散型随机变量的分布列(1)概率分布(分布列).设离散型随机变量ξ可能取的值为x1,x2,…,x i,…,ξ取每一个值x i(i=1,2,…)的概率P(ξ=x i)=p i,则称表为随机变量ξ的概率分布,简称ξ的分布列.(2)二项分布.如果在一次试验中某事件发生的概率是p,那么在n 次独立重复试验中这个事件恰好发生k 次的概率是P(ξ=k)=C k n p k q n-k .C k n p k q n-k =b(k;n,p). 二、点击双基1.抛掷两颗骰子,所得点数之和为ξ,那么ξ=4表示的随机试验结果是( ) A.一颗是3点,一颗是1点 B.两颗都是2点C.两颗都是4点D.一颗是3点,一颗是1点或两颗都是2点 解析:对A 、B 中表示的随机试验的结果,随机变量均取值4,而D 是 ξ=4代表的所有试验结果.掌握随机变量的取值与它刻画的随机试验的结果的对应关系是理解随机变量概念的关键. 答案:DA.1B.1±22 C.1+22 D.1-22解析:∵0.5+1-2q+q 2=1,∴q=1±22. 当q=1+22时,1-2q<0,与分布列的性质矛盾, ∴q=1-22. 答案:D3.已知随机变量ξ的分布列为P(ξ=k)=k21,k=1,2,…,则P(2<ξ≤4)等于( ) A.163 B.41 C.161 D.51 解析:P(2<ξ≤4)=P(ξ=3)+P(ξ=4)=321+421=163.答案:A4.某批数量较大的商品的次品率为10%,从中任意地连续取出5件,其中次品数ξ的分布列为 __________________________.解析:本题中商品数量较大,故从中任意抽取5件(不放回)可以看作是独立重复试验n=5,因而次品数ξ服从二项分布, 即ξ—B(5,0.1).5.某射手有5发子弹,射击一次命中目标的概率为0.9,如果命中就停止射击,否则一直到子弹用尽,则耗用子弹数ξ的分布列为___________________________. 解析:ξ可以取1,2,3,4,5,P(ξ=1)=0.9,P(ξ=2)=0.1×0.9=0.09,P(ξ=3)=0.12×0.9=0.009,P(ξ=4)=0.13×0.9=0.000 9,P(ξ=5)=0.14=0.000 1. 诱思·实例点拨【例1】 一袋中装有5只球,编号为1,2,3,4,5,在袋中同时取3只,以ξ表示取出的三只球中的最小号码,写出随机变量ξ的分布列.剖析:因为在编号为1,2,3,4,5的球中,同时取3只,所以小号码可能是1或2或3,即ξ可以取1,2,3.解:随机变量ξ的可能取值为1,2,3.当ξ=1时,即取出的三只球中最小号码为1,则其他两只球只能在编号为2,3,4,5的四只球中任取两只,故有P (ξ=1)=3524C C =106=53;当ξ=2时,即取出的三只球中最小号码为2,则其他两只球只能在编号为3,4,5的三只球中任取两只,故有P (ξ=2)=3523C C =103;当ξ=3时,即取出的三只球中最小号码为3,则其他两只球只能在编号为4,5的两只球中任取两只,故有P (ξ=3)=3522C C =101.讲评:求随机变量的分布列,重要的基础是概率的计算,如古典概率、互斥事件的概率、相互独立事件同时发生的概率、n 次独立重复试验有k 次发生的概率等.本题中基本事件总数,即n=C 35,取每一个球的概率都属古典概率(等可能性事件的概率).【例2】(2005北京高考,理)甲、乙两人各进行3次射击,甲每次击中目标的概率为21,乙每次击中目标的概率为32. (1)记甲击中目标的次数为ξ,求ξ的概率分布及数学期望E ξ;(2)求乙至多击中目标2次的概率;(3)求甲恰好比乙多击中目标2次的概率.剖析:(1)甲射击有击中目标与击不中目标两个结果,且3次射击是3次独立重复试验.∴ξ—B(3,21).(2)“乙至多击中目标2次”的对立事件是“乙击中目标3次”.(3)“甲恰好比乙多击中目标2次”即“甲击中2次乙没击中目标或甲击中目标3次乙击中1次”.解:(1)P(ξ=0)=C 03(21)3=81; P(ξ=1)=C 13(21)3=83;P(ξ=2)=C 23(21)3=83;P(ξ=3)=C 33(21)3=81.∵ξ—B(3,2), ∴E ξ=3×21=1.5.(2)乙至多击中目标2次的概率为1-C 33(32)3=2719. (3)设甲恰好比乙多击中目标2次为事件A,甲恰好击中目标2次且乙恰好击中目标0次为事件B 1,甲恰好击中目标3次且乙恰好击中目标1次为事件B 2,则A=B 1+B 2,B 1、B 2为互斥事件,∴P(A)=P(B 1)+P(B 2)=83×271+81×92=241. ∴甲恰好比乙多击中目标2次的概率为241.讲评:求离散型随机变量的概率分布的步骤为:(1)找出随机变量ξ的所有可能的值x i (i=1,2,…);(2)求出各值的概率P(ξ=x i )=p i ;(3)列成表格.【例3】(2005广东高考)箱中装有大小相同的黄、白两种颜色的乒乓球,黄、白乒乓球的数量比为s ∶t.现从箱中每次任意取出一个球,若取出的是黄球则结束,若取出的是白球,则将其放回箱中,并继续从箱中任意取出一个球,但取球的次数最多不超过n 次.以ξ表示取球结束时已取到白球的次数. (1)求ξ的分布列; (2)求ξ的数学期望.解:(1)ξ的可能取值为0,1,2,…,n.(2)ξ的数学期望为E ξ=0×t s s ++1×2)(t s st++2×32)(t s st ++…+(n-1)×n n t s st )(1+-+n ×n n t s t )(+. ① t s t +E ξ=3)(t s st ++42)(2t s st ++…+n n t s st n )()2(1+--+1)()1(++-n n t s st n +11)(+++n n t s nt . ②①-②,得E ξ=s t +1)()1(-+-n n t s s t n -n n t s t n )()1(+--nn t s s nt )(1++. 讲评:本题是几何分布问题,其中用到数列的错位相减法求和,注意运算的严谨性.。
复习资料第十二章研究资料的审核、整理与统计分析[宝典]
![复习资料第十二章研究资料的审核、整理与统计分析[宝典]](https://img.taocdn.com/s3/m/d9111a55a9956bec0975f46527d3240c8547a151.png)
第十二章研究资料的审核、整理与统计分析第一节资料的审核与整理研究资料的审核与整理是分析资料的基础,它同研究阶段后期的第一项工作,是保证调查资料客观性、准确性、条理性、完整性不可缺少的重要环节。
一、资料审核的概念与原则资料审核是指在着手整理调查资料之前,对原始资料进行审查与核实的工作过程,目的是保证资料的客观性、准确性和完整性,为资料的整理打下坚实的基础。
资料审核和资料收集工作同步进行,叫做实地审核或收集审核。
在收集资料后集中时间进行审核叫做系统审核。
对重要资料进行反复的各种形式审核,叫做多次审核。
资料审核的原则(1)真实性原则。
(看其是否真实可靠地反映了调查对象的客观情况)(2)标准性原则。
(在较大规模的调查中,对于需要相互比较的材料,要审核其所涉及的事实是不是具有可比性。
指标的定义是否一致,计量单位是否相同等)(3)准确性原则。
(对资料进逻辑检查,有无不合理和相互矛盾的地方,如某人的年龄栏内填写的是23岁,而工龄栏内填写的是18年,显然不合逻辑。
)(4)完整性原则。
(是否收集齐全)二、资料的整理1.资料整理的概念和原则资料的整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件。
资料整理应遵循三条原则:(1)条理化。
(是指对资料进行分类从而为进一步分析创造条件。
分类反映着研究者对研究对象的认识)(2)系统化。
(条理化是从分类着手,系统化是从整体综合的角度考虑问题)(3)统计汇总。
(是指将调查得到的各种数据进行初步的统计整理,以把握其总体上的数量特征。
)2.分类和分组从严格的意义讲,分类和分组都是一种定性分类方法,即根据研究对象的某些特征将其区分为不同种类。
分类适用于全部调查资料,分组只限于数量化的统计资料。
调查资料的分类有两种,即前分类和后分类。
(标准是按资料收集前后)文献调查的资料、非结构观察、座谈会的记录、问卷调查中开放性回答是属于后分类。
分类的方法有两种,即现象分类方法和本质分类方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
c
i 1,2, , r ; j 1,2, , c;
n j nij ,
i 1
n
i 1
r
i
n j n.
j 1
c
其中表示落入第i行和第j列所代表的类的 观测值个数。nij
• 如果行因子R和列因子C独立,则对于所有 的i和j,有
pij pi p j .
ˆ
此时,在H 0下,Wald统计量 近似服从自由度为 1的卡方分布 .
2 ˆ 2 XW ˆ) ˆ ( V
对于较大的列联表,令 [11 , 12 , , r 1,c 1 ]T 为 ij的(r 1)(c 1) 1向量,从而,问题变为 H 0: 0
2 ˆT V ˆ) 1 ˆ, ˆ ( Wald统计量 XW ˆ)是 ˆ的协方差矩阵 ˆ ( 其中,V .
以一阶校正为例 , (2r 1)( c 1)的均值(r 1)(c 1), 假定H 0为真, 基于 复杂抽样设计将 E ( X 2 )或者E (G 2 )的值计算出来 ,以 (r 1)(c 1) 作为校正系数 , 将检验统计量 2 E (G ) (r 1)(c 1) 2 X *2 X 2 E( X ) 或者 (r 1)(c 1) 2 G G 2 E (G )
n
ij
ˆ ij ˆ ij p ˆ i p ˆ j m p n . ˆ ij ˆ i p ˆ j m p i 1 j 1
r c 2
似然比检验统计量是
r c ˆ ij n p ij 2 ˆ ij ln G 2 nij ln 2n p ˆ ij ˆ i p ˆ j m p i 1 j 1 i 1 j 1 r c
2 对于大样本, 在H 0下, X W 近似服从 (2r 1)( c 1)分布.这里, " 大样
本" 指的是在复杂调查中需 要大量的初级抽样单元 , 而非观测单 ˆ)是一个1616的矩阵而且需 ˆ ( 元.比如, 在一个5 5的列联表中 ,V 要计算136个不同的方差和协方差 .如果一个整群样本只有 140个 初级抽样单元, 则由其估计的协方差矩 阵将极不稳定 .实际中, 不 推荐对较大的列联表进 行Wald检验, 因为效果通常较差 .
第十二章
复杂抽样设计下的统计分析
卡方独立性检验
• 定义:用于检验两个或两个以上因素(变 量)各有多项分类之间是否有关联或是否 具有独立性的问题。 • 如要讨论血型与性格的关系,血型有A、B、 AB、O四类,性格采用心理学上的A型性格 来划分,即有A型和B型两种,每个人可能 是它们之间交叉所形成的8种类型中的一种, 就可以用卡方独立性检验。
• 从而,独立性的检验问题变为
H 0 : pij pi p j , i, j; H1 : 至少存在一对( i, j),pij pi p j .
令mij npij , mij 代表期望频率,如果 H 0为真, 则可以得到mij npi p j .同时mij的估计为 ˆ ij np ˆ i p ˆ j m ˆ ij p ˆ ij . p
整群抽样则通常产生相 反的影响 .整群抽样的设计 效应通常大于 1.用n个整群抽样观测单元和 用少于n个 简单随机抽样观测单元 来估计pij , 得到的精度是相同的 . 如果忽视整群效应 , X 2和G 2会大于由等量的简单随 机 样本得到的结果 , 检验的p值则会偏小 , 此时H 0会更容易 ˆ ij 被拒绝, 从而检验犯第一类错误 的概率增加了 .在计算p 的置信区间时 , 也会比简单随机抽样下 的置信区间要窄 , 看似得到的是更精确的 估计, 但这是虚假的 .
Bonferroni检验
变量独立性检验的原假 设H 0 : 11 0,12 0, , r 1,c 1 0 分解成m (r 1)(c 1)个组成部分: H 0 (1) : 11 0, H 0 (2) : 12 0, H 0 (m) : ( r 1)( c 1) 0. 使用Bonferroni 不等式,在显著性水平 为 对每一组成部分 H 0 (k )进行检验.
如果不理会这一整群效 应, 则观测频数的列联表数 据将如表 12.7:
ˆ 11 此时,比例估计与前面的简单 随机样本是相同的 .p ˆ 21 p
19 11 ˆ 12 , ,p 50 40
7 17 ˆ 22 ,p .但是, 皮卡逊卡方检验统计量 的值却是简单随机样本 40 100 时的两倍, 为3.891 , 检验的p值为0.049.如果忽视整群效应 , 会得出家庭订阅 报纸和开通宽带上网的 行为不是相互独立的结 论.而如果假定每个家庭都 是四口之家, 对家中的两个孩子也一 起调查, 得到的p值将会更低,因为检验 统计量的值比原来扩大 了四倍.
似然比检验统计量为 ˆi p ˆ i ln ( 0 ) . G 2n p ˆi p i 1
2 r
如果原假设成立,这两个统计量近似服从 自由度为r-k-1的卡方分布,其中,k为总体 分布的未知参数个数。
卡方检验的调查设计效应 抽样设计从两个方面对类别数据的分析产 生影响:一是影响对单元格中概率的估计, 二是影响对相对性或拟合优度的检验。
如果满足: ( 1)每个单元格的期望频 数大于1; (2)n 5 单元格的数目 . 则在原假设成立的情况 下,X 2和G 2 近似服从自由 度为(r 1)(c 1)的卡方分布 .
卡方拟合优度检验
• 基本思想:实际频数与理论频数的吻合程 度 • 用途:检验样本所代表的总体的频数分布 是否符合某一理论分布(正态、二项、 Poisson) • 注意事项:样本含量要充分大,每个组段 的理论频数不能太小(小于5)
m
下分别
如果在显著性水平 下拒绝了某一个 H( , 即对于任意 0 k) m ˆ ij 的 i和j , 有 t k ( ),则在显著性水平 下拒绝H 0 . 2m ˆ ) ˆ ( V ij 每一个检验统计量都与 tk (
2m 估计量的自由度 .如果采用随机组的方法 来估计方差, 那 k 初级抽样单元的个数 层数.
也就是说, 落入单元格(i, j )中的观测值的权重之和 ˆ ij p . 样本中所有单元的权重 之和 如果不考虑抽样权数 , 得到的各单元格中的概 率估计将会是 错误的.
对于假设检验和置信区 间的影响 首先来看分层的影响 , 分层抽样将导致过于保 守的检验和 置信区间 .对于一个简单随机样本 , 卡方独立性检验统计量 为
j 1 c
xij xi x j n , 其中,pij , n n n
卡方 检验 的基本思想:
期望频数频率相差应该不会太大 .而如果二者 相差较大, 则有理由拒绝 H0. 计量为 X 个单元格的实际频 数频率与
基于此基本思想的皮尔 逊Pearson卡方检验统
对单元格中概率估计的 影响 如果样本是自加权的 , 那么观测频数nij真实地反映了总体中各 类别的相对频数 ; 而如果不是, 则应在估计单元格的比 例时, 将 抽样权数考虑进去 . 例如, 对pij的估计可调整为 ˆ ij p
w y w
kS k kS k
kij
,
1, 如果观测单元k落入单元格(i, j ) 其中,ykij , wk 是观测单元 0, 否则 的抽样权重 .
检验问题可以归结为 H 0 : pi p , i, (12.4)
(0) i
其中,pi( 0 )可以是事先指定的相关 数值, 也可以是参数
的一个函数,并且该参 数可通过样本数据来估 计.
对应的皮尔逊卡方检验 统计量为
(0) 2 (0) 2 r ˆ ˆ ˆ ˆ ( n p n p ) ( p p 2 i i i i ) X n . (0) (0) ˆi ˆi np p i 1 i 1 r
过程归纳为:当我们抽取了一个容量为n的 样本后,假设可以对样本中的每个单元按 两个特性进行分类,分别称为行因子和列 因子。 将n个独立观测值分别按行因子和列因子进 行交叉分组:行因子R有r个水平,列因子C 有c个水平。如表所示:
• 通常在二维表中还按行,列分别求出其合计数:
ni nij ,
2 *
(r 1)(c 1) 或 2 E( X )
2 ˆ ˆ ˆ ( p p p ) ij i j X 2 n . ˆ i p ˆ j p i 1 j 1 r c
一般情况下, 分层会比简单随机抽样 有更高的估计精度 . n 用n个分层抽样观测单元和 用 (deffij是估计pij时的设计 deffij 效应)个简单随机抽样观测单 元来估计pij , 二者的精度是相同 的.通常情况下, 如果合理地进行了层的 划分, 设计效应会小于 ˆ ij构造简单随机抽样意 1.因此, 如果用从分层样本计算 得到的p 义下的检验统计量 X 2和G 2 , 得到的X 2和G 2 将会比它们应该服 从的原假设 2 ( r 1)( c 1)分布要小 .忽略掉分层效应后计算 得到的p 值将会偏大, 这意味着H 0不那么容易被拒绝 .从而, 如果忽视分 ˆ ij的置信区间时 层效应, 得到的便是一个保守的 检验.在计算p , 也会比简单随机抽样下 的置信区间要宽 , 得到的估计同样是过 于保守的 .
卡方检验的校正
Wald (沃尔德)检验 首先考虑2 2表格的情形,原假设为 H 0: 11 p11 p1 p1 p11 p22 p12 p21 0. ˆ p ˆ p ˆ p ˆ . 可作如下估计 ˆ p
11 22 12 21
由于参数是总体总量的一个平滑 参数,因此, ˆ). 可以采用第十一章中介 绍的一些方法来估计 V ( 如果样本量足够大,原 假设下 正态分布. 近似服从标准 ˆ) ˆ( V
)进行比较, 其中, k为方差
么k 随机组的个数 1; 而如果采用其他估计方 法, 那么
和卡方分布的矩进行匹配