第十章分类变量资料的统计分析(卡方检验).

第十章分类变量资料的统计分析(卡方检验).
第十章分类变量资料的统计分析(卡方检验).

10练习题解答:第十章 交互分类与卡方检验

第十章 交互分类与2χ检验 练习题: 1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示: (1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。 (2) 请根据表10-26的数据完成下面的联合分布的交互分类表。 10-27(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。 解:(1)Y F (从上到下):50;30;100. X F (从左到右) :115;65. (2)P 11=15/180;P 21=35/180;1 Y F =50/180; P 12=20/180;P 22=10/180;2 Y F N =30/180; P 13=80/180;P 23=20/180;3 Y F N =100/180;

1X F N =115/180;2 X F N =65/180. (3)关于X 的边缘分布: x 分居 不分居 P(x) 115/180 65/180 关于Y 的边缘分布: y 紧张 一般 和睦 P(y) 50/180 30/180 100/180 (4)关于X 的条件分布有三个: y=“紧张” x 分居 不分居 P(x) 15/50 35/50 y=“一般” x 分居 不分居 P(x) 20/30 10/30 y=“和睦” x 分居 不分居 P(x) 80/100 20/100 关于y 的条件分布有两个: X=“分居” y 紧张 一般 和睦 P(y) 15/115 20/115 80/115 X=“不分居” y 紧张 一般 和睦 P(y) 35/65 10/65 20/65 2. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示:

16种常用的数据分析方法汇总

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

SPSS 卡方检验

卡方检验 1.四格表的卡方检验 例1.某药品检验所随机抽取了574名成年人,研究某抗生素的耐药性。其中179人未曾使用该抗生素,其耐药率为40.78%;而在395例曾用过该药的人群中,耐药率为45.57%,结果见表1,试兑现人和上人群的耐药率是否一样? 表1 某抗生素的人群耐药性情况 用药史不敏感敏感合计 曾服该药180(174.10)215(220.90)395 未服该药73(78.90)106(100.10)179 合计253 321 574 建立变量名:

录入数值: 加权

统计分析 指定横标目和纵标目,注意不要选反了,选反了会有什么后果?

择分析方法:卡方检验 Chi-square 结果:实际频数理论频数

表二:可观察实际频数,理论频数,各组实际频数占各行各列及总数的百分比。此例题总例数n=574≥40,且所有理论频数T≥5用基本公式或四个表专用公式计算卡方值,结果参照表三第一行。P=0.285≥0.05还不能认为两组耐药率不同。 表三: (1)总例数n=574≥40,且所有理论频数T≥5用基本公式或四格表专

(2)如果n≥40但有1<T<5用校正公式计算卡方值或用Fisher确切概率法直接计算概率,结果分别参照第二行和第四行。 (3)n<40或T<1时用Fisher确切概率法直接计算概率,结果参照第四行。 2.配对四格表的卡方检验 例5.有28份咽喉涂片标本,把每份标本一分为二,分别接种在甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,其结果如表5,问两种培养基的阳性检出率是否相等? 表5 两种白喉杆菌培养基培养结果比较 甲培养基 乙培养基 + - 合计 + 11 1 12 - 9 7 16 合计20 8 28 建立变量名: 录入数值:

第十章 单变量描述统计

第十章单变量的描述统计 调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。 一、变量的分布(Distributions) 变量的分布分为两类,一类是频数分布,一类是频率分布。频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。 1、统计表 (1)统计表就是以表格的形式来表示变量的分布。如下表所示: 表9-1甲校学生的父亲职业 职业 f p 工人农民干部152 288 110 0.276 0.524 0.200 27.6 52.4 20.0 总数550 1.000 100.0 数值中的小数的取舍: 通俗的做法是“四舍五入”。“四舍”没有问题,但无原则的“五入”就会产生一定的误差。例如数值6.25、4.45、3.75、和7.15的总合是21.60。如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。

统计学教案习题06分类资料的统计描述

第六章 分类资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 绝对数。 2. 相对数常用指标:率、构成比、比。 3. 应用相对数的注意事项。 4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。 (二)熟悉内容 1. 标准化率的计算。 2. 动态数列及其分析指标。 二、教学内容精要 (一) 绝对数 绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。 (二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。 常用相对数的意义及计算见表6-1。 表6-1 常用相对数的意义及计算 常用相对数 概念 表示方式 计算公式 举例 率 (rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率 (‰)等 单位时间内的发病率、患病 率,如年(季)发病率、时 点患病率等 构成比 (proportion ) 又称构成指标,说明某一事物内部各组成 部分所占的比重或分布 百分数 疾病或死亡的顺位、位次或所占比重 比 (ratio ) 又称相对比,是A 、B 两个有关指标之 比,说明A 是B 的若干倍或百分之几 倍数或分数 ①对比指标,如男:女 =106.04:100 ②关系指标,如医护人员:病床数=1.64 ③计划完成指标,如完成计划的130.5% (三) 应用相对数时应注意的问题 1. 计算相对数的分母一般不宜过小。 2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。 %100?=单位总数 可能发生某现象的观察数 发生某现象的观察单位率%100?= 观察单位总数 同一事物各组成部分的位数某一组成部分的观察单构成比B A = 比

分类资料的统计分析(doc 24页)

第十章分类资料的统计分析 A型选择题 1、下列指标不属于相对数的是() A、率 B、构成比 C、相对比 D、百分位数 E、比 2、表示某现象发生的频率或强度用 A 构成比 B 观察单位 C 相对比 D 率 E 百分比 3、下列哪种说法是错误的() A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数 B、分析大样本数据时可以构在比代替率 C、应分别将分子和分母合计求合计率或平均率 D、相对数的比较应注意其可比性 E、样本率或构成比的比较应作假设检验 4、以下哪项指标不属于相对数指标( ) A.出生率 B.某病发病率 C.某病潜伏期的百分位数 D.死因构成比 E.女婴与男婴的性别比 5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ). A.麻疹易感人群 B.麻疹患者数 C.麻疹疫苗接种人数 D.麻疹疫苗接种后的阳转人数 E.年均人口数 6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).

A.该病男性易得 B.该病女性易得 C.该病男性、女性易患率相等 D.尚不能得出结论 E.以上均不对 7、某地区某重疾病在某年的发病人数为0α,以后历年为1α,2α,…,n α,则该疾病发病人数的年平均增长速度为( )。 A.1...10+++n n ααα B. 110+??n n ααα C.n n 0 α α D.n n 0 α α -1 E. 10 -a a n 8、按目前实际应用的计算公式,婴儿死亡率属于( )。 A. 相对比(比,ratio ) B. 构成比(比例,proportion ) C. 标准化率(standardized rate ) D. 率(rate ) E 、以上都不对 9、某年某地乙肝发病人数占同年传染病人数的9.8%,这种指标是 A .集中趋势 B .时点患病率 C .发病率 D .构成比 E .相对比 10、构成比: A.反映事物发生的强度 B 、反映了某一事物内部各部分与全部构成的比重 C 、既反映A 也反映B D 、表示两个同类指标的比 E 、表示某一事物在时间顺序上的排列

第十章 卡方检验..

第十章χ2检验 χ检验的原理 第一节2 χ检验的假设 一、2 (一)分类相互排斥,互不包容 2 χ检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。 (二)观测值相互独立 各个被试的观测值之间彼此独立,这是最基本的一个假定。如一个被试对某一品牌的选择对另一个被试的选择没有影响。当同一被试被划分到一个以上的类别中时,常常会违反这个假定。 当讨论列联表时,独立性假定是指变量之间的相互独立。这种情况下,这种变量的独立性正在被检测。而观测值的独立性则是预先的一个假定。 (三)期望次数的大小 每一个单元格中的期望次数应该至少在5以上。一些更加谨慎的统计学家提出了更严格 χ检验时,每一个单元格的期望次数至少不应低于的标准,当自由度等于1时,在进行2 10,这样才能保证检验的准确性。 另外,在许多分类研究中会存在这样一种情况,如自由度很大,有几个类别的理论次数虽然很小,但在给以接受的标准范围内,只有一个类别的理论次数低于1。此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。在理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使χ检验。 用近似的2 χ检验的类别 二、2 (一)配合度检验 配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种2 χ检验方法有时也称为无差假说检验。当对连续数据的正态性进行检验时,这种检验又可称为正态吻合性检验。 (二)独立性检验 独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立 χ检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独性的问题。这种类型的2

卡方检验

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

第二章 单变量统计描述分析

社专本111 2011761114 梁雪彩 P59第二章单变量统计描述分析 六、根据以下统计资料: (汉族,50,000) (苗族,22,000) (布依,20,000) (藏族,1,000) 问:(1)能做成那些统计图? (2)如果做成条形图,对变量值的排列是否有要求? 答:(1)能做成条形图和圆饼图 (2)如果做成条形图,对变量的排列没有要求,因为题目中的统计资料是定类变量,长条排列次序可以任意,定类变量无大小、高低次序之分。 七、根据以下资统计料: (老年,1,000) (中年,2,000) (青年,5,000) 问:(1)能否做成直方图?为什么? (2)如果做成条形图,对变量值的排列是否有要求? 答:(1)不能,因为上述为定序变量,定距变量才能做成直方图。 (2)如果做成条形图,对变量的排列有要求,因为题目中的统计资料是定序变量,长条按序排列,定序变量有大小、高低次序之分。 十三、以下是某班参加业余活动的情况的调查: C=“书社”P=“摄影组” J=“舞蹈团”O=“体育组” C C C P O P C C C P O O P C O C P C C P O C P C C O C J C O O C P C C O O O O P O C O O O O P O P P (1)试作统计图和统计表 某班参加业余活动情况的条形图

某班参加业余活动情况的圆饼图: 表1.1某班参加业余活动情况的调查表 (2)选择适当的集中值和离散值,并讨论之。 集中值 众值M0=书社则可知参加书社业余活动的人数最多

中位值Md=N+1/2=25.5 中位值Md=摄影组 均值=19+12+1+18/4=12.5 离散值 异众比率r=(N-fm0)/N=50-19/50=0.62 异众率比较高,则认为总数的代表性较差,所提供的信息量较少。 极差:R=观察的最大值-观察的最小值=18 极差大表示资料分散,人们选择的业余活动的人数有比较大的差异。 四分互差Q=Q75-Q25 Q50 的位置=50+1/2=25.5 Q25的位置=50+1/4=12.75 Q75的位置=3(50+1)/4=38.25 Q25=书社Q75=体育组 四分互差Q=Q75-Q25=体育组-书社 可知有50%的人选择体育组和书社这两项活动方差=[(19-12.5)^2+(12-12.5)^2+(1-12.5)^2+(18-12.5) ^2]/4=51.31 标准差=7.16

单变量描述统计

单变量描述统计公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

第十章单变量的描述统计 调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。 一、变量的分布 (Distributions) 变量的分布分为两类,一类是频数分布,一类是频率分布。频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。 1、统计表 (1)统计表就是以表格的形式来表示变量的分布。如下表所示: 表9-1甲校学生的父亲职业

数值中的小数的取舍: 通俗的做法是“四舍五入”。“四舍”没有问题,但无原则的“五入”就会产生一定的误差。例如数值、、、和的总合是。如果对原数的最后一位小数作简单的四舍五入,原数就变成、、、,其总合是,把原来的总合变大了。近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。 (2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。如下所示: 表9-2甲校学生之父亲教育水平 2、统计图 统计图是以图形表示变量的分布情况。与统计表相比,统计图更直观、生动、醒目,但不够精确。统计图有圆瓣图、条形图、直方图和折线图。 (1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。如表9-1的资料可用下图(图1)所示:

10练习题解答:第十章 交互分类与卡方检验

第十章 交互分类与2χ检验 练习题: 1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示: (1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。 (2) 请根据表10-26的数据完成下面的联合分布的交互分类表。 10-27(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。 ~ 解:(1)Y F (从上到下):50;30;100. X F (从左到右):115;65.

(2)P 11=15/180;P 21=35/180;1 Y F N =50/180; P 12=20/180;P 22=10/180;2 Y F N =30/180; P 13=80/180;P 23=20/180;3Y F N =100/180; 1 X F N =115/180;2 X F N =65/180. (3)关于X 的边缘分布: x 分居 不分居 ! P(x) 115/180 65/180 关于Y 的边缘分布: y 紧张 一般 和睦 P(y) 》 50/180 30/180 100/180 (4)关于X 的条件分布有三个: y=“紧张” x 分居 不分居 P(x) 15/50 . 35/50 y=“一般” x 分居 不分居 P(x) 20/30 10/30 y=“和睦” x : 分居 不分居 P(x) 80/100 20/100 关于y 的条件分布有两个: X=“分居” y 紧张 · 一般 和睦 P(y) 15/115 20/115 80/115 X=“不分居”

y 紧张 一般 * 和睦 P(y) 35/65 10/65 20/65 2. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示: 10-29。 (2)根据表10-28和表10-29计算2χ,计算公式为 2 ()2 o e e f f f χ-=∑ 。 (3)若要对有无宗教信仰的人的利他主义程度有无显著性差异进行检验,请陈 * 述研究假设1H 和虚无假设0H 。 (4)本题目中的自由度为多少若显著性水平为,请查附录的2χ分布表, 找出相对应的临界值。并判断有无宗教信仰的人的利他主义程度有无显著性差 异。 (5)若变量“宗教信仰”和“利他主义程度”存在相关关系,请计算C 系数。

第八章卡方检验

第八章
2 χ 检验
次数资料分析
上一张 下一张 主 页
退 出

第一节
性别 男 女
卡方检验的意义和原理
理论次数 T 50 50 100
实际次数 A 51 49 100
问男女比例是否符合1:1, 即与1:1性别比差异是否显著。 性别比差异是否显著。

χ =
2

A—实际次数
(A ? T) T
2
T—理论次数
χ2是度量实际观察次数与理 论次数偏离程度的一个统计量, 论次数偏离程度的一个统计量, χ2越小, 越小,表明实际观察次数与理 论次数越接近; 论次数越接近; χ2 =0,表示两 者完全吻合; 者完全吻合; χ2越大, 越大,表示两者 相差越大。 相差越大。
上一张 下一张 主 页 退 出

在对次数资料进行χ2检验利用连续型随 机变量χ2分布计算概率时, 分布计算概率时,常常偏低, 常常偏低,特 别是当自由度为1时偏差较大。 时偏差较大。 Yates(1934)提出了一个矫正公式, 提出了一个矫正公式,矫正 后的χ2值记为
χ =∑
2 c
( A ? T ? 0.5) T
2
上一张 下一张 主 页
退 出

当自由度大于1时,χ2分布与连续型随机 变量χ2分布相近似 ,这时, 这时,可不作连续性矫 正 , 但 要 求各组内的理论次数不小于5。若 某组的理论次数小于5,则应把它与其相邻的 一组或几组合并, 一组或几组合并,直到理论次数大 于5 为 止。

卡方检验

第十二章假设测定I V:卡方测定 (The Chi Square Test) 壹、本单元目标 1、举例说明卡方测定适用的情况。 2、解释双变项交叉表(bivariate table)的结构,以及如何将独立性 (independence)的概念应用到交叉表的期待次数(expected frequencies)与观察次数(observed frequencies)之间的关系上。 3、说明如何将假设测定的逻辑运用在交叉表的分析上。 4、以五个假设测定的步骤说明卡方测定,以及正确的解释测定的结 果。 5、说明卡方测定的限制,以及统计显著性与实质重要性的差异。 贰、简介 本章要介绍的Chi Square (χ2) test(卡方测定)大概是社会科学研究中,最常看到的一种假设测定方法。这是因为此测定方法相当容易符合假设测定第一个步骤─基本假定设定─的要求。此测定方法是两个名目尺度变项间之假设测定的方法。因此在level of measurement 的要求方面是最基本的nominal level of measurement。这名目尺度变项不限于是二分的,也可适用在其它尺度测量的变项上。而χ2test 也是一种无参数的测定,因此在基本假定部分,我们无须知道母群体之分配特性(distribution-free)。χ2之抽样分配是一种已知之理论分配,就叫χ2分配。(所谓Chi Square是χ这个希腊字母的发音加上「平方(square)」的英文)。 这种可以相当容易符合基本假定要求的无参数测定方法,可以让我们在做拒绝虚无假设的决策时,比较有信心。这是因为做假设测定时,如果在基本假定设定(测定的第一个步骤)中的任一要求或虚无假设(测定的第二个步骤)是错误时,我们就可拒绝虚无假设。但在无参数测定方法的情况下,我们比较容易符合基本假定的要求,因此可专注在判断虚无假设是否为错误,决策的结果也比较有信心。 参、双变项交叉表 卡方测定的进行要用到双变项交叉表。此交叉表同时呈现出两个不同变项间次数分配的情况。因此,双变项交叉表可用来探索这两个变项间是否有明显的关系存在。例如,以下是表示性别与教育程度间关系的一个双变项的交叉表:

10练习题解答:第十章交互分类与卡方检验

第十章交互分类与F检验 练习题: 1.为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭, 调查结果如下表所示: 表10-26 (1)计算变量X与Y的边际和(即边缘和)F x和F Y并填入上表。 (2)请根据表10-26的数据完成下面的联合分布的交互分类表。 表10-27 (3)根据表10-27指出关于X的边缘分布和关于Y的边缘分布。 (4)根据表10-27指出关于X的条件分布和关于Y的条件分布。解:(1)Fy(从上到下):50: 30: 100. 竹(从左到右): 115: 65. (2) P n=15/180: P.35/1S0: ^.50/180:

% P:c=20/180; P产 10/180:=30/180:

5 P沪80/180; P沪20/180:市二100/180: Fx\ Fx? N =115/180:=65/180. (3 关于y的条件分布有两个: X 2.一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示: 表10-28

(1)根据 表10-28的观察频次,计算每一个单元格的期望频次并填入表10-29。 (3)若要对有无宗教信仰的人的利他主义程度有无显著性差异进行检验,请陈 述研究假设0和虚无假设H{) o (4)本题口中的自山度为多少若显著性水平为,请查附录的才分布表, 找出相对应的临 界值。并判断有无宗教信仰的人的利他主义程度有无显著性差异。 (5)若变量“宗教信仰”和“利他主义程度”存在相关关系,请计算C系 数。 解:(1)"信教” 一列(从上到下): ,,9X,85 =61.67: 357 125X185 =64.78; 357 ,,3X185=58.56. 357 '‘不信教” 一列(从上到下):1,9X172 =57.33: 357 EG"?: 357

卡方检验1

第十三节卡方检验(1) 一、概述 用于分类计数资料的假设检验方法,属非参数检验。检验的是样本分布偏离理论分布的严重程度,即检验的是分布,不是总体参数。 Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。 统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2M-H)。如果安装了相应模块,还可计算n维列联表的确切概率(Fisher's Exact Test)值。 原理:检验两个(或多个)样本率或构成比之间差别是否有统计学意义,从而推断两个(或多个)总体率或构成比之间是否有统计学意义。若P<0.05,拒绝无效假设H0,做出总体上差异有显著性意义的结论。 多组间的两两比较,必须重新规定检验水准。 分类:行×列表x2检验、四格表x2检验、配对x2与一致性检验、分层x2检验 二、界面介绍 1、分类资料数据录入格式简介 在定量资料中,一般每个观察对象的变量值都不一样,记录格式为一个观察病例一条记录。而在分类资料中,所有的变量值都限于很少的几个类别。为记录方便,常常采用频数表格式来记录数据,一条记录对应多个观察病例。对频数资料,分析时需用Weight Cases过程指定一下频数变量用于记录加权。 2、Crosstabs过程界面说明: 【Rows框】用于选择行*列表中的行变量。 【Columns框】用于选择行*列表中的列变量。 【Layer框】Layer 指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用 Previous 和 Next 钮设为不同层。Layer在这里用的比较少,在多元回归中我们将进行详细的解释。 【Display clustered bar charts复选框】显示重叠条图。 【Suppress table复选框】禁止在结果中输出行*列表。 【Exact钮】针对2*2以上的行*列表设定计算确切概率的方法,可以是近似概率(Asymptotic only)、蒙特卡罗模拟概率(Monte Carlo)或确切概率计算(Exact)。蒙特卡罗模拟默认进行10000次模拟,给出99%可信区间;确切计

单变量统计分析方法总结

单变量统计分析方法总结 一、计量资料 1.两组独立样本比较 1.1资料符合正态分布,且两组方差齐性,及独立性,可直接采用t检验。 1.2资料不符合正态分布 (1)数据转换(如对数转换等)→使之服从正态分布→转换后的数据采用t检验; (2)直接采用非参数检验(如Wilcoxon检验)。 1.3资料方差不齐 (1)t’检验(前提是资料满足正态性); (2)采用非参数检验(如Wilcoxon检验)。 2.两组配对样本的比较 2.1 两组差值服从正态分布,采用配对t检验。 2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 3.多组完全随机样本比较 3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。 如检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,SNK法,Bonferroni法,tukey法,Scheffe法等。 3.2资料不符合正态分布,或各组方差不齐 (1)数据转换(如对数转换等)→使之服从正态分布或方差齐性→转换后数据采用F检验;(2)直接采用非参数检验(如Kruscal-Wallis法)。 如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用两组的Wilcoxon检验,或秩变换方法。 4.多组随机区组样本比较 4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。 如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。 如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ★需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大α。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能

相关文档
最新文档