贾俊平《统计学》复习笔记课后习题详解及典型题详解 第9章~第10章【圣才出品】

合集下载

统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)

统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)

统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版)第一部分思考题第一章思考题1。

1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。

1。

2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。

推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。

1。

3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据.它也是有类别的,但这些类别是有序的。

(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。

统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的.实验数据:在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。

时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。

1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。

变量也可以分为随机变量和非随机变量。

经验变量和理论变量。

1。

7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。

统计学(第五版)贾俊平 课后思考题和练习题答案(最终完整版)

统计学(第五版)贾俊平 课后思考题和练习题答案(最终完整版)

统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版)整理by__kiss-ahuang第一部分思考题第一章思考题1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。

1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。

推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。

1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。

它也是有类别的,但这些类别是有序的。

(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。

统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。

实验数据:在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。

时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。

1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。

变量也可以分为随机变量和非随机变量。

经验变量和理论变量。

1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。

贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】

贾俊平《统计学》配套题库  【课后习题】详解  第9章~第10章【圣才出品】

第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。

次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。

可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

4.简述ϕ系数、c 系数、V 系数的各自特点。

答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

合计
赞成
35
30
65
反对
15
20
35
合计
50
50
100
如果要检验男女教师对教师体制改革的看法是否相同,提出的原假设为( )。
A.H0:π1=π2=35 B.H0:π1=π2=50 C.H0:π1=π2=65
6 / 19
圣才电子书

D.H0:π1=π2=0.65
十万种考研考证电子书、题库视频学习平台
156 162
圣才电子书

A.0.6176
十万种考研考证电子书、题库视频学习平台
B.1.2352
C.2.6176
D.3.2352
【答案】B
【解析】 2 检验可以用于变量间拟合优度检验和独立性检验,可以用于测定两个分类 变量之间的相关程度。用 fo 表示观察值频数,用 fe 表示期望值频数,则 2 统计量为:
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章 分类数据分析
一、单项选择题
1.列联分析是利用列联表来研究( )。
A.两个数值型变量的关系
B.两个分类变量的关系
C.两个数值型变量的分布
D.一个分类变量和一个数值型变量的关系
【答案】B
【解析】列联表是由两个以上的变量进行交叉分类的频数分布表,列联分析是利用列联
【解析】表中的行是态度变量,这里划分为三类,即赞成,中立和反对;表中的列是单 位变量,这里划分为两类,即男同学和女同学,即 3×2 列联表。
5.一所大学为了解男女学生对后勤服务质量的评价,分别抽取了 300 名男学生和 240
名女学生进行调查,得到的结果如表 9-2 所示。
表 9-2 关于后勤服务质量评价的调查结果

贾俊平《统计学》课后习题及详解(导论)【圣才出品】

贾俊平《统计学》课后习题及详解(导论)【圣才出品】

第1章导论一、思考题1.什么是统计学?答:统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。

数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。

2.解释描述统计和推断统计。

答:数据分析所用的方法可分为描述统计方法和推断统计方法。

(1)描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。

(2)推断统计是研究如何利用样本数据来推断总体特征的统计方法。

比如,对产品的质量进行检验,往往是破坏性的,不可能对每个产品进行测量。

这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是推断统计要解决的问题。

3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?答:统计数据是对现象进行测量的结果,可以从不同角度对统计数据进行分类:(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

①在分类数据中,各类别之间是平等的并列关系,无法区分优劣或大小,各类别之间的顺序是可以改变的;②顺序数据也表现为类别,但这些类别之间是可以比较顺序的;③数值型数据具有分类数据和顺序数据的特点,并且还可以进行加、减、乘、除运算。

(2)按照统计数据的收集方法,可以将其分为观测数据和实验数据。

①观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据;②实验数据则是在实验中控制实验对象而收集到的数据,自然科学领域的大多数数据都为实验数据;(3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。

①截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况;②时间序列数据是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。

贾俊平的《统计学》(第7版)学习辅导书-章节题库(方差分析)【圣才出品】

9.关亍单因素方差分析中的 F 检验( )。[中央财经大学 2011 研] A.拒绝域在 F 分布曲线的右侧 B.F 统计量的样本观测值可能为负值 C.拒绝域在 F 分布曲线的左侧和右侧 D.以上表述都丌对 【答案】A 【解析】在单因素方差分析中,若 F>Fα,则拒绝原假设;若 F<Fα,则丌拒绝原假设。

【解析】方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因 变量是否有显著影响。如果分析数据来自相同总体,那么在组间误差中只包含随机误差,而 没有系统误差。反之,如果分析数据来自丌同总体,在组间误差中除了包含随机误差外,还 会包含系统误差。另外,方差分析要求每个总体都应服从正态分布。
10.关亍方差分析,以下说法哪一项更合理?( )[中山大学 2012 研] A.方差分析的目的是分析各组总体方差是否有显著差异 B.方差分析的目的是分析各组总体标准差是否有显著差异 C.方差分析的目的是分析各组总体均值是否有显著差异 D.方差分析的目的是分析各组总体中位数是否有显著差异 【答案】C 【解析】表面上看,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所 研究的是分类型自变量对数值型因变量的影响。即方差分析是通过检验各总体的均值是否相 等来判断分类型自变量对数值型因变量是否有显著影响。
4.在方差分析中总变差可以分解为组内变差和组间变差,其中组间变差表示( )。 [厦门大学 2014 研]
A.一样本观测值不均值差方和 B.全部样本观测值不总均值的差方和 C.各样本观测值不各自均值的差方和 D.各样本均值不总均值的差方和 【答案】D
_
【解析】方差分析中组间平方和记为 SSA,它是各组均值xi(i=1,2,…,k)不总均 值 x 的误差平方和,反映组间误差的大小。
2.下面关亍方差学 2015 研]

统计学(第六版)贾俊平-课后习题及答案

目录第一章P10 (1)第二章P34 (2)第三章P66 (3)第四章P94 (8)第七章P176 (11)第八章P212 (15)第10 章P258 (17)第11 章P291 (21)第13 章P348 (26)第14 章P376 (30)第一章P10一、思考题1.1什么是统计学?1.2解释描述统计和推断统计。

1.3统计数据可分为哪几种类型?不同类型的数据各有什么特点?1.4解释分类数据、顺序数据和数值型数据的含义。

1.5举例说明总体、样本、参数、统计量、变量这几个概念。

1.6变量可分为哪几类?1.7举例说明离散型变量和连续型变量。

1.8请举出统计应用的几个例子。

1.9请举出应用统计的几个领域。

1.1 指出下面变量的类型:(1)年龄(2)性别(3)汽车产量(4)员工对企业某项改革措施的态度(赞成、中立、反对)(5)购买商品时的支付方式(现金、信用卡、支票)(1)数值型变量。

(2)分类变量。

(3)离散型变量。

(4)顺序变量。

(5)分类变量。

1.2 某研究部门准备抽取 2000 个职工家庭推断该城市所有职工家庭的年人均收入。

要求:(1)描述总体和样本。

(2)指出参数和统计量。

(1)总体是该市所有职工家庭的集合;样本是抽中的 2000 个职工家庭的集合。

(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的 2000 个职工家庭的年人均收入。

1.3 一家研究机构从 IT 从业者中随机抽取 1000 人作为样本进行调查,其中 60%的人回答他们的月收入在5000 元以上,50%的人回答他们的消费支付方式是用信用卡。

回答下列问题:(1)这一研究的总体是什么?(2)月收入是分类变量、顺序变量还是数值型变量?(3)消费支付方式是分类变量、顺序变量还是数值型变量?(4)这一研究涉及截面数据还是时间序列数据?(1)总体是所有 IT 从业者的集合。

(2)数值型变量。

(3)分类变量。

(4)截面数据。

1.4 一项调查表明,消费者每月在网上购物的平均花费是 200 元,他们选择在网上购物的主要原因是“价格便宜”。

统计学(第三版课后习题答案) 贾俊平版

区分指标与标志,总量指标分类、分配数列、上限不在内原则、各种平均数之间的关系、平均发展指标!计算可能考的公式有:计划完成情况相对指标、结构(比例/比较/强度/动态)相对指标、各种平均数算法、众数、中位数、四分位数、平均差、标准差、标准差系数、偏态和峰度、发展速度和增长速度、总指数(很重要)、平均指标指数、重要经济指数的编制(上证指数、工业产品产量总指数、农副产品收购价格指数)统计学(第三版课后习题答案) 贾俊平版2.1 (1)属于顺序数据。

(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率%A1414B2121C3232D1818E1515合计100100(3)条形图(略)2.2 (1)频数分布表如下:(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40 100.0 2.3 频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元)频数(天)频率(%)25~30 30~35 35~40 40~45 45~5046159610.015.037.522.515.0合计40 100.0 直方图(略)。

2.4 (1)排序略。

(2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2660~670 5 5670~680 6 6680~690 14 14690~700 26 26700~710 18 18710~720 13 13720~730 10 10730~740 3 3740~750 3 3合计100 100 直方图(略)。

2.5 (1)属于数值型数据。

(2)分组结果如下:分组天数(天)-25~-20 6-20~-15 8-15~-10 10-10~-5 13-5~0 120~5 45~10 7合计60(3)直方图(略)。

贾俊平《统计学》(第5版)章节题库-第10章 方差分析【圣才出品】


4 / 33
圣才电子书
十万种考研考证电子书、题库视频学习平


10.双因素方差分析涉及( )。
A.两个分类型自变量
B.两个数值型自变量
C.两个分类型因变量
D.两个数值型因变量
【பைடு நூலகம்案】A
【解析】根据所分析的分类自变量的多少,方差分析可以分成单因素方差分析和双因
素方差分析。当方差分析中涉及两个分类型自变量时,称为双因素方差分析。
圣才电子书

十万种考研考证电子书、题库视频学习平 台
第 10 章 方差分析
一、单项选择题 1.方差分析的主要目的是判断( )。 A.各总体是否存在方差 B.各样本数据之间是否有显著差异 C.分类型自变量对数值型因变量的影响是否显著 D.分类型因变量对数值型自变量的影响是否显著 【答案】C 【解析】方差分析是指通过检验各总体的均值是否相等来判断分类型自变量对数值型 因变量是否有显著影响。从表面上看,方差分析是检验多个总体均值是否相等的统计方法, 但本质上它所研究的是分类型自变量对数值型因变量的影响。
A.误差项平方和 B.组内平方和 C.组间平方和 D.总平方和 【答案】D 【解析】总平方和是全部观测值与总均值的误差平方和,记为 SST。
14.组内平方和除以相应的自由度的结果称为( )。 A.组内平方和 B.组内方差 C.组间方差 D.总方差 【答案】B
6 / 33
圣才电子书
十万种考研考证电子书、题库视频学习平
差 2 必须相同;③观测值是独立的。
3 / 33
圣才电子书

十万种考研考证电子书、题库视频学习平 台
8.在方差分析中,所提出的原假设是 H0: 1 2 L k ,备择假设是( )。 A. H1 : 1 2 L k B. H1 : 1 2 L k C. H1 : 1 2 L k D. H1 : 1 , 2 ,…, k 不全相等
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第9章分类数据分析
9.1
复习笔记
一、分类数据与χ2统计量
1.分类数据按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据和顺序数据都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述,不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。

分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。

数值型数据可以转化为分类数据。

分类数据的结果是频数,χ2检验是对分类数据的频数进行分析的统计方法。

2.χ2统计量
χ2统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。

若用f o 表示观察值频数,用f e 表示期望值频数,则χ2统计量可以写为:
2
2()o e e f f f χ-=∑χ2检验:χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。

χ2检验主要用于拟合优度检验和独立性检验。

(1)χ2统计量的特征
①χ2≥0,因为它是对平方值结果的汇总;
②χ2统计量的分布与自由度有关;
③χ2统计量描述了观察值与期望值的接近程度。

两者越接近,即f o-f e的绝对值越小,计算出的χ2值越小;反之,f o-f e的绝对值越大,计算出的χ2值也越大。

χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。

(2)χ2分布与自由度的密切关系
自由度越小,χ2的分布就越向左边倾斜;随着自由度的增加,χ2分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2分布将趋近于对称的正态分布。

(3)应用χ2检验统计量的注意事项
①各组的理论频数f e不得小于总频数n;
②总频数应较大,至少大于50;
③如果某组理论频数小于5,可将相邻的若干组合并,直至理论频数大于5为止;
④倘若有两个以上的单元,如果20%的单元期望频数f e小于5,则不能应用χ2检验。

二、拟合优度检验
拟合优度检验是利用样本信息对总体分布作出推断,检验总体是否服从理论分布(如均匀分布或二项分布)。

其方法是把样本分成K个互斥的类,然后根据要检验的理论分布算出每一类的期望频数,与实际的观察频数进行比较,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。

拟合优度检验的步骤为:
(1)确定原假设与备择假设,原假设H0表示总体服从设定的分布;备择假设H1,表示总体不服从设定的分布。

同时,确定显著性水平α;
(2)从要研究的总体中,随机抽取一个观察值样本;
(3)按照“原假设为真”这一假定,导出一组期望频数或理论频数。

通常这就是假定某概率分布适合于所研究的总体;
(4)对观察频数与理论频数进行比较,如果它们之间的差异很大,以致在确定的显著性水平下不能把它归之于随机波动,则拒绝原假设。

三、列联分析:独立性检验
拟合优度检验是对一个分类变量的检验,对于两个分类变量的分析,称为独立性检验,分析过程可以通过列联表的方式呈现,故又可称为列联分析。

1.列联表
列联表是由两个以上的变量进行交叉分类的频数分布表。

表中的行是态度变量,表中的列是单位变量。

将横向变量(行)的划分类别视为R,纵向变量(列)的划分类别视为C,则可以把每一个具体的列联表称为R×C列联表。

2.独立性检验
独立性检验就是分析列联表中行变量和列变量是否相互独立。

也就是检验行变量与列变量之间是否存在依赖关系。

独立性检验的特点在于其理论频数不是预先确定的,而需要从样本资料中获得。

四、列联表中的相关测量
可以用相关系数测定两个变量之间的相关程度,列联表中的变量通常是类别变量,它们表现研究对象的不同品质类别,这种分类数据之间的相关称为品质相关。

经常用到的品质相关系数有:φ相关系数、列联相关系数、V相关系数。

1.φ相关系数
(1)概念
φ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数,其计算公式为:
2/n
ϕχ=式中,
22()o e e
f f f χ-=∑n 为列联表中的总频数,也即样本量。

(2)特点
①φ系数适合2×2列联表,这是因为对于2×2列联表中的数据,φ系数取值为0~1。

②当φ=0,表明两变量相互独立;当φ=1,表明两变量完全相关。

注意:当列联表R×C 中的行数R 或列数C 大于2时,φ系数将随着R 或C 的变大而增大,且φ值没有上限。

这时用φ系数测定两个变量的相关程度就不够清晰,可以采用列联相关系数。

2.列联相关系数
(1)概念
列联相关系数又称列联系数,简称c 系数,主要用于列联表大于2×2的情况,其计算公式为:
2
2c n
χχ=+
当列联表中的两个变量相互独立时,系数c=0,但它不可能大于1。

(2)特点
列联系数可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。

计算简便,且对总体的分布没有任何要求,列联系数是一种适应性较广的测度值。

(3)局限性
根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致。

3.V 相关系数
(1)概念
V 相关系数的计算公式为:
2min[(1),(1)]
V n R C χ=⨯--式中min[(R-1),(C-1)]表示取(R-1),(C-1)中较小的一个。

(2)特点
当两个变量相互独立时,V=0;当两个变量完全相关时,V=1,所以V 的取值在0~1之间。

如果列联表中有一维为2,即min[(R-1),(C-1)]=1,则V 值就等于φ值。

4.数值分析
对于同一个数据,系数φ,c,V 的结果不同。

对于不同的列联表,行数和列数的差异也会影响系数值。

因此,在对不同列联表变量之间的相关程度进行比较时,不同列联表中行与行、列与列的个数要相同,并且采用同一种系数,这样的系数值才具有可比性。

五、列联分析中应注意的问题
(1)一般来说,在列联表中变量的位置是任意的,既可以把变量X放在列的位置,也可以放在行的位置;
(2)如果变量X与Y存在因果关系,令X为自变量(原因),Y为因变量(结果),一般自变量X放在列的位置,条件百分表多按自变量的方向计算,这样可以更好地表现原因对结果的影响。

但如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时仍以自变量的方向计算百分表就会歪曲实际情况。

在这种情况下,可以把计算百分表的方向变换一下,改为按因变量方向计算,这样就能得到自变量对因变量比较真实的反映。

9.2课后习题详解
一、思考题
1.简述列联表的构造与列联表的分布。

答:列联表是将两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如。

相关文档
最新文档