人大版,贾俊平,第五版,统计学第9章分类数据分析

合集下载

统计学(第五版)贾俊平-课后思考题和练习题答案(最终完整版)

统计学（第五版）贾俊平课后思考题和练习题答案（最终完整版）整理by__kiss—ahuang第一部分思考题第一章思考题1.1什么是统计学统计学是关于数据的一门学科，它收集,处理,分析，解释来自各个领域的数据并从中得出结论.1.2解释描述统计和推断统计描述统计；它研究的是数据收集，处理,汇总,图表描述,概括与分析等统计方法。

推断统计；它是研究如何利用样本数据来推断总体特征的统计方法。

1。

3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分；（定性数据）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果,数据表现为类别，用文字来表述;（定性数据）顺序数据:只能归于某一有序类别的非数字型数据.它也是有类别的,但这些类别是有序的。

（定量数据）数值型数据:按数字尺度测量的观察值，其结果表现为具体的数值。

统计数据；按统计数据都收集方法分；观测数据：是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。

实验数据：在实验中控制实验对象而收集到的数据.统计数据；按被描述的现象与实践的关系分；截面数据:在相同或相似的时间点收集到的数据，也叫静态数据.时间序列数据:按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据.1.4解释分类数据,顺序数据和数值型数据答案同1。

31。

5举例说明总体，样本,参数，统计量，变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体，从中抽取一百个进行检测,这一百个灯泡的集合就是样本，这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数，这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量，变量就是说明现象某种特征的概念，比如说灯泡的寿命.1.6变量的分类变量可以分为分类变量，顺序变量，数值型变量。

变量也可以分为随机变量和非随机变量.经验变量和理论变量。

1。

7举例说明离散型变量和连续性变量离散型变量，只能取有限个值，取值以整数位断开，比如“企业数”连续型变量，取之连续不断，不能一一列举，比如“温度”.1.8统计应用实例人口普查，商场的名意调查等。

贾俊平《统计学》配套题库【课后习题】详解第9章~第10章【圣才出品】

第9章分类数据分析一、思考题1．简述列联表的构造与列联表的分布。

答：列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如表9-2所示的3×3列联表。

表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明：次品类型与厂家（即哪一个厂）生产是无关的（即是相互独立的）。

建立假设：H 0：次品类型与厂家生产是独立的，H 1：次品类型与厂家生产不是独立的。

次品类型生产厂可以计算各组的期望值，如表9-3所示（表中括号内的数值为期望值）。

表9-3各组的期望值计算表A B C 总计甲乙丙20（17）40（33）15（25）45（44）90（89）65（67）35（39）70（78）70（58）100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于（R －1）（C －1）=（3－1）×（3－1）=4，若以0.01的显著性水平进行检验，查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=，故接受原假设H 0，即次品类型与厂家生产是独立的。

3．说明计算2χ统计量的步骤。

答：计算2χ统计量的步骤：（1）用观察值o f 减去期望值e f ；（2）将（o f －e f ）之差平方；（3）将平方结果2)(e o f f -除以e f ；（4）将步骤（3）的结果加总，即得：22()o e ef f f χ-=∑。

(NEW)贾俊平《统计学》(第5版)笔记和课后习题(含考研真题)详解

目　录第1章　导　论1.1　复习笔记1.2　课后习题详解1.3　典型习题详解第2章　数据的搜集2.1　复习笔记2.2　课后习题详解2.3　典型习题详解第3章　数据的图表展示3.1　复习笔记3.2　课后习题详解3.3　典型习题详解第4章　数据的概括性度量4.1　复习笔记4.2　课后习题详解4.3　典型习题详解第5章　概率与概率分布5.1　复习笔记5.2　课后习题详解5.3　典型习题详解第6章　统计量及其抽样分布6.1　复习笔记6.2　课后习题详解6.3　典型习题详解第7章　参数估计7.1　复习笔记7.2　课后习题详解7.3　典型习题详解第8章　假设检验8.1　复习笔记8.2　课后习题详解8.3　典型习题详解第9章　分类数据分析9.1　复习笔记9.2　课后习题详解9.3　典型习题详解第10章　方差分析10.1　复习笔记10.2　课后习题详解10.3　典型习题详解第11章　一元线性回归11.1　复习笔记11.2　课后习题详解11.3　典型习题详解第12章　多元线性回归12.1　复习笔记12.2　课后习题详解12.3　典型习题详解第13章　时间序列分析和预测13.1　复习笔记13.2　课后习题详解13.3　典型习题详解第14章　指　数14.1　复习笔记14.2　课后习题详解14.3　典型习题详解第1章　导　论1.1　复习笔记一、统计学1统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据收集也就是取得统计数据；数据处理是将数据用图表等形式展示出来；数据分析则是选择适当的统计方法研究数据，并从数据中提取有用信息进而得出结论。

2．数据分析所用的方法（1）描述统计：研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法；（2）推断统计：研究如何利用样本数据来推断总体特征的统计方法。

二、统计数据的类型1分类数据、顺序数据、数值型数据（按计量尺度不同分类）（1）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的；（2）顺序数据：只能归于某一有序类别的非数字型数据。

贾俊平《统计学》(第5版)课后习题-第9章分类数据分析【圣才出品】

第9章　分类数据分析一、思考题1．简述列联表的构造与列联表的分布。

答：列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明：次品类型与厂家（即哪一个厂）生产是无关的（即是相互独立的）。

建立假设：H0：次品类型与厂家生产是独立的，H1：次品类型与厂家生产不是独立的。

可以计算各组的期望值，如表9-3所示（表中括号内的数值为期望值）。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于（R －1）（C －1）=（3－1）×（3－1）=4，若以0.01的显著性水平进行检验，查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=，故接受原假设H 0，即次品类型与厂家生产是独立的。

3．说明计算2χ统计量的步骤。

4．简述ϕ系数、c 系数、V 系数的各自特点。

答：（1）ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为：ϕ，式中，∑-=ee of f f 22)(χ；n 为列联表中的总频数，也即样本量。

统计学贾俊平-课后思考题和练习题答案

统计学（第五版）贾俊平课后思考题和练习题答案（最终完整版）第一部分思考题第一章思考题什么是统计学统计学是关于数据的一门学科，它收集，处理，分析，解释来自各个领域的数据并从中得出结论。

解释描述统计和推断统计描述统计；它研究的是数据收集，处理，汇总，图表描述，概括与分析等统计方法。

推断统计；它是研究如何利用样本数据来推断总体特征的统计方法。

统计学的类型和不同类型的特点统计数据；按所采用的计量尺度不同分；（定性数据）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，用文字来表述；（定性数据）顺序数据：只能归于某一有序类别的非数字型数据。

它也是有类别的，但这些类别是有序的。

（定量数据）数值型数据：按数字尺度测量的观察值，其结果表现为具体的数值。

统计数据；按统计数据都收集方法分；观测数据：是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。

实验数据：在实验中控制实验对象而收集到的数据。

统计数据；按被描述的现象与实践的关系分；截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。

时间序列数据：按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据。

解释分类数据，顺序数据和数值型数据答案同举例说明总体，样本，参数，统计量，变量这几个概念对一千灯泡进行寿命测试，那么这千个灯泡就是总体，从中抽取一百个进行检测，这一百个灯泡的集合就是样本，这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数，这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量，变量就是说明现象某种特征的概念，比如说灯泡的寿命。

变量的分类变量可以分为分类变量，顺序变量，数值型变量。

变量也可以分为随机变量和非随机变量。

经验变量和理论变量。

举例说明离散型变量和连续性变量离散型变量，只能取有限个值，取值以整数位断开，比如“企业数”连续型变量，取之连续不断，不能一一列举，比如“温度”。

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解分类数据分析

合计
赞成
35
30
65
反对
15
20
35
合计
50
50
100
如果要检验男女教师对教师体制改革的看法是否相同，提出的原假设为（）。
A．H0：π1=π2=35 B．H0：π1=π2=50 C．H0：π1=π2=65
6 / 19
圣才电子书

D．H0：π1=π2=0.65
十万种考研考证电子书、题库视频学习平台
156 162
圣才电子书

A．0.6176
十万种考研考证电子书、题库视频学习平台
B．1.2352
C．2.6176
D．3.2352
【答案】B
【解析】 2 检验可以用于变量间拟合优度检验和独立性检验，可以用于测定两个分类变量之间的相关程度。用 fo 表示观察值频数，用 fe 表示期望值频数，则 2 统计量为：
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章分类数据分析
一、单项选择题
1．列联分析是利用列联表来研究（）。
A．两个数值型变量的关系
B．两个分类变量的关系
C．两个数值型变量的分布
D．一个分类变量和一个数值型变量的关系
【答案】B
【解析】列联表是由两个以上的变量进行交叉分类的频数分布表，列联分析是利用列联
【解析】表中的行是态度变量，这里划分为三类，即赞成，中立和反对；表中的列是单位变量，这里划分为两类，即男同学和女同学，即 3×2 列联表。
5．一所大学为了解男女学生对后勤服务质量的评价，分别抽取了 300 名男学生和 240
名女学生进行调查，得到的结果如表 9-2 所示。
表 9-2 关于后勤服务质量评价的调查结果

(完整版)统计学贾俊平考研知识点总结

统计学重点笔记第一章导论一、比较描述统计和推断统计：数据分析是通过统计方法研究数据，其所用的方法可分为描述统计和推断统计。

（1）描述性统计：研究一组数据的组织、整理和描述的统计学分支，是社会科学实证研究中最常用的方法，也是统计分析中必不可少的一步。

内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示，进而通过综合、概括与分析，得出反映所研究现象的一般性特征。

（2）推断统计学：是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。

研究者所关心的是总体的某些特征，但许多总体太大，无法对每个个体进行测量，有时我们得到的数据往往需要破坏性试验，这就需要抽取部分个体即样本进行测量，然后根据样本数据对所研究的总体特征进行推断，这就是推断统计所要解决的问题。

其内容包括抽样分布理论，参数估计，假设检验，方差分析，回归分析，时间序列分析等等。

（3）两者的关系：描述统计是基础，推断统计是主体二、比较分类数据、顺序数据和数值型数据：根据所采用的计量尺度不同，可以将统计数据分为分类数据、顺序数据和数值型数据。

（1）分类数据是只能归于某一类别的非数字型数据。

它是对事物进行分类的结果，数据表现为类别，是用文字来表达的，它是由分类尺度计量形成的。

（2）顺序数量是只能归于某一有序类别的非数字型数据。

也是对事物进行分类的结果，但这些类别是有顺序的，它是由顺序尺度计量形成的。

（3）数值型数据是按数字尺度测量的观察值。

其结果表现为具体的数值，现实中我们所处理的大多数都是数值型数据。

总之，分类数据和顺序数据说明的是事物的本质特征，通常是用文字来表达的，其结果均表现为类别，因而也统称为定型数据或品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此可称为定量数据或数量数据。

三、比较总体、样本、参数、统计量和变量：（1）总体是包含所研究的全部个体的集合。

通常是我们所关心的一些个体组成，如由多个企业所构成的集合，多个居民户所构成的集合。

最新统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)

电话式；优点：1速度快2对调查员比较安全3对访问过程的控制比较容易。缺点：1实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时，不易劝服。
2.5
老师说这个内容不讲，应该不会考实验数据的
2.6如何控制调查中的回答误差
对于理解误差，我会去学习一定的心理学知识，对于记忆误差，我会尽量去缩短所涉及的时间范围，对于有意识的误差，我要做好被调查者的心理工作，要遵守职业道德，为被调查者保密，尽量在问卷中不涉及敏感问题。
统计数据；按统计数据都收集方法分；
观测数据：是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。
实验数据：在实验中控制实验对象而收集到的数据。
统计数据；按被描述的现象与实践的关系分；
截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。
时间序列数据：按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据。
3.5绘制线图应注意问题
时间在横轴，观测值绘在纵轴。一般是长宽比例10：7的长方形，纵轴下端一般从0开始，数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同
饼图只能显示一个样本或总体各部分所占比例，环形图可以同时绘制多个样本或总体的数据系列，其图形中间有个“空洞”，每个样本或总体的数据系类为一个环。
自填式；优点：1调查组织者管理容易2成本低，可进行大规模调查3对被调查者，可选择方便时间答卷，减少回答敏感问题压力。缺点：1返回率低2不适合结构复杂的问卷，调查内容有限3调查周期长4在数据搜集过程中遇见问题不能及时调整。
面访式；优点：1回答率高2数据质量高3在调查过程中遇见问题可以及时调整。缺点：1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题，被访者会有压力。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2 =
2
f0 fe
fe
2
，描述 f0 与 fe 的接近程度。越
2 2
接近，值越小；差异越大，值越大。给定显著性水平时，将值与临界值比较，做出是否拒绝原假设的决策。
3
9.2 拟合优度检验
依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异。
11
列联表的结构
（2 2 列联表）
一个2 2 列联表
列(cj) 行 (ri) i =1 i =2 j =1 列( cj ) j =1 合计
f11 f21
f12 f22
f11+ f12 f21+ f22
合计
f11+ f21
f12+ f22
n
12
列联表的结构
（r c 列联表的一般表示）
r 行 c 列的列联表
4
1912年4月15日，豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人，其中男性1738人，女性470人。海难发生后，幸存者共718人，其中男性374人，女性344人，以α=0.1的显著性水平检验存活状况与性别是否有关。
5
如果存活状况与性别无关，男性与女性的幸存比例应该相等。海难后幸存比例为718/2208=0.325 男性应该为1738*0.325=565人女性应该为470*0.325=153人。
一分公司二分公司三分公司四分公司
合计
赞成该方案
反对该方案
68
32
75
75
57
33
79
31
279
141
合计
100
120
90
110
420
14
1. 边缘分布
–
• •
行边缘分布
行观察值的合计数的分布例如，赞成改革方案的共有279人，反对改革方案的141人
–
• •
列边缘分布
列观察值的合计数的分布例如，四个分公司接受调查的人数分别为100人，120人，90 人，110人
18.8%
22.0% 28.2% 7.4%
22.7% 32.0% 7.6%
合计
23.8%
28.6%
21.4%
26.2%
18
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ，是总频数的个数 n 乘以该实际频数 fij 落入第 i 行和第j列的概率，即
H0：观察频数与期望频数一致观测值老年人非老年人 57 343 H1：观察频数与期望频数不一致
f0
期望值 59 341
fe f 0 f e f 0 f e
-2 22Βιβλιοθήκη 2 f0 fe
fe
0.0678 0.0117
2
4 4
2 =
f0 fe
fe
0.0795
α=0.1
拒绝域
2.705
2
2 303
决策：拒绝H0
结论：有证据表明存活状况与性别显著相关
7
一项统计结果声称，某市老年人口所占比例为14.7%，该市老年人口研究会为了检验该项统计是否可靠，随机抽选了400名居民，发现其中有57人老年人。调查结果是否支持 14.7%的看法？
8
如果该项统计可靠，400居民中老年人的频数应该为400*14.7%=59
9
自由度为：分类变量类型的个数－1＝1
α=0.05
拒绝域
5.024
2
2 0.0795
决策：接受H0
结论：调查结果支持该项统计结论
10
9.3 列联分析：独立性分析
9.3.1 列联表
由两个以上的变量进行交叉分类的频数分布表行变量的类别用 r 表示， ri 表示第 i 个类别列变量的类别用 c 表示， cj 表示第 j 个类别每种组合的观察频数用 fij 表示表中列出了行变量和列变量的所有可能的组合，所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表 1. 2. 3. 4. 5.
第9章分类数据分析
1
9.1 分类数据与卡方统计量
9.1.1 分类数据调查结果虽然用数值表示，但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。卡方检验是对分类数据的频数进行分析的统计方法。
2
9.1.2 卡方统计量用于检验列联表中变量之间是否存在显著性差异，或者用于检验变量之间是否独立。
H0：观察频数与期望频数一致观测值
男女 374 344
H1：观察频数与期望频数不一致
f0
期望值
565 153
fe
f0 fe
-191 191
2
f0 fe
36481 36481
2
f0 fe
fe
64.6 238.4
2
f0 fe 2 = 303 fe
6
自由度为：分类变量类型的个数－1＝1
90
110
列边缘分布
16
1. 条件频数反映了数据的分布，但不适合进行对比 2. 为在相同的基数上进行比较，可以计算相应的百分比，称为百分比分布
– – – 行百分比：行的每一个观察频数除以相应的行合计数（fij / ri）列百分比：列的每一个观察频数除以相应的列合计数（ fij / cj ）总百分比：每一个观察值除以观察值的总个数（ fij / n ）
2. 条件分布与条件频数
–
–
变量 X 条件下变量 Y 的分布，或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数
15
条件频数
行边缘分布
一分公司二分公司三分公司四分公司赞成该方案反对该方案
合计 279 141 420
68 32
75 75
57 33
79 31
合计
100
120
列(cj) 行(ri)
列(cj)
j =1 j=2 … … … : …
合计
i =1 i=2 : 合计
f11 f21
:
f12 f22
:
r1 r2
:
c1
c2
n
13
fij 表示第 i 行第 j 列的观察频数
【例】一个集团公司在四个不同的地区设有分公司，现该集团公司欲进行一项改革，此项改革可能涉及到各分公司的利益，故采用抽样调查方式，从四个分公司共抽取 420个样本单位(人)，了解职工对此项改革的看法，调查结果如下表
17
行百分比
列百分比
总百分比
一分公司二分公司三分公司四分公司赞成该方案
24.4% 68.0%
26.9% 62.5%
20.4% 63.35
28.3% 71.8%
合计 66.4% — — 33.6% — — 100%
16.2%
反对该方案
17.8%
31.9% 37.5% 10.7%
13.6%
23.4% 36.7% 7.9%