贾俊平统计学第五版分类数据分析

合集下载

精选人大版,贾俊平,第五版,统计学第4章数据的概括性度量资料

精选人大版,贾俊平,第五版,统计学第4章数据的概括性度量资料

R
. =
最高组上限
-
最低组下限
2. 平均差
1. 离散程度的测度值之一
2. 各变量值与其均值离差绝对值的平均数
3. 能全面反映一组数据的离散程度
4. 数学性质较差,实际中应用较少
5. 计算公式为
未分组数据 组距分组数据
N
Xi X
M D i1 N K X i X Fi
M D i1 K
QD = QU - QL =3–2 =1
4.2.3 数值型数据:方差和标准差 1.极差
1. 一组数据的最大值与最小值之差
2. 离散程度的最简单测度值
3. 易受极端值影响
4. 未考虑数据的分布 5. 计算公式为
7 8 9 10
7 8 9 10
未分组数据 R = max(Xi) - min(Xi)
组距分组数据
QU位置=3×50/4=37.5
350 30
QU 125
4 10
5 128.75(个)
4.1.3 数值型数据:平均值 1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5.用于数值型数据,不能用于定类数据和定
序数据
均值(计算公式)
M0
125
(14
14 10 8) (14
10)
5
123(个)
4.1.2 顺序数据:中位数和分位数 1.中位数
集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能
用于定类数据
各变量值与中位数的离差绝对值之和最小,即
25% 25% 25% 25%

贾俊平统计学五版3章节数据图表展示

贾俊平统计学五版3章节数据图表展示
2. 数据筛选的内容
▪ 将某些不符合要求的数据或有明显错误的数
据予以剔除
▪ 将符合某种特定条件的数据筛选出来,而不
符合特定条件的数据予以剔除
3 - 10
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
数据筛选
(data filter)
用Excel进行数据筛选
8名学生的考试成绩数据
合计
300 100.0




作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
顺序数据的频数分布表
(例题分析)
3 - 33
回答类别
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比 (户) (%)
向上累积
户数 百分比
(户)
(%)
向下累积
户数 百分比 (户) (%)
非常不满意 21
2. 主要用于 展示分类 数据的分 布
频数
16
15
12
11
9
9
8
6
4
0 可口可乐 旭日升冰茶 百事可乐
露露
不同品牌饮料的帕累托图
汇源果汁
品牌
3 - 27
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据的图示—饼图
(pie Chart)
1. 也称圆形图,是用圆形及圆内扇形的角度 来表示数值大小的图形
▪ 升序和降序 ▪ 寻找数据的基本特征
4. 数据透视
按需要汇总
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)

【单位】统计学贾俊平第五版分章习题及答案

【单位】统计学贾俊平第五版分章习题及答案

【关键字】单位《统计学》分章习题及答案(贾俊平,第五版)主编:杨群目录习题部分第1章导论一、单项选择题1.指出下面的数据哪一个属于分类数据()A.年龄B.工资C.汽车产量D.购买商品的支付方式(现金、信用卡、支票)2.指出下面的数据哪一个属于顺序数据()A.年龄B.工资C.汽车产量D.员工对企业某项制度改革措施的态度(赞成、中立、反对)3.某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入,这项研究的统计量是()A.2000个家庭B.200万个家庭C.2000个家庭的人均收入D.200万个家庭的人均收入4.了解居民的消费支出情况,则()A.居民的消费支出情况是总体B.所有居民是总体C.居民的消费支出情况是总体单位D.所有居民是总体单位5.统计学研究的基本特点是()A.从数量上认识总体单位的特征和规律B.从数量上认识总体的特征和规律C.从性质上认识总体单位的特征和规律D.从性质上认识总体的特征和规律6.一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的回答他们的消费支付方式是使用信用卡。

这里的“月收入”是()A.分类变量B.顺序变量C.数值型变量D.离散变量7.要反映我国工业企业的整体业绩水平,总体单位是()A.我国每一家工业企业B.我国所有工业企业C.我国工业企业总数D.我国工业企业的利润总额8.一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均消费是200元,他们选择在网上购物的主要原因是“价格便宜”。

这里的参数是()A.1000个消费者B.所有在网上购物的消费者C.所有在网上购物的消费者的平均消费额D.1000个消费者的平均消费额9.一名统计学专业的学生为了完成其统计作业,在《统计年鉴》中找到的2006年城镇家庭的人均收入数据属于()A.分类数据B.顺序数据C.截面数据D.时间序列数据10.一家公司的人力资源部主管需要研究公司雇员的饮食习惯,改善公司餐厅的现状。

贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】

贾俊平《统计学》配套题库  【课后习题】详解  第9章~第10章【圣才出品】

第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。

次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。

可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

4.简述ϕ系数、c 系数、V 系数的各自特点。

答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

合计
赞成
35
30
65
反对
15
20
35
合计
50
50
100
如果要检验男女教师对教师体制改革的看法是否相同,提出的原假设为( )。
A.H0:π1=π2=35 B.H0:π1=π2=50 C.H0:π1=π2=65
6 / 19
圣才电子书

D.H0:π1=π2=0.65
十万种考研考证电子书、题库视频学习平台
156 162
圣才电子书

A.0.6176
十万种考研考证电子书、题库视频学习平台
B.1.2352
C.2.6176
D.3.2352
【答案】B
【解析】 2 检验可以用于变量间拟合优度检验和独立性检验,可以用于测定两个分类 变量之间的相关程度。用 fo 表示观察值频数,用 fe 表示期望值频数,则 2 统计量为:
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章 分类数据分析
一、单项选择题
1.列联分析是利用列联表来研究( )。
A.两个数值型变量的关系
B.两个分类变量的关系
C.两个数值型变量的分布
D.一个分类变量和一个数值型变量的关系
【答案】B
【解析】列联表是由两个以上的变量进行交叉分类的频数分布表,列联分析是利用列联
【解析】表中的行是态度变量,这里划分为三类,即赞成,中立和反对;表中的列是单 位变量,这里划分为两类,即男同学和女同学,即 3×2 列联表。
5.一所大学为了解男女学生对后勤服务质量的评价,分别抽取了 300 名男学生和 240
名女学生进行调查,得到的结果如表 9-2 所示。
表 9-2 关于后勤服务质量评价的调查结果

贾俊平《统计学》章节题库(分类数据分析)【圣才出品】

贾俊平《统计学》章节题库(分类数据分析)【圣才出品】

观察值
105
78
期望值
102
8l
根据这个列联表计算的 Χ2 统计量为( )。
A.0.6176
B.1.6176
C.0.3088
D.1.3088
【答案】A
【解析】 2 f0 fe 2 45 482 42 392 105 1022 78 812
87
反对
105
78
183
合计
150
120
270
这个列联表的最下边一行称为( )。
A.列边缘频数
B.行边缘频数
3 / 25
圣才电子书

C.条件频数
十万种考研考证电子书、题库视频学习平台
D.总频数
【答案】A
7.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的
2.设 R 为列联表的行数,C 为列联表的列数,则 Χ2 分布的自由度为( )。 A.R B.C C.R×C D.(R-1)×(C-1) 【答案】D
【解析】 2 检验的自由度=(行数-1)(列数-1)=(R-1)(C-1)。
1 / 25
圣才电子书 十万种考研考证电子书、题库视频学习平台

看法,分别抽取了 150 名男学生和 120 名女学生进行调查,得到的结果如下:
男学生
女学生
合计
赞成
45
42
87
反对
105
78
183
合计
150
120
270
根据这个列联表计算的赞成上网收费的行百分比分别为( )。
A.51.7%和 48.3%
B.57.4%和 42.6%
C.30%和 70%
D.35%和 65%

贾俊平《统计学》第五版第14章 指数

贾俊平《统计学》第五版第14章 指数
商品 彩电 蔬菜 计量单位 台 公斤 P0 8000 1 P1 4000 2
Ip
p p
0
1
4002 Biblioteka 50% 8001简单指数2.简单平均指数 将个体指数进行简单平均得到的总 指数。
Ip

p0 p1
n
Iq
q0 q 1
n
简单平均指数的计算
• 采用简单平均的方法计算价格指数。
商品 计量单位 P0 P1
彩电
蔬菜

公斤
8000
1
4000
2
Ip
p0 p 1
n
4000 2 8000 1 = =1.25=125% 2
加权指数
权数的确定(要点)
1. 根据现象之间的联系确定权数
计算数量指数时,应以相应的质量为权数 计算质量指数时,应以相应的物量为权数
2. 确定权数的所属时期
报告期总量加权的平均指数
(要点和计算公式)
1. 以报告期总量为权数对个体指数加权平均
2. 计算形式上采用调和平均形式
3. 计算公式为
质量指数:p1 0
pq p
1 p0
1
1 1
p1 q1

数量指数:q1 0
pq
1 1
1 q q p1q1 1 0
报告期总量加权的平均指数
(实例)
商品名称 粳 米 标准粉 花生油 计量 单位 公斤 公斤 公斤
销售量
1998 1200 1500 500 1999 1500 2000 600 3.6 2.3 9.8
单价(元)
1998 1999 4.0 2.4 10.6
拉氏指数(计算过程)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
STATISTICS (第五版)
c 统计量
1. 用于检验分类变量拟合优度 2. 计算公式为
c 2
( fo fe)2 fe
9 -8
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
c 统计量
分布与自由度的关系
9 -9
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
1. 品质相关
对品质数据(分类和顺序数据)之间相关程 度的测度
2. 列联表变量的相关属于品质相关
3. 列联表相关测量的统计量主要有
相关系数
列联相关系数 V 相关系数
9 - 20
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
相关系数
(correlation coefficient)
统计学
STATISTICS (第五版)
第 9 章 分类数据分析
9 -1
作者:中国人民大学统计学院 贾俊平
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
第 9 章 分类数据分析
9.1 分类数据与c2统计量 9.2 拟合优度 检验 9.3 列联分析:独立性检验 9.4 列联分析中应注意的问题
独立性检验
(例题分析)
9 - 18
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
9.4 列联表中的相关测量
9.4.1 相关系数
9.4.2 列联相关系数 9.4.3 V 相关系数
9 - 19
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表中的相关测量
合,所以称为列联表
6. 一个 r 行 c 列的列联表称为 r c 列联表
9 - 15
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表的结构
(r c 列联表的一般表示)
列(cj)
行(ri)
j =1
i =1
f11
i=2
f21
:
:
列(cj) j =2
f12 f22
:
合计
9.2 拟合优度检验
9 - 10
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
拟合优度检验
(例题分析)
【例】1912年4月15日,豪华巨轮泰坦尼
克号与冰山相撞沉没。当时船上共有共 2208人,其中男性1738人,女性470人。 海 难 发 生 后 , 幸 存 者 为 718 人 , 其 中 男 性 374人,女性344人,以的显著性水平检验 存活状况与性别是否有关。 ( 0.05)
统计学
STATISTICS
9.3 列联分析:独立性检验
(第五版)
9.3.1 列联表 9.3.2 独立性检验
9 - 14
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表
(contingency table)
1. 由两个以上的变量交叉分类的频数分布表
2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组
9.1.1 分,中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据
9 -5
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据
1. 分类变量的结果表现为类别
例如:性别 (男, 女)
2. 各类别用符号或数字代码来测度
c1
c2
fij 表示第 i 行第 j 列的观察频数
9 - 16
合计 …

r1

r2
:
:

n
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
独立性检验
(例题分析)
【例】一种原料来自三个不同的地区,原料质量被分成三个不 同等级。从这批原料中随机抽取500件进行检验,结果如表9-3 所示,要求检验各个地区和原料质量之间是否存在依赖关系?
( 0.05)
解:H0:地区和原料等级之间是独立的(不存在依赖关系) H1:地区和原料等级之间不独立 (存在依赖关系)
c 0.05(4)=9.488故拒绝H0,接受H1 ,即地区和原 料等级之间存在依赖关系,原料的质量受地区的影响
9 - 17
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
9 -2
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
学习目标
1. 理解分类数据与c2 统计量
2. 掌握拟合优度检验及其应用 3. 掌握独立性检验及其应用 4. 掌握测度列联表中的相关性
9 -3
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
9.1 分类数据与列联表
9 - 11
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
拟合优度检验
(例题分析)
解:要回答观察频数与期望频数是否一致,检验 如下假设:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
9 - 12
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
1. 测度22列联表中数据相关程度
2. 对于22 列联表, 系数的值在0~1之间 3. 相关系数计算公式为
c2
n
式中:c 2
r
c (fij
eij)2
i1j1 e
ij
n为实际频数的总个数,即样本容量
9 - 21
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
相关系数
拟合优度检验
(例题分析)
自由度的计算为df=R-1,R为分类变量类型的 个数。在本例中,分类变量是性别,有男 女 两 个 类 别 , 故 R=2 , 于 是 自 由 度 df=2-
1=1,经查分布表, c(0.1)(1)=2.706,故
拒绝H0,说明存活状况与性别显著相关
9 - 13
作者:贾俊平,中国人民大学统计学院
3. 使用分类或顺序尺度
你吸烟吗?
1.是;2.否
你赞成还是反对这一改革方案?
1.赞成;2.反对
4. 对分类数据的描述和分析通常使用列联表
5. 可使用c检验
9 -6
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
c 统计量
9 -7
作者:贾俊平,中国人民大学统计学院
统计学
相关文档
最新文档