第9章 分类数据分析

合集下载

医学统计学-第9章 关联性分析

医学统计学-第9章 关联性分析
双向有序分类资料的关联性检验某矿工医院探讨矽肺不同期次患者的胸部片密度变化492例患者资料整理如下表所示问矽肺患者肺门密度的增加与期次有无关本表是按两个变量从小到大顺序分类整理出来的目的为研究两个变量之间有无关联性此从表的左上角往右下角方向看频数有集中于此对角线偏上趋势即肺门密度有随着矽肺期次增加而变大趋势换言之这两个变量似有关联性
关于两种属性的关联程度,我们用pearson
列联系数表达:
对于2×2列联表
关联系数r介于
(9-10)(110-1~2) 0.5 = 0.71 之 间, 该值越大,关
联程度越高。
理论上我们还要作总体为列联系数为0的假设 检验,但这个假设等价于以上的χ2检验。
例9-3 为观察行为类型与冠心病的关系,某研究
r的取值范围在±1之间,为正值时,正相关。 为负值时,负相关。 r=0时为零相关。 ρ是总 体相关系数,r是ρ的估计值。 假设是建立ρ的基础上。。。
相关系数的计算
利用例题的资料试计算凝血酶浓度X与凝 血时间Y之间的样本相关系数。
4.相关分析条件
用于双变量正态分布资料, X、Y都是正态分布。
9.2 两个连续随机变量间的相关分析
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
计算结果如下:

(9-11)
关联系数为:
关联系数的范围:
其中,R是列联表的行数,C是列联表列数。
双向有序分类资料的关联性检验

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。

可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

4.简述ϕ系数、c 系数、V 系数的各自特点。

答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。

《统计学》(贾俊平第七版)课后题及答案-统计学 贾俊平第七版

《统计学》(贾俊平第七版)课后题及答案-统计学 贾俊平第七版

第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。

2.解释描述统计与推断统计。

描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。

推断统计研究的是如何利用样本数据来推断总体特征的统计方法。

3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。

4.解释分类数据、顺序数据和数值型数据的含义。

分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。

5.举例说明总体、样本、参数、统计量、变量这几个概念。

总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。

6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。

分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。

7.举例说明离散型变量和连续型变量。

离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。

第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。

使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。

2.比较概率抽样和非概率抽样的特点。

举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。

贾俊平统计学 第七版 课后思考题

贾俊平统计学 第七版 课后思考题

第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。

2.解释描述统计与推断统计。

描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。

推断统计研究的是如何利用样本数据来推断总体特征的统计方法。

3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。

4.解释分类数据、顺序数据和数值型数据的含义。

分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。

5.举例说明总体、样本、参数、统计量、变量这几个概念。

总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。

6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。

分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。

7.举例说明离散型变量和连续型变量。

离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。

第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。

使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。

2.比较概率抽样和非概率抽样的特点。

举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。

医用数据挖掘案例与实践 第9章 决策树模型分析

医用数据挖掘案例与实践 第9章 决策树模型分析
2
分类(Classification)是一种数据分析过程,即根据 记录各种属性的值确定该记录属于预定类别中的哪一 类。分类是数据挖掘中的常用方法,在医学应用中, 疾病的诊断和鉴别诊断就是典型的分类过程。
3
分类器的产生主要通过学习和测试两部分完成。学习过程是依据训练样 本(Training Sample)进行有监督的学习,通过学习得到特定的分类器 (Classifier)。测试过程是以学习得到的分类器对测试样本(Testing Sample) 进行分类,并将分类结果与该样本的类别归属进行对照,以此判断分类器的 性能。当分类器的分类性能达到预定目标后,即可用该分类器对未知数据的 类别进行判定。用于评估分类器性能的测试样本必须独立于训练样本。常用 的测试样本主要有以下几种方法:
(1)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测 试样本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数 据集较大的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能 会导致不同类别的样本在两个样本中分布不均衡。
4
(2)N倍交叉验证法:将原有数据集随机的分为N组,分 别以其中的一组数据作为测试样本,其他组数据作为训练样 本进行训练和测试。这样一共训练了N次,得到N个分类准确 率。最后取N次测试的分类准确率的均值来反应分类器的性能。 特别的,当N为总样本数时,此方法则成为留一法(leaveone-out)。
log2
3 9
6 9
log2
6 9
0.918
E(age)

I
(1,
2)
6 9
(
2 6
log2
2 6
4 6
log2
4 6
)
3 9

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

合计
赞成
35
30
65
反对
15
20
35
合计
50
50
100
如果要检验男女教师对教师体制改革的看法是否相同,提出的原假设为( )。
A.H0:π1=π2=35 B.H0:π1=π2=50 C.H0:π1=π2=65
6 / 19
圣才电子书

D.H0:π1=π2=0.65
十万种考研考证电子书、题库视频学习平台
156 162
圣才电子书

A.0.6176
十万种考研考证电子书、题库视频学习平台
B.1.2352
C.2.6176
D.3.2352
【答案】B
【解析】 2 检验可以用于变量间拟合优度检验和独立性检验,可以用于测定两个分类 变量之间的相关程度。用 fo 表示观察值频数,用 fe 表示期望值频数,则 2 统计量为:
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章 分类数据分析
一、单项选择题
1.列联分析是利用列联表来研究( )。
A.两个数值型变量的关系
B.两个分类变量的关系
C.两个数值型变量的分布
D.一个分类变量和一个数值型变量的关系
【答案】B
【解析】列联表是由两个以上的变量进行交叉分类的频数分布表,列联分析是利用列联
【解析】表中的行是态度变量,这里划分为三类,即赞成,中立和反对;表中的列是单 位变量,这里划分为两类,即男同学和女同学,即 3×2 列联表。
5.一所大学为了解男女学生对后勤服务质量的评价,分别抽取了 300 名男学生和 240
名女学生进行调查,得到的结果如表 9-2 所示。
表 9-2 关于后勤服务质量评价的调查结果

贾俊平《统计学》复习笔记课后习题详解及典型题详解 第9章~第10章【圣才出品】

贾俊平《统计学》复习笔记课后习题详解及典型题详解  第9章~第10章【圣才出品】

第9章分类数据分析9.1复习笔记一、分类数据与χ2统计量1.分类数据按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据和顺序数据都是只能归于某一类别的非数字型数据,它们是对事物进行分类的结果,其结果均表现为类别,用文字来表述,不过顺序数据的类别是有序的;数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。

分类数据是对事物进行分类的结果,其特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。

数值型数据可以转化为分类数据。

分类数据的结果是频数,χ2检验是对分类数据的频数进行分析的统计方法。

2.χ2统计量χ2统计量可以对分类数据做拟合优度检验和独立性检验,可以用于测定两个分类变量之间的相关程度。

若用f o 表示观察值频数,用f e 表示期望值频数,则χ2统计量可以写为:22()o e e f f f χ-=∑χ2检验:χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。

χ2检验主要用于拟合优度检验和独立性检验。

(1)χ2统计量的特征①χ2≥0,因为它是对平方值结果的汇总;②χ2统计量的分布与自由度有关;③χ2统计量描述了观察值与期望值的接近程度。

两者越接近,即f o-f e的绝对值越小,计算出的χ2值越小;反之,f o-f e的绝对值越大,计算出的χ2值也越大。

χ2检验正是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。

(2)χ2分布与自由度的密切关系自由度越小,χ2的分布就越向左边倾斜;随着自由度的增加,χ2分布的偏斜程度趋于缓解,逐渐显露出对称性,随着自由度的继续增大,χ2分布将趋近于对称的正态分布。

(3)应用χ2检验统计量的注意事项①各组的理论频数f e不得小于总频数n;②总频数应较大,至少大于50;③如果某组理论频数小于5,可将相邻的若干组合并,直至理论频数大于5为止;④倘若有两个以上的单元,如果20%的单元期望频数f e小于5,则不能应用χ2检验。

第九章 属性(分类)数据分析[最新]

第九章  属性(分类)数据分析[最新]

SAS软件与统计Байду номын сангаас用教程
STAT
9.1.1 属性数据分析与列联表
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性 (Categorical) 变量,属性变量又可分为有序的 (Ordinal) 和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。
SAS软件与统计应用教程
表9-1 关于改革方案的调查结果(单位:人)
一分公司 二分公司 三分公司 四分公司 合计
STAT
赞成该方案
反对该方案 合计
68
32 100
75
45 120
57
33 90
79
31 110
279
141 420
表中的行 (row) 是态度变量,这里划分为两类:赞成改 革方案或反对改革方案;表中的列 (column)是单位变量, 这里划分为四类,即四个分公司。表 9-1 所示的列联表 称为24表。
SAS软件与统计应用教程
STAT
第九章 属性(分类)数据分析

9.1 属性数据及其分析
9.2 SAS中的属性数据分析
SAS软件与统计应用教程
STAT

9.1
属性数据及其分析

9.1.1 属性数据分析与列联表


9.1.2 属性变量关联性分析
9.1.3 属性变量关联度计算

9.1.4 有序变量关联性分析
SAS软件与统计应用教程
STAT
3. V系数
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
9 -9
统计学
STATISTICS (第四版)
列联表的结构
(r c 列联表的一般表示)
列(cj)
列(cj)
行(ri)
j =1
j =2

i =1
f11
f12…i=2f源自1f22…:
:
:
:
合计
c1
c2

fij 表示第 i 行第 j 列的观察频数
合计
r1 r2
:
n
9 - 10
统计学
STATISTICS (第四版)
列联表
(例题分析)
【例】一个集团公司在四个不同的地区设有分公司,现该集 团公司欲进行一项改革,此项改革可能涉及到各分公司的利 益,故采用抽样调查方式,从四个分公司共抽取420个样本 单位(人),了解职工对此项改革的看法,调查结果如下表
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
等价于检验三个公司的期望购买人数和实际购买人数是否9一- 2致8 。
统计学
STATISTICS (第四版)
拟合优度检验
(例题分析1-1)
【例9.1】 1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有共2208人,其中男 性1738人,女性470人。海难发生后,幸存者为 718人,其中男性374人,女性344人,以的显著 性水平( 0.05)检验存活状况与性别是否有关。
赞成 反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 18
c 统计量
统计学
STATISTICS (第四版)
概述
c2检验(Chi-square test)是现代统计 学的创始人之一,英国人K . Pearson( 1857-1936)于1900年提出的一种具有广 泛用途的统计方法,因此又称为Pearson c2检验。可用于两个或多个率或构成比间 的比较,定性资料的关联度分析,拟合 优度检验等等。
列边缘分布(频数)
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
表中每个具体的观察值都是变量 X 条件下变量 Y 的 频数,或在变量 Y 条件下变量 X 的频数,称为条件 分布(频数)
9 - 13
统计学
STATISTICS (第四版)
在全部420个样本中,赞成改革方案的人数为279,占66.4%;反对的人数占 33.6%。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对) 这项改革不同态度的期望频数为分公司总样本数*66.4%(33.6%)。9等- 价27于 检验各分公司赞成方案的实际频数与期望频数是否一致。
统计学
STATISTICS (第四版)
统计学
STATISTICS (第四版)
c 统计量
拟合优度检验:
1. 用于检验一个分类变量中各类别的期望频数和观察频数 是否有显著差异。
2. 其实际为假设检验
3. 在原假设为观察频数和实际频数一致的前提下,有如下
检验统计量:
c 2 c ( fo fe )2
j 1
fe
其自由度为C 1 式中:fo —每一类别的观察频数
观察值的分布
(图示)
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120 90 110 420
列边缘分布
9 - 14
统计学
STATISTICS (第四版)
百分比分布
(概念要点)
1. 条件频数反映了数据的分布,但不适合对比
9 - 16
统计学
STATISTICS (第四版)
练 习 (1)
(1) 列联分析是利用列联表来研究: ( A ) A. 两个分类变量的关系 B . 两个数值型变量的关系 C. 一个分类变量和一个数值型变量的关系 D. 两个数值型变量的分布
(2) 以下列联表中,最右边一列称为:( B ) A. 列边缘频数; B. 行边缘频数; C. 条件频数; D. 总频数
合,所以称为列联表
6. 一个 R 行 C 列的列联表称为 R C 列联表
9 -8
统计学
STATISTICS (第四版)
列联表的结构
(2 2 列联表)
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
合计
f11+ f12 f21+ f22
62.5% 17.8%
45 31.9% 37.5% 10.7% 28.6%
20.4%
63.35 13.6%
33 23.4% 36.7% 7.9% 21.4%
总百分比
四分公司
合计
79
66.4%
28.3%
71.8% 18.8%
31 22.0% 28.2% 7.4% 26.2%
— — 33.6%
— — 100%
数为: 0.325470=153人,若男女性期望的存活人数和
实际的存活人数非常接近,则可以认为存活率与性别无关
,反之,则认为存状况与性别相关。因此可以利用c2统计
量来检验。


合计
实际生存 人数
374
344
718
总人数
1738
470
2208
期望生存 人数
1738×0.325 470×0.325
9 - 30
79 279
反对该方案 32
75
33
31 141
合计 100 120 90 110 420
9 - 11
统计学
STATISTICS (第四版)
列联表的分布
9 - 12
统计学
STATISTICS (第四版)
观察值的分布
1. 边缘频数
行边缘分布(频数)
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
9 -3
统计学
STATISTICS (第四版)
学习目标
1. 解释列联表 2. 进行 c2 检验
拟合优度检验 独立性检验 3. 测度列联表中的相关性
9 -4
9.1 分类数据
9.1.1 分类数据 补充:列联表的构造
列联表的分布 9.1.2 c2统计量
统计学
STATISTICS (第四版)
分类数据
赞成 反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 17
统计学
STATISTICS (第四版)
(3) 对于学生宿舍上网收费的新措施,男女学生的抽样调查结果 如下列联表所示,在男女生赞成的比例相同的前提下,男女 生赞成该措施的期望频数分别为: ( A ) A. 48和39 B . 102和81 C. 15和14 D. 25和19
二分公司 三分公司 四分公司
赞成该方 案
实际频数 期望频数
68
75
57
79
100*66.4%=66 150*66.4%=80 90*66.4%=60 110*66.4%=73
反对该方 案
实际频数 期望频数
32
75
33
31
100*33.6%=34 150*33.6%=40 90*33.6%=30 110*33.6%=37
统计学
STATISTICS (第四版)
第 9 章分类数据分析
9 -1
统计学
STATISTICS (第四版)
概述
第七、八章介绍的估计和检验方法仅主 要针对数值型变量。而列联分析是针对分 类变量进行分析的方法。
9 -2
统计学
STATISTICS (第四版)
第 9 章 分类数据分析
9.1 分类数据与c2统计量 9.2 拟合优度 检验 9.3 列联分析:独立性检验 9.4 列联表中的相关测量 9.5 列联分析中应注意的问题
fe —每一类别的期望频数 9 - 24
统计学 拟合优度检验的期望频数的
STATISTICS (第四版)
计算
若可求出第i行第j列元素的期望概率pij, 则一个实际频数 fij 的期望频数eij ,是总频 数的个数 n 乘以该实际频数 fij 的期望概 率pij
eij n pij
9 - 25
统计学
1. 分类变量的取值表现为类别
例如:性别 (男, 女)
2. 各类别可用符号或数字代码来测度
例如:性别 (男用1表示, 女用0表示)
3. 顺序数据也可以看作分类数据
原料的质量等级:一等品、二等品、三等品
4. 数值型数据也可以转化为分类数据
数学期末考试成绩是一个数值型数据,可以根据分数段 将成绩为“优秀”、“良好”、“及格”和“不及格” 几个类别
STATISTICS (第四版)
期望频数的计算举例
举例:要检验各分公司对某项改革方案的 看法是否相同?
赞成该方 案
反对该方 案
实际频数 实际频数
一分公司 68 32
二分公司 三分公司 四分公司
75
57
79
45
33
31
9 - 26
统计学
STATISTICS (第四版)
期望频数的分布
(例题分析)
相关文档
最新文档