第九章属性分类数据分析
《商务数据分析》第九章——复杂数据分析方法

• 主题模型是用来在大量的文档中发现潜在主题的一种统计模型。
• 一个文档通常包含多个主题且每个主题所占比例各不相同,主题模型能够统计文档中
的词语,根据文档中词的信息判断文档包含的主题以及各个主题所占比重。
• 一种典型的词袋模型:LDA
• 基本设想为一篇文档是由一组词组成的集合,词与词之间没有顺序和先后关系。同时,
• 为了将文本处理为模型可用的数据,需要先对文本进行预处理。一般预
处理步骤为分词、清洗、标准化、特征提取,然后将提取出来的特征应
用下游任务中,如分类、情感分析等。
商务数据分析
1. 文本预处理
• (1)文本分词
• 组成文本的词,被认为是重要的特征。因此文本分析首先要做的
是对文本进行分词。
• 对于英文来说,文本本来就是根据空格分开的,可以直接以空格
• Word2vec词向量模型
• 是一个小型的神经网络,目前较为流行的有两种模型:
• (1)CBOW模型:用上下文单词作为输入来预测目标词语,对于小型数据比较合适。
• (2)skip-gram模型:用一个词语作为输入来预测它周围的上下文,在大型语料中表
现更好。
• 两个模型均是一个三层的神经网络,分别包含输入层、隐藏层和输出层,输入层以词
出现的频率,它默认文档中的每个单词都是独立的。不依赖于其他单词是否出现。
• (1)词袋模型之TF-IDF算法(Term Frequency–Inverse Document Frequency,TF-IDF)
• 特征关键词应该是那些在某个文本中出现频率高而在整个语料库的其他文档中出现频率少的词或短语。
• 首先用d表示待处理的文档,t表示文档分词后的词语,用D表示语料库。TF(t, d)是词语t在文档d中出现的次数:
贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。
可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
4.简述ϕ系数、c 系数、V 系数的各自特点。
答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。
贾俊平统计学 第七版 课后思考题

第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
属性层次模型及其应用电子教案

属性层次模型及其应用电子教案第一章:属性层次模型简介1.1 属性层次模型的概念解释属性层次模型的定义和基本概念强调属性层次模型在信息组织和管理中的重要性1.2 属性层次模型的结构介绍属性层次模型的基本结构和组成元素解释属性层次模型的树状结构及其层级关系1.3 属性层次模型的应用领域探讨属性层次模型在不同领域的应用实例强调属性层次模型在数据分析和决策支持中的应用价值第二章:属性层次模型的构建2.1 确定属性层次模型的目标讲解如何明确属性层次模型的目标和应用场景强调属性层次模型的目标对模型构建的重要性2.2 收集和整理属性数据介绍属性数据的来源和收集方法讲解如何整理和清洗属性数据以保证模型构建的准确性2.3 构建属性层次模型讲解属性层次模型的构建步骤和方法强调在构建过程中需要注意的细节和技巧第三章:属性层次模型的评估与优化3.1 属性层次模型的评估指标介绍常用的属性层次模型评估指标及其含义强调评估指标在模型优化中的作用和重要性3.2 属性层次模型的评估方法讲解常用的属性层次模型评估方法及其步骤强调评估方法的可靠性和实用性3.3 属性层次模型的优化策略介绍常用的属性层次模型优化策略和方法强调优化策略在提高模型性能和效果中的作用第四章:属性层次模型在数据挖掘中的应用4.1 数据挖掘与属性层次模型讲解数据挖掘的概念和过程强调属性层次模型在数据挖掘中的应用价值4.2 分类任务中的属性层次模型应用介绍属性层次模型在分类任务中的应用方法和步骤强调属性层次模型在提高分类准确率中的作用4.3 聚类任务中的属性层次模型应用介绍属性层次模型在聚类任务中的应用方法和步骤强调属性层次模型在发现数据中的潜在规律和模式的作用第五章:属性层次模型在决策支持系统中的应用5.1 决策支持系统与属性层次模型讲解决策支持系统的概念和功能强调属性层次模型在决策支持系统中的应用价值5.2 属性层次模型在决策问题描述中的应用介绍属性层次模型在决策问题描述中的应用方法和步骤强调属性层次模型在问题理解和分析中的作用5.3 属性层次模型在决策方案评估中的应用介绍属性层次模型在决策方案评估中的应用方法和步骤强调属性层次模型在方案比较和选择中的作用第六章:属性层次模型在信息检索中的应用6.1 信息检索与属性层次模型讲解信息检索的基本概念和过程强调属性层次模型在信息检索中的应用价值6.2 属性层次模型在索引构建中的应用介绍属性层次模型在索引构建中的应用方法和步骤强调属性层次模型在提高信息检索效率中的作用6.3 属性层次模型在查询优化中的应用介绍属性层次模型在查询优化中的应用方法和步骤强调属性层次模型在提高查询质量中的作用第七章:属性层次模型在推荐系统中的应用7.1 推荐系统与属性层次模型讲解推荐系统的概念和类型强调属性层次模型在推荐系统中的应用价值7.2 属性层次模型在用户行为分析中的应用介绍属性层次模型在用户行为分析中的应用方法和步骤强调属性层次模型在理解用户需求和兴趣中的作用7.3 属性层次模型在推荐算法中的应用介绍属性层次模型在推荐算法中的应用方法和步骤强调属性层次模型在个性化推荐结果中的作用第八章:属性层次模型在数据可视化中的应用8.1 数据可视化与属性层次模型讲解数据可视化的概念和目的强调属性层次模型在数据可视化中的应用价值8.2 属性层次模型在数据关系展示中的应用介绍属性层次模型在数据关系展示中的应用方法和步骤强调属性层次模型在揭示数据中隐藏关系中的作用8.3 属性层次模型在多维数据可视化中的应用介绍属性层次模型在多维数据可视化中的应用方法和步骤强调属性层次模型在处理高维数据和提高可视化效果中的作用第九章:属性层次模型在中的应用9.1 与属性层次模型讲解的基本概念和发展历程强调属性层次模型在中的应用价值9.2 属性层次模型在知识表示中的应用介绍属性层次模型在知识表示中的应用方法和步骤强调属性层次模型在表达不确定性和模糊性知识中的作用9.3 属性层次模型在专家系统中的应用介绍属性层次模型在专家系统中的应用方法和步骤强调属性层次模型在模拟专家决策过程中的作用第十章:属性层次模型的实际应用案例分析10.1 属性层次模型在企业决策中的应用案例分析一个企业决策中应用属性层次模型的实际案例强调属性层次模型在帮助企业做出更好决策中的作用10.2 属性层次模型在电子商务中的应用案例分析一个电子商务中应用属性层次模型的实际案例强调属性层次模型在提高用户体验和满意度中的作用10.3 属性层次模型在公共服务领域的应用案例分析一个公共服务领域中应用属性层次模型的实际案例强调属性层次模型在提升服务质量和效率中的作用重点和难点解析一、属性层次模型的概念及其在信息组织和管理中的重要性;二、属性层次模型的结构及其组成元素;三、属性层次模型的应用领域及其在不同领域的具体应用实例;四、属性层次模型的构建过程,包括确定模型目标、收集和整理属性数据以及构建模型的具体步骤和方法;五、属性层次模型的评估与优化,包括评估指标、评估方法以及优化策略;六、属性层次模型在数据挖掘中的应用,特别是在分类任务和聚类任务中的具体应用方法和步骤;七、属性层次模型在决策支持系统中的应用,特别是在决策问题描述和决策方案评估中的具体应用方法和步骤;八、属性层次模型在信息检索中的应用,特别是在索引构建和查询优化中的具体应用方法和步骤;九、属性层次模型在推荐系统中的应用,特别是在用户行为分析和推荐算法中的具体应用方法和步骤;十、属性层次模型在数据可视化中的应用,特别是在数据关系展示和多维数据可视化中的具体应用方法和步骤;十一、属性层次模型在中的应用,特别是在知识表示和专家系统中的具体应用方法和步骤;十二、属性层次模型的实际应用案例分析,特别是企业决策、电子商务以及公共服务领域的具体应用案例。
医用数据挖掘案例与实践 第9章 决策树模型分析

分类(Classification)是一种数据分析过程,即根据 记录各种属性的值确定该记录属于预定类别中的哪一 类。分类是数据挖掘中的常用方法,在医学应用中, 疾病的诊断和鉴别诊断就是典型的分类过程。
3
分类器的产生主要通过学习和测试两部分完成。学习过程是依据训练样 本(Training Sample)进行有监督的学习,通过学习得到特定的分类器 (Classifier)。测试过程是以学习得到的分类器对测试样本(Testing Sample) 进行分类,并将分类结果与该样本的类别归属进行对照,以此判断分类器的 性能。当分类器的分类性能达到预定目标后,即可用该分类器对未知数据的 类别进行判定。用于评估分类器性能的测试样本必须独立于训练样本。常用 的测试样本主要有以下几种方法:
(1)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测 试样本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数 据集较大的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能 会导致不同类别的样本在两个样本中分布不均衡。
4
(2)N倍交叉验证法:将原有数据集随机的分为N组,分 别以其中的一组数据作为测试样本,其他组数据作为训练样 本进行训练和测试。这样一共训练了N次,得到N个分类准确 率。最后取N次测试的分类准确率的均值来反应分类器的性能。 特别的,当N为总样本数时,此方法则成为留一法(leaveone-out)。
log2
3 9
6 9
log2
6 9
0.918
E(age)
I
(1,
2)
6 9
(
2 6
log2
2 6
4 6
log2
4 6
)
3 9
第九章 属性(分类)数据分析[最新]
![第九章 属性(分类)数据分析[最新]](https://img.taocdn.com/s3/m/dc8db13010a6f524ccbf8595.png)
SAS软件与统计Байду номын сангаас用教程
STAT
9.1.1 属性数据分析与列联表
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性 (Categorical) 变量,属性变量又可分为有序的 (Ordinal) 和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。
SAS软件与统计应用教程
表9-1 关于改革方案的调查结果(单位:人)
一分公司 二分公司 三分公司 四分公司 合计
STAT
赞成该方案
反对该方案 合计
68
32 100
75
45 120
57
33 90
79
31 110
279
141 420
表中的行 (row) 是态度变量,这里划分为两类:赞成改 革方案或反对改革方案;表中的列 (column)是单位变量, 这里划分为四类,即四个分公司。表 9-1 所示的列联表 称为24表。
SAS软件与统计应用教程
STAT
第九章 属性(分类)数据分析
9.1 属性数据及其分析
9.2 SAS中的属性数据分析
SAS软件与统计应用教程
STAT
9.1
属性数据及其分析
9.1.1 属性数据分析与列联表
9.1.2 属性变量关联性分析
9.1.3 属性变量关联度计算
9.1.4 有序变量关联性分析
SAS软件与统计应用教程
STAT
3. V系数
第九章 概率与统计-9.2 成对数据的统计分析

9.2 成对数据的统计分析
课程标准
必备知识
自主评价
核心考点
课时作业
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹
角的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小
= =1
∑ −ҧ 2
=1
= ത − ҧ
时, = ∑ − − 2 达到最小.
=1
经验回归方程
+ 称为关于的______________,也称经验回归函数或经验回归
我们把ො =
ො
最小二乘法
公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做____________,求
返回至目录
(2)样本相关系数.
①样本相关系数的计算公式.
=
∑ − −
=1
∑ − 2
=1
.
∑ − 2
=1
样本相关系数
我们称为变量和变量的______________.
②与标准化数据向量夹角的关系
令′ = ′1 , ′2 , ⋯ , ′ ,′ = ′1 , ′2 , ⋯ , ′ ,
+ 之间的__________.如果______,那么与之间的关系就
可用一元线性函数模型来描述.
返回至目录
(2)一元线性回归模型参数的最小二乘估计.
设满足一元线性回归模型的两个变量的对样本数据为 1 , 1 , 2 , 2 ,⋯ ,
∑ −ҧ −ത
, ,当,的取值为
分类和预测算法

计算每个属性的熵(从年 龄开始):
9 9 5 5 I (9,5) log2 log2 14 14 14 14 0.94
C1对应买(y),C2不买(n)
例:电器销售顾客训练数据元组,类标号属性买PC,构造决策树
年龄 <=30 <=30 31..40 >40 >40 >40 31..40 <=30 <=30 >40 <=30 31..40 31..40 >40 收入 高 高 高 中 低 低 低 中 低 中 中 中 高 中 学生 n n n n y y y n y y y n y n 信用 中 良 中 中 中 良 良 中 中 中 良 良 中 良 买PC n n y y y n y n y y y y y n
j 1
v
s1 j .. smj s
I ( s1 j ,.., smj )
例:假定v=“年龄”,值为{a1,a2,a3}={<=30,31..40,>40},这 样可以将50个样本分成3个子集合S1,S2,S3。C1买计算机的样本 集合,C2是不买的。
如果在C1中31..40岁的人有5个,则s12=5 以A分枝将获得的信息增益是: Gain(A)=I(s1,s2,…,sm)-E(A) 决策树如何分枝?计算属性的信息增益,取最大的信息增益 分枝
模型评价指标a是正确预测到的负例的数量truenegativetn00falsepositivefpfalsenegativefnd是正确预测到的正例的数量truepositivetpab是实际上负例的数量actualnegativecd是实际上正例的个数actualpositiveac是预测的负例个数predictednegativebd是预测的正例个数predictedpositive模型评价指标准确分类率正确预测的正反例数总数accuracytruepositivetruenegativetotalcasesacc误分类率错误预测的正反例数总数errorratefalsepositivefalsenegativetotalcaseserrorratefpfnpn模型评价指标正例的覆盖率正确预测到的正例数实际正例总数recalltruepositiverateorsensitivitytruepositivetotalactualpositivetprfalsepositiveratefpr等同于
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS软件与统计应用教程
9.1.3 属性变量关联度计算
STAT
1. φ系数
φ系数是描述22表数据关联程度最常用的一种相关系 数。其计算公式为: 2 /n
其中,2即2统计量。
|φ|的取值范围是在0 ~ 1之间,φ的绝对值越大,说明 行变量与列变量的关联程度越高。φ = 0,表示变量之间 相互独立;|φ| = 1,表示变量之间完全相关,此时列联 表某个方向对角线上的值全为0。
当列联表r c中的行数r或列数c大于2时,φ系数将随 着r或c变大而变大,且φ无上界。此时可用列联系数。
检验x与y是否相互独立。数据集mylib.zqgy如图:
原假设H0:x与y相互独立
SAS软件与统计应用教程
STAT
表9-2中数据使用如下代码存入数据集mylib.bron,形 式如图9-2所示。
data mylib.bron; input x $ y $ numcell; label x = '吸烟' y = '慢性支气管炎'; cards; 吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121
SAS软件与统计应用教程
交叉表的基本形式如图9-1所示。
STAT
第1行 行 第2行
… 第r行 列边缘频数
第1列
n11
n21 …
nr1
r
n i1
i1
列
第2列
…
第c列
行边缘频数
n12
…
n1c
n22
…
n2c
c
n1j
j1
c
n2j
j1
…
nr2
r
ni2
i1
…
…
…
nrc
r
…
n ic
i1
…
c
n rj
j1
二级
64 59 65
二级
24 52 74
SAS软件与统计应用教程
STAT
设表9-3数据已经存放在数据集mylib.yldj中,如图9-9所 示。
图9-9 数据集mylib.yldj
检验的原假设为H0:地区和原料等级之间是独立的 (不存在依赖关系)。
SAS软件与统计应用教程
STAT
1. 分析步骤
1) 在“分析家”中,打开数据集Mylib.yldj; 2) 选 择 菜 单 “ Statistics”→“Table Analysis” , 打 开 “Table Analysis”对话框; 3) 选中变量x,单击“Row”按钮,将其移到行变量框 中;选中变量y,单击按钮“Column”,将其移到列变 量框中;选中变量numcell,单击按钮“Cell Counts”, 将其移到单元格计数框中,如图所示;
图9-4 “Table Analysis:Statistics”对话框
单击“OK”按钮,返回。
SAS软件与统计应用教程
STAT
5) 为了在列联表中显示各种频数、百分数,单击 “Tables(列联表)”按钮,打开“Table Analysis: Tables”对话框。选中“Frequencies(频数)”栏下的 “Expected(期望)”复选框,取消“Percentages(百 分数)”栏下的复选框,如图9-5所示。
22表,c = 0.7071;对于33表,c = 0.8165;对于44表,
c = 0.87,…等等。
c系数的缺点是,根据不同行列的列联表计算出来的c
系数不便比较。
SAS软件与统计应用教程
STAT
3. V系数
鉴于φ系数无上界、c系数小于1的不便,克莱默提出 了V系数(Cramer's V),其计算公式如下:
分布近似服从自由度为(r - 1)(c – 1)的2分布。
SAS软件与统计应用教程
STAT
由于2分布是一种连续性分布,而属性数据是不连续的,
故上式只是一个近似计算公式。计算出来的2值往往偏 大,相应的p值偏小,从而人为地增加了犯第一类错误
的机会。为纠正这种偏性,可采用校正2,用C2表示。
注:通常要求C 22检i验 r1 应jc1(满|n足ij的m m i条ijj|件0.5是)2:n≥40且所有单
SAS软件与统计应用教程
STAT
用P表示所有观测对中一致对的个数,Q表示所有观 测对中不一致对的个数。
γ统计量(Gamma)的定义为: P Q
PQ
τb统计量(Kendal Tau-b)的定义为:
b
PQ
rc
cr
n2 ( nij)2 n2 ( nij)2
i1 j1
j1 i1
τc统计量(Kendal Tau-c)的定义为: 其中m = min(r,c)。
SAS软件与统计应用教程
STAT
进一步检验的结果只要看后面(图9-7)统计量部分 的Chi Square一行,其值为7.4688,p值为0.0063,所以 应拒绝原假设,作出结论:吸烟与患慢性支气管炎是有
关联的。当然,这个关联度不是很大,三个关联度系数
均在0.15左右。
对于两行两列的表格FREQ过程自动给出Fisher精确检 验的结果,其双侧检验p值为0.0069,应拒绝原假设。
SAS软件与统计应用教程
STAT
2. 列联系数
列联系数(Contingency coefficient)简称为c系数, 主要用于大于22表的情况。c系数的计算公式为:
c
2 2 n
c系数的取值范围:–1 < c < 1,特别当r c表中两个
变量相互独立时,c = 0。c系数的最大值依赖于列联表
的行数和列数,且随着r或c变大而变大。例如,对于
对于不同的属性变量,从列联表中可以得到它们联合
分布的信息。但有时还想知道形成列联表的行和列变量
间是否有某种关联性,即一个变量取不同数值时,另一
个变量的分布是否有显著的不同,这就是属性变量关联
性分析的内容。
属性变量关联性检验的假设为
H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假
c
PQ n2(m1)m
这三个统计量的取值均在-1.0到1.0之间,值接近于1.0
表示正关联,接近于-1.0表示负关联,等于0表示没有相
关关系。
SAS软件与统计应用教程
STAT
9.2 SAS中的属性数据分析
9.2.1 22表的分析 9.2.2 r c表的分析 9.2.3 分层列联表分析 9.2.4 有序变量的关联性分析
SAS软件与统计应用教程
STAT
4) 为 了 使 用 2 统 计 量 检 验 变 量 的 关 联 性 , 单 击
“Statistics”按钮,打开“Table Analysis:Statistics”对 话框,选中“Statistics”栏下的“Chi-square Statistics” 复选框,如图9-4所示。
设和备择假设可以写为:
H0:变量之间独立;
H1:变量之间不独立
SAS软件与统计应用教程
STAT
1. 2检验
在双向表的情形下,如果行变量与列变量无关联性的
原假设H0成立,则列联表中各行的相对分布应近似相等,
即
n ij
n ij i
(j = 1,2,…,c)
n ij
n
或
j
nij
j
nij
i
n
nij defmi(j j = 1,2,…,c)
SAS软件与统计应用教程
STAT
9.2.1 22表的分析
【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调
查了339人,情况如下:
表9-2 吸烟与慢性支气管炎的关系调查表
患慢性支气管炎 未患慢性支气管炎
吸烟
43
162
不吸烟
13
121
设想有两个随机变量:x表示吸烟与否,y表示患慢性支
气管炎与否。检验吸烟与患慢性支气管炎有无关系,即
图9-5 “Table Analysis:Tables”对话框
两次单击“OK”按钮,得到分析结果。
2. 结果分析
SAS软件与统计应用教程
STAT
列联表中列出了表格单元的观测频数(上一行)和在 原假设下的期望频数(下一行),可以看出,吸烟人中 患病的观测频数比期望频数大(图9-6所示),说明吸 烟与患病又一定关系。
元的期望频数均不小于5。 2校正的条件:n≥40但有单元的期望频数小于5。
SAS软件与统计应用教程
STAT
2. Fisher精确检验
Fisher精确检验建立在概率论中超几何分布的基础上, 对于单元频数小的列联表来说,它是特别合适的。
Fisher精确检验计算在H0成立的条件下,当总频数和 边缘频数固定时,各种可能的表的超几何概率p之和
SAS软件与统计应用教程
STAT
9.2.2 r c表的分析
【例9-2】一种原料来自三个不同的地区,原料质量被 分成三个不同等级。从这批原料中随机抽取500件进行 检验,结果如表9-3所示。要求检验各个地区和原料质 量之间是否存在依赖关系。
表9-3 原料抽样的结果
甲地区 乙地区 丙地区
一级
52 60 50
; Run;
SAS软件与统计应用教程
STAT
1. 分析步骤
1) 在“分析家”中, 打开数据集Mylib.bron;
2) 选择菜单: “ Statistics”→“Table Analysis” , 打 开 “Table Analysis”对话 框3;) 选中变量smoke,单击“Row”按钮,将其移到行 变量框中;选中变量bron,单击按钮“Column”,将其 移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;