数据分析方法与技术作业及答案

一、填写题（抄题，写答案）

1.数据分析“六步曲”按顺序依次是：明确分析目的和内容、数据收集、数据处理、

数据分析、数据展现、报告撰写。

2.定量数据一般可分为计量的、计数的、二种类型。定性数据一般可分为有序的、名义的、二种类型。

3.数据收集方法总的可分为一手数据、二手数据、两大类。前一类方法常用的具体方法有调查法、

观察法、实验法；后一类方法常用的具体方法有机构查询、书刊查询、网络查询。

4.SPSS中有三种主要的工作窗口，它们是：数据编辑窗口、结果浏览窗口、程序编辑窗口；

在进行数据表编辑时，有二种主要视图，它们是：数据视图、变量视图。

5.SPSS中对变量属性进行定义时，对变量的命名在Name栏中设置，定义变量值标签在Values栏中设

置。

6.根据数据的计量性质，可以将数据分为定量的数据和定性的数据；根据数据获得的直接性，可以将数

据分为一手数据和二手数据。

7.统计检验的一种思路是：设定原假设H0，构造相应的统计判断量，当根据实验数据或样本数据计算出

的统计判断量落在拒绝区域，则拒绝原假设；反之，则落在接受区域，接受原假设。在SPSS软件的统计操作中，通过计算样本数据的实际显著性概率Sig.，并将其与给定的显著性概率水平α比较，当Sig.<α时（填“>” 或“<” ），则拒绝原假设。

8.方差分析主要用来判断样本数据之间的差异是由不可控的随机因素造成的还是由研究中施加的对结

果形成影响的可控因素造成的。

9.因子分析法是多元统计分析中处理降维的一种，其最主要的工作是降维，即将具有错综复杂关系的变

量或者样品综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系。

10.下图所示因子分析结果中，数值6.845的含义是第一主成分特征根，数值84.421的含义是前三个主成

分的累计贡献率；在Extraction Sums块中，有三行数据，其含义是根据提取因子条件----特征值大于1，共选出了三个公共因子。

11.下图所示椭圆圈中信息的含义11变量，200样例。

12.强规则是指：同时满足最小支持度阈值和最小置信度阈值的规则。

13.Statistica中实现聚类分析的过程是：[Statistics]/[ Multivariate Exploratory Techniques]/

[Cluster Analysis]。

14.在对二值变量定类数据的距离进行计算时，若认为所取两个值的地位不对等，则可以用雅克比匹配系

数对距离进行度量。

15.熵可以作为训练集的不纯度度量，熵越大，不纯度就越高（高或低）。决策树的分枝原则就是使划分

后的样本的子集越纯越好，即它们的熵越小越好。

16.C&RT算法的全称是Classification and Regression Trees，它所构成的决策树是二叉树，该算法用gini

指标指标作为选择分枝方案的依据，在选择分枝方案时，需经两步完成，第一步，在每个节点处评估所有属性的每个标准问题的gini 指标，第二步，选择gini 指标最大的标准问题作为分枝方案。

17.已知某数据集中某属性的不同取值为，{2.6，1，2.9，2，5，4.2，2.3，3 }，则该属性的标准问题集

为{Is A≤1.5,Is A≤2.15,Is A≤2.45,Is A≤2.75,Is A≤2.95,Is A≤3.6,Is A≤4.6}。

18.已知某数据集中某属性的不同取值为，{优，良，中，差}，则该属性的标准问题集为{Is A∈{优}，Is

A∈{良}，Is A∈{中}，Is A∈{优，良}，Is A∈{良，中}，Is A∈{优，中}，Is A∈{优，良，中}。二、单项选择题（抄题干及你认为正确的选项，图可以不画）

1.Excel中，当把F7单元格复制到G8单元格时出现了如下信息提示，关于这一现象，以下描述正确的

是( C )。

(A) G8单元格的数据应该是17，可能格式设置为小数点后5位，超过了单元格显示区域，出现此提示

(B) C8或D8单元格的数据有问题(C) D8和E8不能相加

(D) F8为空值，无法加总得到结果

2.在Excel中，要实现如下图所示的汇率换算，可以在D5单元格中输入（B），之后将它复制到下面的

单元格，就可以实现不同币值的换算。

(A) $C$2*C5 (B) =C$2*C5 (C) =6.912*786 (D) =C2*C5

3.以下关于SPSS中定义变量值标签的描述中，错误的是（C）

(A) 定义值标签可简化数据录入

(B) 在显示数据表时，通过点击工具栏中的Value Labels按钮，可以在标签和值之间切换显示

(D) 值标签的定义可以实现只输入标签就可以输入实际的数据

4.SPSS19版本中数据文件的扩展名是（A）

(A) .sav (B) .sps (C) .dat (D) .xls

5.如果将数据分析方法论比喻成服装设计图，则服装制作中的平面、立体剪裁、合缝、包缝等相当于数

据分析中的（C）

(A) 分析工具(B) 分析技术(C) 分析思路(D) 补充分析

6.以下统计量中，反映集中趋势的量有（B,C,E）

(A) 标准误(B) 平均值(C) 众数(D)方差(E)四分位数

7.以下关于SPSS中定义变量值标签的描述中，错误的是（C）

(A) 定义值标签可简化数据录入

(B) 在显示数据表时，通过点击工具栏中的Value Labels按钮，可以在标签和值之间切换显示

(D) 值标签的定义可以实现只输入标签就可以输入实际的数据

8.SPSS中实现二变量相关分析的过程是( A )。

(A) 【Analyze】/【Correlate】/【Bivariate】(B) 【Analyze】/【Compare Means】/【Bivariate】

9.因子分析中KMO检验的作用是（C）。

(A) 检验各因子的齐次性(B) 说明各原始变量与因子的相关性

10.EM聚类主要基于（C）进行聚类。

(A) 样本点之间的距离(B) 样本点之间的相似度(C) 数理统计模型

(D) 熵函数的计算

11.以下关于信度的描述中，错误的是（D）：

(A) 信度是反映测量的稳定性与一致性的一个指标

(B) 大部分信度指标都是以相关系数表示的

(D) 问卷信度的高低，取决于我们对系统误差的控制程度

12.以下关于信度的描述中，正确的是（B）：

(A) 信度高，则效度一定高

(B) 效度高，则信度一定高

(D) 折半信度系数是从问卷中取出一半来计算其克朗巴哈α系数

13.对数据挖掘这一概念的理解，以下描述错误的是（A）。

(A) 发现的知识要可接受、可理解，且要有普遍的指导意义

(B) 一般数据源是历史数据，具有相对的稳定性

(D) 数据源必须是真实的、大量的、含噪声的

14.关于下图所反映的关联规则分析结果，以下描述中错误的是（D）。

(A) 这里的关联规则可以描述为IF Body THEN Head的形式

(B) IF (Gender=Male) Then (Pizza) 的置信度是70.12195%

确的

(D) 在此题中57.5%的支持度表示的是Head supp。

15.关于下图的描述中，错误的是（C）。

(A) 上图反映了质心之间的距离

(B) 上图反映了两个类之间的距离

(D) 类之间距离的计算方法有最长距离法、最短距离法等

三、简答题（抄题干及分析，不用画图）

1. 区分如下四个概念：类型抽样、等距抽样、整群抽样、多阶段抽样。

类型抽样

类型抽样也称分层抽样，是将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组，然后从各类型组中独立、随机地抽取样本，再将各类型组的样本结合起来，对总体的目标量进行估计。

等距抽样

等距抽样又称系统抽样，是将总体中各单位按照某一标志顺序排列，在规定的范围内随机确定起点，然后按照一定的间隔抽取其他样本单位的抽样组织形式。

整群抽样

整群抽样是将总体各单位划分为若干群，然后以群为单位从中随机抽取一些群，对抽中群的所有单位都进行调查的抽样组织形式。

多阶段抽样

多阶段抽样也称多级抽样或阶段抽样，是将对总体单位的整个抽样过程分为两个或更多个阶段进行，先从总体中抽选若干个大的样本群，称为第一阶段单位，然后从被抽中的若干个大的单位群中，抽选较小的样本单位，以此类推。

2. 为什么要进行数据清洗？

1. 重复数据处理

2. 处理缺失数据

3. 检查数据逻辑错误

数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然

是我们不想要的，称为“脏数据”。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

3. 数据分析方法论与具体的数据分析方法有何区别？

数据分析方法论与数据分析法的区别

数据分析方法论主要用来指导数据分析师进行一个完整的数据分析，它更多的是指导数据分析思路，比如，主要从哪几个方面开展数据分析？各方面包含什么内容或指标？

数据分析方法论从宏观角度指导如何进行数据分析，它就像是一个数据分析的前期规划，指导着后期数据分析工作的开展。而数据分析法则是指各种具体的方法，主要从微观层面指导如何进行数据分析。

4. 简述类型抽样与整群抽样的区别。

5. 在数据分析方法的层次上，5W2H属于方法论还是具体的方法，简述其主要内容。

方法论，具体内容：why（何因）what(何事)who（何人）when（何时）where(何地)how(如何做)how much(何价)。

(1) WHA T--是什么?目的是什么?做什么工作?

(2) HOW --怎么做?如何提高效率?如何实施?方法怎样?

(3) WHY--为什么?为什么要这么做?理由何在?原因是什么?造成这样的结果为什么?

(4)WHEN--何时?什么时间完成?什么时机最适宜?

(5) WHERE--何处?在哪里做?从哪里入手?

(6) WHO--谁?由谁来承担?谁来完成?谁负责?

(7) HOW MUCH--多少?做到什么程度?数量如何?质量水平如何?费用产出如何?

6.假设检验的总体思路是怎样的，简述之。(PPT 95)

总思路是：

1）根据问题的需要对所研究的总体作某种假设，记作H0；

2）选取合适的统计量，这个统计量的选取要使得在假设H0 成立时，其分布为已知；

3）由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0 的判断。

7.以下为SPSS中相关分析的结果图，试对其进行分析。

从上图可知，皮尔森相关系数是为-0.449，Sig.=0.013，样本量为30，Sig.<0.05，拒绝原假设，接收备β≠。即文盲率与人均GDP存在相关性，文盲率与人均GDP负相关，但是-0.5<-0.449<0，选假设，即0

所以相关性较小。

8.以下为SPSS中方差分析的结果图，试对其进行分析。

从上图可知组间离差平方和为，组内离差平方和为，总离差平方和为，自由度为分别为：，组间均方和为组内均方和为，Sig.<0.05,拒绝原假设，接收备选假设，即平均亩产各不相同，且Between Groups>Within Groups的值，即品种对平均亩产有较大的影响。

9.根据下图说明此数据挖掘算法是什么，并说明图中各主要参数项的含义。

自下而上的聚合型层次聚类，采用最短距离法，amalgamation(融合，混合)计算欧式距离，对原始数据中变量1,3-4,6-8进行聚类，Casewise 对样本的智能处理，默认是在统计时不取该行数据。

10.聚类算法和分类算法有哪些区别？各自的目标是什么？

“聚类分析”往往预先不知道各分类集合的目标属性，只有通过其它已知属性按聚类算法得到分类之后，才去分析各分类的特征，归纳出目标属性。其方向是通过“聚”来得到分类。例如对银行客户的划分。

“分类分析”对于目标属性及其取值是已知的，其目标是在已知的数据集中去发现其它属性与目标属性的某种规则模型，这一模型要能对未知对象的目标属性进行准确预测。其方向是通过“分”来找到规则。

但二者又是有关联的，例如，可以在聚类识别了新的目标属性的基础上，在原数据集上增加新的目标属性；针对这一新的数据集，再用分类算法去找到基于已有发生推导出目标属性归属的分类规则，并用来对未知数据分类。

11.什么是K-means方法，请描述其用途及基本思想。

K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

其步骤为：

1) 在n 个数据中选取k 个作为凝聚点, 并且定义点与点之间的距离;

2) 其余 n-k 个点逐个进入, 每个点进入时归入与相应凝聚点距离最近的类中，每个点进入之后重新计算每一类的重心作为该类新的凝聚点;

3) 重复2)直至所有类的凝聚点均不再变化为止

12. 写出在决策树算法中熵和增益的计算定义式，并说明式中各变量的含义。

S 的熵(entropy)或者期望信息为:21()log n

i i i entropy S p p ==-∑，式中，i p 表示类i C 的概率。

根据A 划分的子集的熵或期望信息由下式给出：1

(,)()||m

i i i S entropy S A entropy S S ==∑

，式中，S i 表示

根据属性 A 划分的 S 的第i 个子集，|S|和|S i |分别表示S 和S i 中的样本数目。信息增益用来衡量熵的

期望减少值，因此，使用属性 A 对S 进行划分获得的信息增益为:(,)()(,)gain S A entropy S entropy S A =-。gain(S ，A)是指因为知道属性A 的值后导致的熵的期望压缩。

四、分析题（抄题干及分析，不用画图）

1. 下图是Excel 中得到的某市衣着类消费指数与消费总指数的回归分析结果图，请对此图所反映的回归

模型、拟合优度等信息进行分析。

2. 已知数据库D 中有9个事务（如下表示），设最小支持度为2，求出所有的频繁项集。另，设置信度

为70%，列出三个强规则。

由频繁项集产生强关联规则 confidence(A ? B)=P(B|A)=

_()

Support count A B Support count A ?

基于找出的频繁项集I={I1,I2,I5}可以产生的强关联规则： {I2,I1} ? I5, confidence=2/4=50% {I1,I5} ? I2, confidence=2/2=100% {I2,I5} ? I1, confidence=2/2=100% I1 ? {I2,I5}, confidence=2/6=100% I2 ? {I1,I5}, confidence=2/7=29% I5 ? {I1,I2}, confidence=2/2=100%

最小置信度阈值为70%,则只有2，3和最后一个规则可以输出，这些就是产生的强规则。

3. 已知如下数据集，目标分类属性为 buys_computer ，运用ID3算法求出该训练集在根节点的最佳分类。

首先计算该训练集的熵，根据熵公式，需知道各分类的概率， buys_computer= yes 的记录有9条，其概率为9/14, 记该集合为C 1

buys_computer= no 的记录有5条，其概率为5/14, 记该集合为C 2 229955

()log ()log ()0.94014141414

entropy S =-

-=位首先考察age 这一分类属性，需要知道按age 分类后的各子集的目标属性集的概率，

age 的youth 类有5个样本，其中有2 个属于C 1类，即buys_computer= yes ，3个属于C 2类，即buys_computer= no age 的middle_aged 类有4个样本，4 个属于C 1类，0个属于C 2类 age 的senior 类有5个样本，3 个属于C 1类，2个属于C 2类于是，有：

222222522334440053322

(,)(log log )(log log )(log log )0.694145555144444145555

entropy S age =

?--+--+--=位

因此，属性age 的增益为：gain(S, age) = entropy(S)－entropy(S, age) = 0.940－0.694=0.246位同理，可计算得：gain(S, income) = 0.029位gain(S, student) = 0.151位gain(S, credit_rating) = 0.048位可见，按属性 age 分类具有最高的增益，因此选择其为分枝属性。其分枝结果如下图示。

3. 已知三个病人五种参考症状的数据情况，计算各样本点之间的雅克比匹配系数；说明该参量的使用

使用雅克比系数，则两两之间的距离为

=0.22+2+12

==0.4

2+2+1

3==0.75

3+1d d d 甲乙甲丙乙丙二值变量之间的距离可以用匹配系数来描述。假定 xi 和 xj 取值情况如表3-1所示。 q 表示两个个体共有q 个性质同时取1,

r 表示i x 取 1,j x 取 0的性质共有 r 个, 其他依此类推

雅克比匹配系数：ij q

d q r s

雅克比匹配系数适合于这样的情况: 认为二值变量所取的两个值的地位不是完全对等的，人们往往只对其中一种取值感兴趣。

总要求

总体要求：

1）对数据集分析目的及过程进行简要描述 2）列出主要输入参数设置画面截图 3）列出主要输出结果，并进行必要的分析

4）11月9日前以电子文档形式发到教师邮箱tpgao-work@https://www.360docs.net/doc/94976388.html, ，邮件及作业文档标题为“2015DA 作业2+学号+姓名” 5）将方差分析、相关分析的四个题目都放在一个文档中

§1.1 方差分析部分要求（含两道题）

* 基于数据集“district and sale ”方差分析，以了解广告形式对销售额的影响要求：

参照课程讲授示例输出所有分析结果

* 基于文档“教改成绩”进行方差分析，要求分析教材、教法对成绩的影响

一、基于数据集“district and sale ”方差分析

* 基于数据集“district and sale ”方差分析，以了解广告形式对销售额的影响要求：

参照课程讲授示例输出所有分析结果

最后的数据分析结果如下：

Test of Homogeneity of Variances

销售额

Levene Statistic df1 df2 Sig.

.765 3 140 .515

这是方差分析的最主要结果。各参量的含义参照教材、课件。根据样本所计算出的Sig.值为0.000，该值小于0.01的显著性水平，所以样本所反映出的因素影响的差异性是高度显著的。

即，结合问题的背景，广告形式的不同对销售额有显著影响，这种差异是由广告形式的本质差别所导致的，而不是由于采样的随机误差所产生的。

§1.2 相关分析部分要求（含两道题）

一、“体重与血压”相关分析

* 基于“体重与血压”数据进行相关分析，计算Person相关系数并进行统计检验。

直接选择Weight 和Pressure 作为分析变量进行两变量相关分析。可以输出基本的描述统计量。

这是描述性统计结果的各变量均值及标准差。

这是相关分析结果。

从相关系数看，体重与血压的相关系数为－0.112，可见二者呈现负相关，且相关性很弱。

但从统计判断看，即看其实际计算出的显著性概率，为0.728，大于0.05的较高水平，所以从统计意义上，不能否定原假设，即认为变量之间不相关，所以从统计意义上，二变量是不相关的。

二、“居民收入与支出”相关分析

* 基于“居民收入与支出”，分析农村家庭纯收入X3与城镇居民家庭消费X1的相关性

由于这里有第三个变量，即城镇家庭收入，考虑到该变量可能带来的影响，需要进行偏相关分析。

为了解控制变量带来的影响，输出零阶相关分析矩阵以进行对照。

由分析结果知，在不考虑控制变量的情况下，农村家庭纯收入X3与城镇居民家庭消费X1的相关性在统计意义上高度显著，且相关系数与很高。

但在考虑控制变量的情况下，农村家庭纯收入X3与城镇居民家庭消费X1的相关性在统计意义上是不被支持的，相关系数也很低。