第六章多元统计分析答案

合集下载

(完整版)多元统计分析思考题答案

《多元统计分析》思考题答案记得老师课堂上说过考试内容不会超出这九道思考题，如下九道题题目中有错误的或不清楚的地方，欢迎大家指出、更改、补充。

1、简述信度分析答题提示：要答可靠度概念，可靠度度量，克朗巴哈α系数、拆半系数、单项与总体相关系数、稀释相关系数等（至少要答四个系数，至少要给出两个指标的公式）答：信度（Reliability ）即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。

信度指标多以相关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。

信度分析的方法主要有以下四种：1)、重测信度法这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相关系数。

重测信度属于稳定系数。

重测信度法特别适用于事实式问卷，如果没有突发事件导致被调查者的态度、意见突变，这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2)、复本信度法复本信度法是让同一组被调查者一次填答两份问卷复本，计算两个复本的相关系数。

复本信度属于等值系数。

复本信度法要求两个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到这种要求，因此采用这种方法者较少。

3)、折半信度法折半信度法是将调查项目分为两半，计算两半得分的相关系数，进而估计整个量表的信度。

折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。

在问卷调查中，态度测量最常见的形式是5级李克特（Likert ）量表。

进行折半信度分析时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数。

何晓群版—多元统计分析课后练习答案

计算：边远及少数民族聚居区社会经济发展水平的指标数据.xls
T 2 =9* (-2003.23 2.25 -1006.11 2.71 12.01)*s^-1* (-2003.23 2.25
-1006.11 2.71 12.01)’=9*50.11793817=451,06144353 F 统计量=45.2>6.2 拒绝零假设，边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。
零假设的拒绝区域 {（n-p）/[(n-1)*p]}*T 2 > Fp,np ( )
1/10*T 2 >F5,4(5) μ0=（ 6212.01 32.87 2972 9.5 15.78）’ 样本均值（4208.78 35.12 1965.89 12.21 27.79）’
（样本均值-μ0）’=(-2003.23 2.25 -1006.11 2.71
4、如果正态随机向量 X (X1, X2, X p ) 的协方差阵为对角阵，证明 X 的分量是相互独立的随机变量。
解：因为 X (X1, X2, X p ) 的密度函数为
f
(
x1
,
...,
x
p
)
1 2
p
Σ
1/
2
exp
1 2
(x
μ)Σ1(x
μ)
12
又由于
Σ
2 2
2 p
Σ
12
2 2
2 p
1
2 1
1
Σ 1
2 2
1
2 p
则 f (x1,..., xp )
1
ห้องสมุดไป่ตู้
2 1
p
1
1 2
Σ

多元统计分析课后练习答案复习进程

第1章多元正态分布1、在数据处理时，为什么通常要进行标准化处理？数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

2、欧氏距离与马氏距离的优缺点是什么？欧氏距离也称欧几里得度量、欧几里得度量，是一个通常采用的距离定义，它是在m 维空间中两个点之间的真实距离。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点：就大部分统计问题而言，欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当坐标表示测量值时，它们往往带有大小不等的随机波动，在这种情况下，合理的方法是对坐标加权，使变化较大的坐标比变化较小的坐标有较小的权系数，这就产生了各种距离。

当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待，这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点：夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

3、当变量X1和X2方向上的变差相等，且与互相独立时，采用欧氏距离与统计距离是否一致？统计距离区别于欧式距离，此距离要依赖样本的方差和协方差，能够体现各变量在变差大小上的不同，以及优势存在的相关性，还要求距离与各变量所用的单位无关。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

应用多元统计分析_课后答案

图 2.1
Descriptives 对话框
2.
单击 Options 按钮，打开 Options 子对话框。在对话框中选择 Mean 复选框，即计算样本均值向量，如图 2.2 所示。单击 Continue 按钮返回主对话框。
图 2.2 Options 子对话框 3. 单击 OK 按钮，执行操作。则在结果输出窗口中给出样本均值向量，如表 2.1，即样本均值向量为（35.3333，12.3333，17.1667，1.5250E2）。
2.5 解：依据题意，X= 57000 40200 21450 21900 45000 28350
′
15 16 12 8 15 8
27000 18750 12000 13200 21000 12000
144 36 381 190 138 26
′ E(X)= ∑6 α=1 x(α) = (35650,12.33,17325,152.5) n σ1 σ2 ρ2 (x1 −μ1 )2 σ2 1
+
σ2 1
(x2 −μ2 )2 σ2 2 )2
= = [
(x1 −μ1 )2 σ2 1 ρ(x1 −μ1 ) σ1
− −
2ρ(x1 −μ1 )(x2 −μ2 ) σ1 σ2 (x2 −μ2 ) 2 ] σ2
+
E( X ) μ
n→∞
lim E(
1 1 ��） = lim E( ��） = Σ n→∞ �� n−1
2.7 试证多元正态总体的样本均值向量 ̅) = E ( ΣX 证明： E(�� （α） ) = E (ΣX （α） ) =
n n 1 1 nμ n 1 n2
exp[−

多元统计分析陈钰芬课后答案

多元统计分析陈钰芬课后答案第1章多元正态分布1、在数据处理时，为什么通常要进行标准化处理？第1章多元正态分布1、在数据处理时，为什么通常要进行标准化处理？数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z标准化。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点：就大部分统计问题而言，欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待，这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点：夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

(完整版)多元统计分析课后练习答案

第1章多元正态分布1、在数据处理时，为什么通常要进行标准化处理？数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是0-1标准化和Z 标准化。

在二维和三维空间中的欧氏距离的就是两点之间的距离。

缺点：就大部分统计问题而言，欧氏距离是不能令人满意的。

每个坐标对欧氏距离的贡献是同等的。

当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。

它将样品的不同属性之间的差别等同看待，这一点有时不能满足实际要求。

没有考虑到总体变异对距离远近的影响。

马氏距离表示数据的协方差距离。

优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点：夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。

多元统计分析习题与答案

多元统计分析习题与答案多元统计分析是一种在社会科学研究中广泛应用的方法，它通过同时考虑多个变量之间的关系，帮助研究者更全面地理解和解释现象。

在本文中，我将分享一些多元统计分析的习题和答案，希望能够帮助读者更好地掌握这一方法。

习题一：相关分析假设你正在研究一个学生的学习成绩和他们每天花在学习上的时间之间的关系。

你收集了100个学生的数据，学习成绩用分数表示，学习时间用小时表示。

以下是你的数据：学习成绩（X）：75, 80, 85, 90, 95, 70, 65, 60, 55, 50学习时间（Y）：5, 6, 7, 8, 9, 4, 3, 2, 1, 0请计算学习成绩和学习时间之间的相关系数，并解释其含义。

答案一：首先，我们需要计算学习成绩和学习时间之间的协方差和标准差。

根据公式，协方差可以通过以下公式计算：协方差= Σ((X - X平均) * (Y - Y平均)) / (n - 1)其中，X和Y分别表示学习成绩和学习时间，X平均和Y平均表示它们的平均值，n表示样本数量。

标准差可以通过以下公式计算：标准差= √(Σ(X - X平均)² / (n - 1))根据以上公式，我们可以得出学习成绩和学习时间之间的协方差为-22.5，标准差分别为18.03和2.87。

然后，我们可以通过以下公式计算相关系数：相关系数 = 协方差 / (X标准差 * Y标准差)根据以上公式，我们可以得出相关系数为-0.93。

由于相关系数接近于-1，可以得出结论：学习成绩和学习时间之间存在强烈的负相关关系，即学习时间越长，学习成绩越低。

习题二：多元线性回归假设你正在研究一个人的身高（X1）、体重（X2）和年龄（X3）对其收入（Y）的影响。

你收集了50个人的数据，以下是你的数据：身高（X1）：160, 165, 170, 175, 180, 185, 190, 195, 200, 205体重（X2）：50, 55, 60, 65, 70, 75, 80, 85, 90, 95年龄（X3）：20, 25, 30, 35, 40, 45, 50, 55, 60, 65收入（Y）：5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500, 9000, 9500请利用多元线性回归分析，建立一个预测人的收入的模型，并解释模型的结果。

多元统计分析李高荣课后答案

多元统计分析李高荣课后答案1、如果对某公司在一个城市中的各个营业点按彼此之间的路程远近来进行聚类，则最适合采用的距离是A、欧氏距离B、绝对值距离C、马氏距离D、各变量标准化之后的欧氏距离答案：绝对值距离2、不适合用于对变量聚类的方法有A、最短距离法B、最长距离法C、类平均法D、k均值法答案：k 均值法3、容易产生链接倾向，不适合对分离得很差的群体进行聚类的系统聚类法有A、最短距离法B、最长距离法C、类平均法D、重心法E、离差平方和法答案：最短距离法4、大的类之间不易合并，而小的类之间易于合并的系统聚类法有A、最短距离法B、最长距离法C、类平均法D、重心法E、离差平方和法答案：离差平方和法5、R型聚类分析的分类对象是样品。

正确错误答案：错误6、距离和相似系数的定义与变量的尺度无关。

正确错误答案：错误7、在聚类分析中，可以采用只满足非负性和对称性而不满足三角不等式的“距离”。

正确错误答案：正确8、所有的系统聚类法都满足单调性。

正确错误答案：错误9、k均值法的聚类结果与初始凝聚点的选择无关。

答案：错10、k均值法的类个数需事先指定。

答案：错11、设x和y是两个随机向量，则x和y的协差阵与y和x的协差阵A、相等B、互为转置C、没有关系D、不相等，但阶数一定相同答案：互为转置12、在实际问题中，我们实际所使用的判别规则一般是A、从总体出发得到的B、从样本出发得到的C、尽可能地从总体出发得到D、时常从总体出发得到，也时常从样本出发得到答案：从样本出发得到的13、在样本容量n不是很大的情形下，以下一般最能给出好的误判概率估计值的非参数方法是A、回代法B、划分样本C、交叉验证法D、正态假定下误判概率的估计答案：交叉验证法14、以下哪种系统聚类法的类与类之间的距离定义不止一种。

A、最短距离法B、最长距离法C、类平均法D、重心法E、离差平方和法答案：类平均法15，以下哪种系统聚类法不具有单调性。

A、最短距离法B、最长距离法C、类平均法D、重心法E、离差平方和法答案：重心法16、聚类变量个数为多少时，一般最不建议使用系统聚类法等正规聚类方法直接进行聚类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

6.1 试述主成分分析的基本思想。

答：我们处理的问题多是多指标变量问题，由于多个变量之间往往存在着一定程度的相关性，人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。

当第一个组合不能提取更多信息时，再考虑第二个线性组合。

继续这个过程，直到提取的信息与原指标差不多时为止。

这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处？
答：一般说来，在主成分分析适用的场合，用较少的主成分就可以得到较多的信息量。

以各个主成分为分量，就得到一个更低维的随机向量；主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。

6.3 简述主成分分析中累积贡献率的具体含义。

答：主成分分析把p 个原始变量12,,,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量
12,,,p Y Y Y 的方差之和1
p
k k λ=∑。

主成分分析的目的是减少变量的个数，所以一般不会使用所有p 个主成分的，忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。

这里我们
称1
p
k k k k ϕλλ==∑ 为第k 个主成分k Y 的贡献率。

第一主成分的贡献率最大，这表明11Y T '
=X
综合原始变量12,,,p X X X 的能力最强，而23,,,p Y Y Y 的综合能力依次递减。

若只取
()m p <个主成分，则称1
1
p
m
m k
k
k k ψλλ
===∑∑ 为主成分1,,m Y Y 的累计贡献率，累计贡献率
表明1,,m Y Y 综合12,,,p X X X 的能力。

通常取m ，使得累计贡献率达到一个较高的百分数（如85％以上）。

6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确？说明理由。

答：这个说法是正确的。

即原变量方差之和等于新的变量的方差之和
6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

答：从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。

从协方差矩阵出发的，其结果受变量单位的影响。

主成分倾向于多归纳方差大的变量的信息，对于方差小的变量就可能体现得不够，也存在“大数吃小数”的问题。

实际表明，这种差异有时很大。

我们认为，如果各指标之间的数量级相差悬殊，特别是各指标有不同的物理量纲的话，较为合理的做法是使用R 代替∑。

对于研究经济问题所涉及的变量单位大都不统一，采用R 代替∑后，可以看作是用标准化的数据做分析，这样使得主成分有现实经济意义，不仅便于剖析实际问题，又可以避免突出数值大的变量。

6.6 已知X=()’的协差阵为试进行主成分分析。

解：=0
计算得
当时，
同理，计算得
时，
易知相互正交
单位化向量得，
,
综上所述，
第一主成分为
第二主成分为
第三主成分为
6.7 设X=()’的协方差阵(p为
, 0<p<1
证明：为最大特征根，其对应的主成分为。

证明：
=
=
,
为最大特征根
当时，
=
所以，
6.8利用主成分分析法，综合评价六个工业行业的经济效益指标。

解:令资产总计为X1，固定资产净值平均余额为X2，产品销售收入为X3，利润总额为X4，用SPSS 对这六个行业进行主成分分析的方法如下：
1. 在SPSS 窗口中选择Analyze →Data Reduction →Factor 菜单项，调出因子分析主界
面，并将变量15X X 移入Variables 框中，其他均保持系统默认选项，单击OK 按钮，执行因子分析过程（关于因子分子在SPSS 中实现的详细过程，参见7.7）。

得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。

第一个因子就可以解释86.5%
表6.1 特征根和方差贡献率表
表6.2 因子载荷阵
2.将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口，命名为a1。

点击菜单项
中的Transform→Compute，调出Compute variable对话框，在对话框中输入等式：z1=a1 / SQRT(3.46)，计算第一个特征向量。

点击OK按钮，即可在数据编辑窗口中
得到以z1为变量名的第一特征向量。

根据表6.3
X
X
Y1X
.0
=
509
+
+
X+
.0
.0
413
4
3
530
.0
537
2
1
3.再次使用Compute命令，调出Compute variable对话框，在对话框中输入等式：
y1x
.0
509
4
x
x
=
+
+
x+
1
*
.0
.0
413
*
*
3
53
*
537
.0
2
根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好，煤炭开采和选业其次，接着依次是黑色金属、非金属、有色金属和其他采矿业。

6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量，试用主成分方法对
解:令粮食为X1，蔬菜为x2，食油为x3，猪牛羊肉为x4，家禽为x5，蛋类及其制品为x6，水产品为x7，食糠为x8，酒为x9，用SPSS进行主成分分析的具体方法参见6.8，分析结果如下：
表6.4 特征根和方差贡献率表
表6.5 因子载荷阵
表6.6 特征向量矩阵
根据表6.6
X
X
X
X
X
.0
X
1
001
.0
1X
-
+
+
+
=
054
+
X
Y+
+
X
+
7
501
.0
6
2
388
9
141
.0
8
329
.0
.0
005
.0
.0
456
3
4
51
5
.0
X
X
X
X
X
1
55
.0
2X
X
X
=
+
-
-
.0
-
-
Y+
+
+
+
X
.0
7
119
.0
6
.0
333
9
493
.0
8
408
5
3
185
.0
2
.0
076
142
.0
4
32
9
02.08130.07112.06269.05055.04167.03698.02617.01005.03X X X X X X X X X Y --++-+++-=分别计算出以上三项后，利用公式321321Y Y Y Y ∑∑∑++=λ
λλλ
λλ得到综合得分并排序如下表：
最后的分类可以根据最终得分Y 的值来划分，由于没有给出具体的分类标准，具体分类结果根据各人的主观意愿可以有多种答案。

6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据，利用主成分分析法对这些地区进行分类。

解：用SPSS 进行主成分分析的具体方法参见6.8，分析结果如下：
表6.7 特征根和方差贡献率表
表6.8 因子载荷阵
根据表6.6得主成分的表达式：
939.0839.0731.064.054.0431.0314.0228.0129.01X X X X X X X X X Y +++-++++= 924.0812.0739.0627.052.0437.0329.0248.0147.02X X X X X X X X X Y -++----+=
分别计算出以上三项后，利用公式2121Y Y Y ∑∑+=
λ
λ
λλ得到综合得分并排序如下表：
最后的分类可以根据最终得分Y的值来划分，由于没有给出具体的分类标准，具体分类结果根据各人的主观意愿可以有多种答案。