13级信息与计算《多元统计分析》练习题
多元统计分析
多元统计分析
随着社会的发展和科学技术的不断进步,多元统计分析已经成为了现代统计学中非常重要的研究领域。多元统计分析是使用多个变量进行数据分析的一种统计学技术,可以连接各个领域的研究成果和应用。
多元统计分析技术通常被用于研究多个变量之间的关系或变异性质。它可以在大量的样本中进行高效的数据采集和信息整合,使研究者可以清晰地理解各变量之间的关系,进而提高研究和实践的效率。下面我们主要介绍多元统计分析中最常见的五种技术:主成分分析、聚类分析、判别分析、因子分析和结构方程模型。
1. 主成分分析(PCA)
PCA通常被用来压缩或降维多变量的数据。该技术处理原始
数据,将其转换为新变量,其数量比原始变量小。主成分分析的目标是降低数据维度,而不是丢失大部分信息。通过主成分分析,各变量之间的一个线性组合,可以在一个新的坐标系中描绘出数据的模式和差异,使得研究者可以从各种角度观察数据集的特征。主成分分析能够帮助研究者快速掌握大量指标之间的关系,然后选择性地提取相关的信息。
2. 聚类分析(CA)
聚类分析旨在寻找数据集内部指标之间的相似性或差异。它使用类似度测量方法将数据分组或聚类,从而确定研究对象之间
的类别和关系。聚类分析将研究对象之间的共同点组合在一起,并将其与其他成组对象区分开来,这有助于识别数据集中有哪些对象或变量比较相关。聚类分析得出的结果可以提供研究者对不同类别进行描述和探究的机会。
3. 判别分析(DA)
判别分析是一种监督学习方法,其目标是在给定的类别下找到更好的判别因子或变量。在判别分析中,研究者需要指示哪些变量能够最好地将不同组别区分开来。在分类问题中,判别分析是非常有用的,可以快速判断新观察结果所属的类别。
应用多元统计分析课后答案-朱建平版
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个
p 维的函
数,而边际分布讨论是
12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设1
2()X X '的均值向量为()1
2μμ'=μ,协方差矩阵为21
122212σσσσ⎛⎫ ⎪
⎝⎭
,则其联合分布密度函数为
1/2
12
2
2112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪
'=---⎨⎬ ⎪
⎪⎝⎭
⎝⎭⎪⎪⎩⎭
x x μx μ。 2.3已知随机向量1
2()X X '的联合密度函数为
其中1a
x b ≤≤,2c x d ≤≤。求
(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数;
(3)判断
1X 和2X 是否相互独立。
(1)解:随机变量
1X 和2X 的边缘密度函数、均值和方差;
所以 由于1X 服从均匀分布,则均值为2b a
+,方差为
()2
12
b a -。
同理,由于
2X 服从均匀分布
[]2121,()0
x x c d f x d c
⎧∈⎪
=-⎨⎪⎩其它
,则均值为2d c
+,方差为
()2
12
d c -。
(2)解:随机变量1X 和2X 的协方差和相关系数;
(3)解:判断
1X 和2X 是否相互独立。
1X 和2X 由于121212(,)()()x x f x x f x f x ≠,所以不独立。
(完整word版)多元统计分析期末试题及答案
22121212121
~(,),(,),(,),,
1X N X x x x x x x ρμμμμσρ
⎛⎫
∑==∑=
⎪⎝⎭
+-1、设其中则Cov(,)=____.
10
31
2~(,),1,,10,()()_________i i i i X N i W X X μμμ='
∑=--∑L 、设则=服从。
()1
2
34
433,4
92,32
16___________________
X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝
⎭
=∑、设随机向量且协方差矩阵则它的相关矩阵
4、
__________, __________,
________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
12332313116421(,,)~(,),(1,0,2),441,
2142X x x x N x x x x x μμ-⎛⎫
⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭
-⎛⎫
+ ⎪⎝⎭
、设其中试判断与是否独立?
(),
1
2
3设X=x x x 的相关系数矩阵通过因子分析分解为
211X h =
的共性方差111X σ=
的方差21X g =
1公因子f 对的贡献1213
30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320
13
R ⎛
⎫
- ⎪⎛⎫⎛⎫
多元统计分析期末复习试题
第一章:
多元统计分析研究的容(5点)
1、简化数据结构(主成分分析)
2、分类与判别(聚类分析、判别分析)
3、变量间的相互关系(典型相关分析、多元回归分析)
4、多维数据的统计推断
5、多元统计分析的理论基础
第二三章:
二、多维随机变量的数字特征
1、随机向量的数字特征
随机向量X 均值向量:
随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵:
2、均值向量协方差矩阵的性质
(1).设X ,Y 为随机向量,A ,B 为常数矩阵
E (AX )=AE (X );
E (AXB )=AE (X )B;
D(AX)=AD(X)A ’;
Cov(AX,BY)=ACov(X,Y)B ’;
)'
,...,,(),,,(2121P p EX EX EX EX μμμ='= )'
)((),cov(EY Y EX X E Y X --=q p ij r Y X ⨯=)(),(ρ
(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立.
(3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板
三、多元正态分布的参数估计
2、多元正态分布的性质
(1).若 ,则E(X)= ,D(X)= .
特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量,
AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立.
(4).多元正态分布的不相关与独立等价.
均值向量和协方差估计、均值分析和协差阵检验
表3.4 部分变量取对数后服从正态分布的检验结果
从3.4可以看出,“总资产贡献率的对数”这个变量的P值为0.07,“流动资产周转率的对数”这个变量的P值为0.05,均小于显著性水平,说明其对数形式服从正态分布。
(2)多元正态分布的均值向量的假设检验。
4.对一份给出的数据进行编码和变量定义
5.按要求录入数据
6.练习基本的数据修改编辑方法
7.检验多元总体的均值向量和协方差阵
8.保存数据文件
9.关闭SPSS,关机。
四、实验项目及结果
1、多元正态总体均值向量和协差阵的最大似然估计分别是样本均值向量和样本协差阵。利用SPSS软件可以迅速地计算出多元分布的样本均值向量、样本离差阵和样本协差阵。下面通过一个实例来说明多元正态分布参数估计的SPSS实现过程。这里以海峡西岸经济区的20个城市为研究对象,选取海峡西岸经济区的主要经济指标进行均值向量和协差阵的估计。主要经济指标包括:地区生产总值、固定资产投资额、社会消费品零售总额、货物进出口总额、实际利用外商直接投资,规模以上工业总产值以及公共财政预算收入等7个指标。表2.2数据来源于2013年《中国城市统计年鉴》和2013年《中国区域经济统计年鉴》。
值得注意的是,这里给出的样本协差阵是根据s/n-1形式计算的,是总体协差阵的无偏估计。如果求极大似然估计量,需要用该表格中的Covariance的数值乘以(n-1),然后再除以n,即得到根据s/n形式计算的样本协差阵。
厦门大学《应用多元统计分析》第06章__主成分分析
我们下面将借助投影寻踪(Projection Pursuit)的思想来解决这 一问题。首先应该注意到,使得 D(Yi ) 达到最大的线性组合,显 然用常数乘以 Ti 后, D(Yi ) 也随之增大,为了消除这种不确定性, 不妨假设 Ti 满足 TiTi 1或者 T 1 。那么,问题可以更加明确。
二、主成分的方差贡献率
由主成分的性质 2 可以看出,主成分分析把 p 个原始变量
X1, X2 , , X p 的总方差 tr(Σ) 分解成了 p 个相互独立的
p
变量 Y1,Y2 , ,Yp 的方差之和 k 。主成分分析的目的是 k 1
减少变量的个数,所以一般不会使用所有 p 个主成分的,
忽略一些带有较小方差的主成分将不会给总方差带来太
i 1
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(6.20) (6.21)
(Yk , Xi )
k ii
tki
并称之为因子负荷量(或因子载荷量)。
(6.22)
证明:事实上
(Yk , Xi )
Cov(Yk , Xi ) Cov(TkX, eiX)
D(Yk )D(Xi )
k ii
其中的 ei (0, , 0,1, 0, , 0) ,它是除第 i 个元素为 1 外其他元
2 (T2 , , ) T2ΣT2 (T2T2 1) 2 (T1T2 )
多元统计分析(A)
2010-2011学年第一学期
信息与计算专业《多元统计分析》(课程)试卷
一、计算(每小题8+10+6分,共24分)
1、(共2+6=8分)设X ~),(3∑μN ,其中
),,(321'=X X X X ,)2,0,1('=μ,⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=∑221241111
试求:1)计算1X 和2X 的相关系数
2) ⎪⎪⎭
⎫
⎝⎛++=⎪⎪⎭⎫ ⎝⎛=322121X X X X Y Y Y 的分布。
2、(共5+5=10分)、设一个容量为n=4的随机样本取自二维正态总体),(2∑μN ,其
数据矩阵为⎥⎥⎥⎥⎦
⎤⎢⎢⎢
⎢⎣⎡=40
31-22
31-X , 1)计算样本均值x ,样本自方差2S
2). 对]2,2[
='μ计算统计量2
T 的值,并将其变为F 统计量,同时在显著水平为0.05下检验0μμ=。(19)05.0(,5.199)05.0(2,21,2==F F )
3、(共6分)已知五个样品的之间的距离矩阵如下:D=⎥⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢
⎢⎣⎡082101109360
73060543215
4321 类间距采用最长距离法,将五个对象分为3类。
二、简答(每小题5分,共20分)
1、马氏距离相对欧式距离有什么优点。
2、快速聚类分析的步骤。
3、主成分分析和因子分析的区别。
4、简述典型相关分析模型(用数学形式表示,并解释每个符号的意义)。
三、(每小题6+4+4分,共14分) 为了为了考虑鸡的头(X)和腿(Y)的关系,头观察了两个指标颅骨宽(X1)和颅骨长(X2),腿观察了股骨
长(Y1)和胫骨长(Y2),利用spss得到以下结果:
[统计学]多元统计分析(何晓群 中国人民大学)5第五章主成分分析
2019/1/20
中国人民大学六西格玛质量管理研究中心
6
目录 上页 下页 返回 结束
§5.1.2 主成分分析的基本理论
设对某一事物的研究涉及个 p 指标,分别用 X 1 , X 2 ,, X P 表 示,这个 p 指标构成的 p 维随机向量为 X ( X 1 , X 2 ,, X p )'。设随 机向量 X 的均值为 μ ,协方差矩阵为 Σ 。 对 X 进行线性变换,可以形成新的综合变量,用 Y 表示, 也就是说,新的综合变量可以由原来的变量线性表示,即满 足下式:
1 , 2 为相应的标准正交特 又令1 2 0为Σ 的特征值, 征向量. 1 0 Λ P ( 1 , 2 ) 则 P 为正交阵, 0 , 有:
2
1 1 , P Λ P' P ΛP '
因此有:d 2 (X μ)' Σ1 (X μ) X' Σ1X
2019/1/20
中国人民大学六西格玛质量管理研究中心
11
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
设有 N 个样品,每个样品有两个观测变量 X 1 , X 2 ,这样, N 个样品点散布的情况如 在由变量 X 1 , X 2 组成的坐标空间中, 带状,见图5-1。
图5-1
2019/1/20
信息技术与信息安全考试答案
信息技术与信息安全考试答案
【篇一:信息技术与信息安全公需科目考试(答案全部
正确)】
1.(2分)负责全球域名管理的根服务器共有多少个?()
a.12 个
b.13 个
c.11 个
d.10 个
你的答案:abcd得分:2分
2.(2分)统计数据表明,网络和信息系统最大的人为安全威胁来自于
a.第三方人员
b.恶意竞争对手
c.互联网黑客
d.内部人员
你的答案:abcd得分:2分
3.(2分)政府系统信息安全检查由()牵头组织对政府信息系统开展的联合检查。
a.安全部门
b.公安部门
c.信息化主管部门
d.保密部门
你的答案:abcd得分:2分
4.(2分)目前,针对计算机信息系统及网络的恶意程序正逐年成倍增长,其中最为严重的是()。
a. 尸网络
b.系统漏洞
c.蠕虫病毒
d.木马病毒
你的答案:abcd得分:2分
5.(2分)()已成为北斗卫星导航系统民用规模最大的行业。
a.海洋渔业
b.电信
c.交通运输
d.水利
你的答案:abcd得分:2分
6.(2分)不属于被动攻击的是()。
a.窃听攻击
b.截获并修改正在传输的数据信息
c.欺骗攻击
d.拒绝服务攻击
你的答案:abcd得分:0分正确答案是b
7.(2分)负责对计算机系统的资源进行管理的核心是()。
a.终端设备
b.中央处理器
c.存储设备
d.操作系统
你的答案:abcd得分:2分
8.(2分)万维网是()。
a.以上答案都不对
b.有许多计算机组成的网络
c.互联网
d.由许多互相链接的超文本组成的信息系统
你的答案:abcd得分:2分
9.(2分)要安全浏览网页,不应该()。
a.定期清理浏览器cookies
多元统计分析课后练习答案
第1章 多元正态分布
1、在数据处理时,为什么通常要进行标准化处理
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间;在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;其中最典型的就是0-1标准化和Z 标准化;
2、欧氏距离与马氏距离的优缺点是什么
欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离;在二维和三维空间中的欧氏距离的就是两点之间的距离;
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的;每个坐标对欧氏距离的贡献是同等的;当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离;当各个分量为不同性质的量时,“距离”的大小与指标的单位有关;它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求;没有考虑到总体变异对距离远近的影响;
马氏距离表示数据的协方差距离;为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离;
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰;
缺点:夸大了变化微小的变量的作用;受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出;
《多元统计分析》课程教学大纲
多元统计分析
Mu1tivariateS⅛atisticaIAna1ysis
一、课程基本信息
学时:40
学分:2.5
考核方式:闭卷考试,平时成绩占30%,期末考试成绩占70%。
中文简介:随着电子计算机的普及和软件的发展,信息储存手段以及数据信息的成倍增长,多元分析的方法己广泛运用自然科学和社会科学的各个领域。国内国外实际应用中卓有成效的成果,已证明了多元分析方法是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。多元分析是现代统计学中重要而活跃的学科。
二、教学目的与要求
《多元统计》为专业必修的技术课程。通过本课程的学习,使学生系统地了解多元统计分析的基本概念和基本原理,掌握一些常用的多元统计思想和统计方法,学会处理常见的多元统计问题。
三、教学方法与手段
1、教学方法
(一)课堂讲授
本课程是一门应用性较强的专业理论基础课程,每章在讲述理论的同时注意相应典型问题背景,尽量联系生产生活中的实际例子,重视模型的建立,每章内容结束后借助案例分析帮助理解模型的建立和方法的应用,重视培养学生解决实际问题的能力和应用计算机求解的计算能力。
精心设计多媒体电子教案,充分、恰当使用多媒体教学手段,算法步骤呈现出直观、形象、动态的特点,帮助学生更好地理解课程内容,利用课件呈现足够的案例及其建模、分析求解过程,开阔了学生的思路。
(二)课外作业
课外作业的内容选择基于对基本理论的理解和熟练相关算法,培养建模能力和分析计算能力,平均每次完成课后2~4道题习题。
(三)考试
考试采用闭卷的形式,考试范围应涵盖所有讲授内容,主要考查学生对基本概念,基本理论的理解,相关计算掌握程度,建模能力及综合运用能力。题型由选择题和填空题计算题构成。
应用多元统计分析试题及答案
一、填空题:
1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法.
2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著.
3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。
4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。
5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。
6、若
()
(,), P
x N αμα
∑=1,2,3….n且相互独立,则样本均值向量x服从的分布
为_x~N(μ,Σ/n)_。
二、简答
1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、简述相应分析的基本思想。
相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素 A 和因素B具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。
多元统计分析聚类分析
D(0)
表1
D(0) G1={X1}G2={X2}G3={X3}G4={X4}G5={X5} G1={X1} 0
G2={X2} 1
G3={X3} 2.5
0
1.5 0
G4={X4} 6
G5={X5} 8
5
7
3.5
5.5
0
2 0
D(1)
表2
D(1) G6={G1, G2} G3={X3} G4={X4} G5={X5} G6 0 1.5 5 7 0 3.5 5.5 0 2 0 G3 G4 G5
for individuals)
(2)R型(即变量或指标的聚类 clustering for variables)
1、对样品分类(Q型)
常用的距离与相似系数的定义
样本资料矩阵
样本资料矩阵
(1)距离
假使每个样品有p个变量,则每个样品
都可以看成p维空间中的一个点,n个
样品就是p维空间中的n个点,则第i样
(一)最短距离法 (single linkage,nearest neighbor)
x11•
x12•
d12
x21•
x22•
类类间:两类间两两
样品距离最短
递推公式
例1
设抽取五个样品,每个样品只侧一个指标,他
们是 1,2 , 3.5 , 7 , 9,试用最短距离法对五个
(完整word版)多元统计分析习题
1.已知n=4,p=3的一个样本数据阵
143X =626,X S 833534ρ
⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥
⎢⎥⎣⎦
计算,,v,
2.已知2
35142
411
300103
2
2X ⎡⎤⎢⎥⎢⎥⎢⎥=⎢
⎥
⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦
,用最短、最长、中间距离法聚类,并画出聚类树形图
3.已知52=22⎡⎤
∑⎢⎥⎣⎦
,要求: ①求特征根1
2λλ, ②求特征向量12μμ,
③构造主成分
12
,F F
④计算1F 的方差Var(F 1)和2F 的方差Var(F 2)
⑤计算()()()()111221
22,,,,;;;F X F X F X F X ρρρρ
4.设有12,G G 两个总体,从中分别抽取容量为3的样品如下:
要求:(1)样本的均值向量()
()12
,X
X 及离差阵12,S S
(2)假定()()1
2
==∑∑∑,用12,S S 联合估计∑
(3)已知待判样品(27)X T
=,分别用距离判别法、Fisher 判别
法、Bayes 判别法判定X 的归属。
5.设111=n 个和122=n 个的观测值分别取自两个随机变量1X 和
2X 。假定这两个变量服从二元正态分布,且有相同的协方差阵。
样本均值向量和联合协方差阵为:
⎥⎦⎤
⎢⎣⎡--=111X ,⎥⎦⎤⎢⎣⎡=122X ,⎥⎦⎤⎢⎣⎡--=∑8.41.11.13.7。新样品⎥⎦
⎤⎢⎣⎡=21X ,
要求用Bayes 法和Fisher 进行判别分析。
6.已知2变量协方差阵⎥⎦
⎤
⎢
⎣⎡=∑3224
,要求:(1)求∑的特征根及其对应的单位特征向量;(2)组建主成分1F 、2F ;(3)验证
多元统计分析之因子分析
如果大部分变量的共同度都在0.8上,则说明提 取出的公因子已经基本反映了各原始变量80%以上 的信息,因子分析效果理想。
(5)公因子的方差贡献:
公因子Fj 的方差贡献定义为因子载荷矩阵中第 j 列元
素的平方和,即:
S = a j
n
i1
2 ij
(i=1,2,3,……k)
它所反映的是该因子对所有原始变量总方差的解释 能力,其值越大,说明该因子的重要性越高。
根据变量间相关性的大小把变量分组,使得同 组内的变量之间的相关性(共性)较高,并用一个 公 共 因子来代表这个组的变量,而不同组的变量相 关性较低(个性)。
因子分析将每个原始变量分解成两部分因素,一 部分是由所有变量共同具有的少数几个公共因子组 成的,另一部分是每个变量独自具有的因素,即特 殊因子。
多元统计分析之因子分析
引言
事物的表现是多方面的,事物之间的相互作用也 是交叉重叠和具有层次性的,所以我们期望对事物 进行准确描述的时候总会陷入一种两难:一方面, 对事物的各种表现的观测越全面,对事物的认识就 越准确和越完整;另一方面,对事物的观测越全面 ,得到的描述变量就越多,对事物的特性的表述却 变得更加困难了!
因子个数的确定
根据特征值确定因子数:一般选取特征值大于1 的公因子,因为如果特征值小于1,说明该公因子的 解释力度太弱,还比不上直接引入一个原变量的平 均解释力度大。但是这一点在因子分析中并不是绝 对的,在实际应用中,可以将累计贡献率、特征值 大小与碎石图等综合起来考虑,必要时也可以保留 特征值小于1,但是在专业上有明确含义的公因子。
多元统计分析考试 (2)
判断:
1对2对3对4对5错
6对应分析是否可降维(对)
7 数据的计量尺度:定类尺度,定序尺度,定距尺度,定比尺度
1.应用统计学中的数据可以不是数值。(×)
2.相关系数等于零,表明变量之间不存在任何关系。(√ )
3.双因素方差分析主要用于检验两个总体方差是否相等。(√ )
4.环比增长速度的连乘积等于相应时期的定基增长速度。(×)
5.线性回归分析中,可决系数R2是对回归模型拟合程度的评价。(√ )
6.加权平均数指数是加权综合指数的一种变形,它们具有相同的权数。(√ )
7.在假设检验中,给定的显著性水平α是在原假设为真的条件下,拒绝原假设的概率。(×)
8.在抽样调查中,允许误差也称极限误差,是抽样误差的最大值。(×)
9.若样本容量确定,则假设检验中的两类错误不能同时减少。(√ )
10.如果一组数据的众数大于中位数,且中位数又大于算术平均数,则这组数据的偏态系数小于0。(√ )
简答:
一、数据的清洗技术:
答案一:
(1)解决缺失值:均值替换法、个案剔除法、多重替换法、热卡填充法、回归替换法。
(2)错误值:偏差分析,识别不遵守分布或回归方程的值。
(3)重复记录:合半、清除
(4)不一致:可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,使数据保持一致。
答案二:主要为下一步数据分析做进一步的准备,最终将数据清洗为满足分析需求的具体数据集。期间主要内容包括:
(1)数据集的预先分析:对数据进行必要的分析,如数据分组、排序、分布图、平均数、标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013级信息与计算《多元统计分析》练习题
1.已知12x X x ⎛⎫= ⎪⎝⎭的密度函数为()221212121211(,)exp 2222146522f x x x x x x x x π⎧⎫=-++--+⎨⎬⎩⎭
试求X 的均值向量和协方差阵。
2.1233231311642(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫
⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭
-⎛⎫+ ⎪⎝⎭
设其中试判断与是否独立?
3.设(),p X N μ∑,p p A ⨯为对称阵,试证明
(1)()E XX μμ''=∑+ (2)()()E X AX tr A A μμ''=∑+
(2) 设,A B 为矩阵,证明:
cov(,)cov(,)AX BY A X Y B '= ()()D A X A D X A
'= 4.已知 123(,,)X x x x '=的协方差阵为:
5
232
30302⎛⎫ ⎪∑= ⎪ ⎪⎝⎭
求(1)123var(2)x x x -+(2)设1122123y ,x x y x x x =+=++求12cov(y ,y ) 5. 123(,,)X x x x '=的协方差阵为:
的协方差阵为:30424394024060⎛⎫ ⎪∑= ⎪ ⎪⎝⎭
求(1)控制一个变量其余两个变量之间的偏相关系数,
(2)1x 对23(,)x x '的全相关系数。
6.设随机向量有密度函数 223122212()2(,)(2)()x
y f x y x y e π---+=+,
证明:相关系数(,)0x y ρ=,但,x y 不独立
7.设有总体(),p X N μ∑,设()1(,,)i i i p X x x '=,(1,2,,)i n =为元正态总体的简单随机样本,试求,μ∑的极大似然估计。
8.设()()1,,q X x x ααα=,1,,N α=是来自参数为'1(,,)q B b b =及n 的多项式分布的随机样本,试求B 的极大似然估计量。
9.人的出汗多少与人体内钠和钾的含量有一定关系,今测量了20名健康成年女性的出汗量()钠的含量和钾的含量,由样本值计算得
(4.64,45.4,9.965)X =及样本离差阵的逆阵
10.030850.001160.013580.001160.000310.000080.013580.000080.02115L --⎛⎫ ⎪=- ⎪ ⎪⎝⎭
试检验00:(4,50,10)H μμ==。
10.设抽取六个样品,每个样品只测了两个指标,它们是
{}{}{}{}{}{}1,1.5,0.5,1,1.2,1.7,2,0,3,5,2.5,2.0 试用最短距离法和最长距离法对六个样品进行聚类(定义样品之间距离采用绝对距离);要求:(1)写出聚类过程(2)画出树形图 (3)写出聚类为两类的聚类结果。
11.下面是5个样品两两之间的距离阵
(0)0406901710063580D ⎛⎫ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭
试用最长距离法作系统聚类,并作出谱系聚类图。 12. 设三个总体123,,G G G 的分布分别为:222(2,(0.5)),(0,2),(3,1)N N N 试问样品 2.5x =应判为哪一类?
(1)、按距离判别
(2)、按Bayes 判别准则(12313q q q ===,1(|)0
i j L j i i j
≠⎧=⎨=⎩) 13.设随机向量123(,,)T X X X X = 的协方差阵为
5
000
21012⎛⎫ ⎪∑= ⎪ ⎪⎝⎭
试求:(1)累计贡献率的主成分。
(2)各主成分的方差
(3)各主成分之间的相关系数
14.设随机向量123(,,)T X X X X =的协方差阵为(0)∑∑≥ ,设随机向量123(,,)T Y Y Y Y =的协方差阵为2I σ∑+ ,其中20σ> 为常数,I 为单位阵,证明P X '是X 的主成分的充要条件是P Y '是Y 主成分,其中P 是正交阵。
15.设随机向量()12344,,,(,)T X X X X X N μ=∑
1
1,0111ρρρρρρρρρρρρρ∑=<≤⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭
(1) 试从Σ出发求X 的第一总体主成分;
(2) 试问当 取多大时才能使第一主成分的贡献率达95%以上。
16.设()'123X x x x =的相关系数矩阵通过因子分析分解为
121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫
- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪ ⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝
⎭则1X 的共性方差=________,1X 的方差11σ=______________,第一公因子1F 对X 的贡献=_______________。
17.设标准化后随机向量123(,,)T X X X X =的协方差阵为10001130131⎛⎫ ⎪∑= ⎪ ⎪⎝⎭
使用主成分法进行因子分析,并计算(1)累计贡献率75%≥ 的公因子,写出因子模型;(2)每个公因子的方差贡献;()各个变量与公因子的协方差。
18.设标准化后随机向量123(,,)T X X X X =的
协方差阵为10.630R 0.6310.350.450.351⎛⎫ ⎪= ⎪ ⎪⎝⎭
ρ