多元统计分析试题(2012)

合集下载

多元统计分析模拟试题

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道)A卷1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。

2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。

3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。

4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为=8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。

9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化为几个综合指标的多元统计方法。

10)在进行主成分分析时,我们认为所取的m(m<p,p为所有的主成分)个主成分的累积贡献率达到85%以上比较合适。

11)聚类分析的目的在于使类内对象的同质性最大化和类间对象的异质性最大化12)是随机变量,并且有,那么服从(卡方)分布。

13)在对数线性模型中,要先将概率取对数,再分解处理,公式:14)将每个原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子15)判别分析的最基本要求是分组类型在两组之上,每组案例的规模必须至少一个以上,解释变量必须是可测量的16)当被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法17)多元正态分布是一元正态分布的推广18)多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础19)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合。

20)统计距离包括欧氏距离和马氏距离两类1)因子负荷量是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。

2012年秋北方工业大学多元统计分析期末及答案

2012年秋北方工业大学多元统计分析期末及答案

一、 (15 分)1、设 X 0 , 4 X ~ N 2 , ,其中 2 试判断 X 1 X 2 与 X 2 是否独立,并计算 X 1 X 2 的方差。 订
X1
0
16
4 , 4
非农业人口数(万人) 工业总产值(万元) 货运总量(万吨) 批发零售住宿餐饮业从业人数(万人) 地方政府预算内收入(万元)
.158 .121 .151 .112 .142
5
城乡居民年底储蓄余额(万元) 在岗职工人数(万人) 在岗职工工资总额(万元) 人均居住面积(平方米) 每万人拥有公共汽车数(辆) 人均拥有铺装道路面积(平方米) 人均公共绿地面积(平方米) 求:1、 写出正交因子模型; 2、根据上述运算结果,试填写下表
.144 .145 .138 .010 -.036 -.029 -.028
.034 -.003 .062 -.051 .356 .343 .354
-.052 -.145 -.142 .678 -.001 .070 -.220
旋转因子载荷 原始变量
f 1*
f 1*
f 1*
共同度
非农业人口数(万人) 工业总产值(万元) 货运总量(万吨) 批发零售住宿餐饮业从业人数(万人) 地方政府预算内收入(万元) 城乡居民年底储蓄余额(万元) 在岗职工人数(万人) 在岗职工工资总额(万元) 人均居住面积(平方米) 每万人拥有公共汽车数(辆) 人均拥有铺装道路面积(平方米) 人均公共绿地面积(平方米)
4
表 4.3
Rotated Component Matrix Component 1 2 -.183 .309 -.147 .091 .194 .174 .030 .199 .205 .914 .921 .809 3 .039 .344 .253 -.437 .155 -.053 -.191 -.155 .840 .175 .259 -.106

《多元统计分析》习题

《多元统计分析》习题

《多元统计分析》习题分为三部分:思考题、验证题和论文题思考题第一章绪论1﹑什么是多元统计分析?2﹑多元统计分析能解决哪些类型的实际问题?第二章聚类分析1﹑简述系统聚类法的基本思路。

2﹑写出样品间相关系数公式。

3﹑常用的距离及相似系数有哪些?它们各有什么特点?4﹑利用谱系图分类应注意哪些问题?5﹑在SAS和SPSS中如何实现系统聚类分析?第三章判别分析1﹑简述距离判别法的基本思路,图示其几何意义。

2﹑判别分析与聚类分析有何异同?3﹑简述贝叶斯判别的基本思路。

4﹑简述费歇判别的基本思路。

5﹑简述逐步判别法的基本思想。

6﹑在SAS和SPSS软件中如何实现判别分析?第四章主成分分析1﹑主成分分析的几何意义是什么?2﹑主成分分析的主要作用有那些?3﹑什么是贡献率和累计贡献率,其意义何在?4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息?5﹑为什么要用标准化数据去估计V的特征向量与特征值?6﹑证明:对于标准化数据有S=R。

7﹑主成分分析在SAS和SPSS中如何实现?第五章因子分析1﹑因子得分模型与主成分分析模型有何不同?2﹑因子载荷阵的统计意义是什么?3﹑方差旋转的目的是什么?4﹑因子分析有何作用?5﹑因子模型与回归模型有何不同?6﹑在SAS和SPSS中如何实现因子分析?第六章对应分析1﹑简述对应分析的基本思想。

2﹑简述对应分析的基本原理。

3﹑简述因子分析中Q型与R 型的对应关系。

4﹑对应分析如何在SAS和SPSS中实现?第七章典型相关分析1﹑典型相关分析适合分析何种类型的数据?2﹑简述典型相关分析的基本思想。

3﹑典型变量有哪些性质?4﹑典型相关系数和典型变量有何意义?5﹑典型相关分析有何作用?6 ﹑在SAS和SPSS中如何实现典型相关分析?验证题第二章聚类分析1、为了更深入了解我国人口的文化程度,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。

分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。

多元统计分析期末试题及答案

多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

多元统计分析习题与答案

多元统计分析习题与答案

多元统计分析习题与答案多元统计分析是一种在社会科学研究中广泛应用的方法,它通过同时考虑多个变量之间的关系,帮助研究者更全面地理解和解释现象。

在本文中,我将分享一些多元统计分析的习题和答案,希望能够帮助读者更好地掌握这一方法。

习题一:相关分析假设你正在研究一个学生的学习成绩和他们每天花在学习上的时间之间的关系。

你收集了100个学生的数据,学习成绩用分数表示,学习时间用小时表示。

以下是你的数据:学习成绩(X):75, 80, 85, 90, 95, 70, 65, 60, 55, 50学习时间(Y):5, 6, 7, 8, 9, 4, 3, 2, 1, 0请计算学习成绩和学习时间之间的相关系数,并解释其含义。

答案一:首先,我们需要计算学习成绩和学习时间之间的协方差和标准差。

根据公式,协方差可以通过以下公式计算:协方差= Σ((X - X平均) * (Y - Y平均)) / (n - 1)其中,X和Y分别表示学习成绩和学习时间,X平均和Y平均表示它们的平均值,n表示样本数量。

标准差可以通过以下公式计算:标准差= √(Σ(X - X平均)² / (n - 1))根据以上公式,我们可以得出学习成绩和学习时间之间的协方差为-22.5,标准差分别为18.03和2.87。

然后,我们可以通过以下公式计算相关系数:相关系数 = 协方差 / (X标准差 * Y标准差)根据以上公式,我们可以得出相关系数为-0.93。

由于相关系数接近于-1,可以得出结论:学习成绩和学习时间之间存在强烈的负相关关系,即学习时间越长,学习成绩越低。

习题二:多元线性回归假设你正在研究一个人的身高(X1)、体重(X2)和年龄(X3)对其收入(Y)的影响。

你收集了50个人的数据,以下是你的数据:身高(X1):160, 165, 170, 175, 180, 185, 190, 195, 200, 205体重(X2):50, 55, 60, 65, 70, 75, 80, 85, 90, 95年龄(X3):20, 25, 30, 35, 40, 45, 50, 55, 60, 65收入(Y):5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500, 9000, 9500请利用多元线性回归分析,建立一个预测人的收入的模型,并解释模型的结果。

多元统计分析

多元统计分析

多元统计分析多元统计分析习题集(⼀)⼀、填空题1.若()(,),(1,2,,)p X N n αµα∑= 且相互独⽴,则样本均值向量X 服从的分布是____________________。

2.变量的类型按尺度划分为___________、____________、_____________。

3.判别分析是判别样品_____________的⼀种⽅法,常⽤的判别⽅法有_____________、_____________、_____________、_____________。

4.Q 型聚类是指对_____________进⾏聚类,R 型聚类指对_____________进⾏聚类。

5.设样品12(,,,),(1,2,,)i i i ip X X X X i n '== ,总体(,)p X N µ∑ ,对样品进⾏分类常⽤的距离有____________________、____________________、____________________。

6.因⼦分析中因⼦载荷系数ij a 的统计意义是_________________________________。

7.主成分分析中的因⼦负荷ij a 的统计意义是________________________________。

8.对应分析是将__________________和__________________结合起来进⾏的统计分析⽅法。

9.典型相关分析是研究__________________________的⼀种多元统计分析⽅法。

⼆、计算题 1.设3(,)X N µ∑ ,其中410130002?? ?∑= ? ??,问1X 与2X 是否独⽴?12(,)X X '与3X 是否独⽴?为什么?2.设抽了5个样品,每个样品只测了⼀个指标,它们分别是1,2,4.5,6,8。

若样品间采⽤绝对值距离,试⽤最长距离法对其进⾏分类,要求给出聚类图。

多元统计分析(2012)高运良中矿北京试题

多元统计分析(2012)高运良中矿北京试题

多元统计分析(2012.11)一、 填空题(满分18分)分)均值检验均值检验 (填空题)(填空题)(填空题) 几个分布几个分布几个分布 三大分布三大分布三大分布 调和曲线图(调和曲线图(调和曲线图(P54P54P54))22()()fXfY X Y d f t f t dt P -P=-ò221XY fXfYd d n= 二、(满分12分)分)证明题证明题三、(满分24分)分)考虑某河流的某段河水受污染情况,考虑某河流的某段河水受污染情况,考虑某河流的某段河水受污染情况,考虑的指标(因变量)考虑的指标(因变量)考虑的指标(因变量)有两项有两项1y (浓度)、2y (氧气浓度)与以下几个自变量12345,,,,x x x x x 有关。

共观测了15组数据见下表。

10111121231341451512021212223234245252y x x x x x y x x x x x b b b b b b e b b b b b b e =++++++=++++++122(,)~(0,)TN e e e =S (22()ij s ´S =为正定矩阵)为正定矩阵)编号编号 1x2x3x4x5x1y2y01 6.88 -0.25 1.1232 477 0.083 9.35 -2.66 02 6.08 -2.21 1.1232 193 0.083 12.3 -4.02 03 2.14 -3.04 1.1232 404 0.083 15.6 -4.59 04 5.02 -0.73 1.1232 363 0.073 5.88 -3.96 05 7.89 -2.26 1.1232 363 0.069 6.34 -3.02 06 2.38 -1.65 1.5552 428 0.104 4.00 -1.74 07 1.86 -1.35 1.5552 428 0.104 3.76 -1.47 08 1.02 -2.12 1.3824 428 0.104 3.98 -2.33 09 1.22 -1.92 1.3824 428 0.104 3.98 -2.19 10 0.9 -0.27 0.9936 202 0.104 2.78 0.33 11 2.58 -0.09 0.9936 202 0.104 1.88 0.23 12 2.78 -1.17 0.9936 114 0.104 2.56 -0.74 13 2.1 -1.30 0.9936 114 0.104 2.72 -0.80 14 2.32 -0.60 0.8640 57.3 0.104 1.64 -0.62 152.96-0.600.864057.30.1042.36-0.32记 (0)'B b b éù=êúëû,1112(1)2122(2)313212(3)4142(4)5152(5)(,)TT T T T b b B b b b b b b b b b b b b b b b æöæöç÷ç÷ç÷ç÷ç÷===ç÷ç÷ç÷ç÷ç÷ç÷èøèø(1) 求出b 的最小二乘估计量ˆb 的表达式及估计值b ˆ; ()()'()['2'''(')'](')2('')[(')']Q tr Y c Y c tr Y Y c Y c c c tr Y Y tr c Y tr c c c b b b b b b b b b =--=-+=-+令 02'2(')0Qc Y c c b b ¶=-+=¶ 令1ˆ(')'c c c Yb -= 然后求值得11121521222515115215511(1)1x x x x x x c x x x x æöç÷ç÷==ç÷ç÷èøn=15,m=5, 1111(66)131.4598 1.3276 1.2295 5.39130.0106300.71171.32760.06890.05180.27320.004412.85031'' 1.22950.05180.18020.68230.007214.7334(') 5.39130.27320.68230.973xx xx xx xx x L x x L c c n L L x ----´-------æö+----ç==÷÷ç-çø-è60.0116111.16610.01060.00040.00070.01160.00010.1698300.717712.850314.7334111.16610.16980.0003æöç÷ç÷ç÷ç÷--ç÷ç÷---ç÷ç÷---èø116.58959.33510.06970.12362.51290.6418ˆ(')'9.74500.81290.01400.000879.969195.3617c c c Y b --æöç÷ç÷ç÷-==ç÷--ç÷ç÷-ç÷ç÷-èø11234521234516.58950.0687 2.51299.4500.014079.96919.33510.12360.64180.81290.000895.3167y x x x x x y x x x x x =+--+-=-++--+(2) 写出(0)ˆb ,()ˆˆ(1,2),(1,2,3,4,5)k j b k b j ==,ˆ()()T e Q Y C X C b b =-- 分布;分布; (0)ˆb 是一个列向量,1(0)2(0)1ˆ~(,('))xx N x L x nb b -+å1()2()ˆˆ~(,())j j xx ii b N b L -å j=1、2、3、4、5 (1)ˆb (2)ˆb~ (5)ˆb 的分布都写出来的分布都写出来 15ˆ~(,)k k kk xx N b L b d -~(1,)e p Q W n m --å=W 2(9, ∑)∑) (n=15;m=5)(3) 在显著性水平0.05a =,检验01:0,:0H B H B =¹. 当0H 为真时为真时 ~(,1)eYYQ p n m L L =L -- 176.827711.1811'[(')']11.1811 4.5093e Q Y I c c c c Y --æö=-=ç÷-èø234.692876.14021''76.140234.4618YY L Y I Y n -æöæö=-II =ç÷ç÷-èøèø 0.0967~(,1,)(2,9,5)e YYQ p n m m L L ==L --=L 2,15,5,0.05p n m a ====0.05(2,9,5)0.152779L = 因为因为0.050.0967(2,9,5)e YYQ L L ==<L 则拒绝则拒绝0H 。

多元统计分析期末试题及答案

多元统计分析期末试题及答案

多元统计分析期末试题与答案22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、, ,。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征,下表为2008年中国31个省、市、自治区房地产业的相关统计数据,试根据这些数据进行聚类分析。

表1中指标说明如下:
X1:房屋平均销售价格; X2:住宅平均销售价格;
X3:别墅、高档公寓平均销售价格; X4:经济适用房平均销售价格;
X5:办公楼平均销售价格; X6:商业营业用房平均销售价格
X7:其他平均销售价格; X8:商品房销售面积; X9:住宅销售面积
表1
为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,指标及原始数据见表2,试建立判别函数,并判定另外4个待判样品属于哪类?
表2
X1:0岁组死亡概率X4:55岁组死亡概率
X2:1岁组死亡概率X5:80岁组死亡概率
X3:10岁组死亡概率X6:平均预期寿命
题3
利用主成分分析综合评价全国重点水泥企业的经济效益。

原始数据见表3。

表3
题4 反映城镇居民消费支出状况的指标主要有食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信以及教育文化娱乐服务等八项消费支出指标,数据如下表4所示。

以2008年为例进行说明。

选取反映我国各省、市、自治区的城镇居民人均消费支出8个指标作为原始变量,运用SPSS软件,对全国31个中心城市的人均消费水平水平作因子分析。

题5、在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。

为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量。

自变量如下:x
1
——农业增
加值(亿元),x
2——工业增加值(亿元),x
3
——建筑业增加值(亿元),x
4
——人口数(万人),x
5
——社会
消费总额(亿元),x
6
——受灾面积(万公顷)。

据《中国统计年鉴》获得1979—1998共20个年分的统计数据,见表5。

由定性分析知,所选自变量都与变量y有较强的相关性,试做出一个较为理想的回归方程。

表5
题6.
下表是2007年国际3大检索机构收录的中国科技论文统计数据,试在对学科进行分类的基础上(如分为:理、工、农、医等),对各学科论文数量进行对应分析,揭示论文收录数量的特征以及各学科与3大检索机构论文收录情况间的关系。

表6
注:数据来源于:《中国统计年鉴2008》。

相关文档
最新文档