2011多元统计分析课程卷
2009年秋季多元统计分析考试答案

《多元统计分析》课程试卷答案A 卷2009年秋季学期开课学院:理考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟班级 姓名 学号散卷作废。
一、(15分)设()∑⎪⎪⎪⎭⎫ ⎝⎛=,~3321μN x x x X ,其中⎪⎪⎪⎭⎫ ⎝⎛-=132μ,⎪⎪⎪⎭⎫ ⎝⎛=∑221231111,1.求32123x x x +-的分布;2. 求二维向量⎪⎪⎭⎫ ⎝⎛=21a a a ,使3x 与⎪⎪⎭⎫⎝⎛'-213x x a x 相互独立。
解:1.32123x x x +-()CX x x x ∆⎪⎪⎪⎭⎫⎝⎛-=321123,则()C C C N CX '∑,~μ。
(2分)其中:μC ()13132123=⎪⎪⎪⎭⎫ ⎝⎛--=,()9123221231111123=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛-='∑C C 。
(4分)所以32123x x x +-()9,13~N (1分)2. ⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛'-2133x x a x x =AX x x x a a ∆⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛--321211100,则()A A A N AX '∑,~2μ。
(1分)其中:订线装μA ⎪⎪⎭⎫ ⎝⎛++-=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛--=132113211002121a a a a,(1分) ⎪⎪⎭⎫ ⎝⎛+--+++--+--='⎪⎪⎭⎫ ⎝⎛--⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛--='∑2422322222110022123111111002121222121212121a a a a a a a a a a a a a a A A (2分)要使3x 与⎪⎪⎭⎫⎝⎛'-213x x a x 相互独立,必须02221=+--a a ,即2221=+a a 。
因为2221=+a a 时2422321212221+--++a a a a a a 0>。
多元统计分析方法练习题

2. 3.9 36.9 12.7
4. 4.5 58.8 12.3
6. 3.5 27.8 9.8
8. 4.5 40.2 8.4
10. 1.5 13.5 10.1
12. 8.5 56.4 7.1
14. 4.5 71.6 8.2
16. 6.5 52.8 10.9
18. 4.1 44.1 11.2
5.8 9.6 3.0 6.9 9.9 3.9
6.5 9.6 4.1 6.1 9.5 1.9
6.5 9.2 0.8 6.3 9.4 5.7
高拉速(B2)6.7 9.1 2.8 7.1 9.2 8.4
6.6 9.3 4.1 7.0 8.8 5.2
7.2 8.3 3.8 7.2 9.7 6.9
7.1 8.4 1.6 7.5 10.1 2.7
49 81.42 8.95 44 180 185 49.156
57 73.37 12.63 58 174 176 39.407
54 79.38 11.17 62 156 165 46.080
51 73.71 10.47 59 186 188 45.790
57 59.08 9.93 49 148 155 50.545
4155.3 45.0 74.0 4 150.0 50.2 87.0
5152.0 35.0 63.0 5 144.0 36.3 68.0
6158.3 44.5 75.0 6 160.5 54.7 86.0
7154.8 44.5 74.0 7 158.0 49.0 84.0
8164.0 51.0 72.0 8 154.0 50.8 76.0
3 142 89 138 99 138 99 142 108
多元统计复习题及答案

填空题:1、费希尔(Fisher)判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上。
2、因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。
3、K均值聚类分析的基本思想是将每一个样品分配给最接近业壶些直的类中。
4、对应分析是将R型因子分析Q型因子分析结合起来进行的统计分析方法。
5、总体方差未知的情况下,采用样本方差代替总体方差的方法进行计算。
6、主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转7、设X、N2 ( U , N),其中X=(》1,》2),号),则CovQq +》2,*1 - *2)= _0__8、判别分析是判别样品所属类型的一种统计方法,常用的判别方法有距离判别法、Fisher 判另U法、Bayes判另U法、逐步判另U法9 多元正态分布的任何边缘分布为正态分布10、应用多元统计分析方法用于解决多指标问题,聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分析分为Q型聚类和R型聚类。
11、总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为(P )和(n-p-1),其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。
12、系统聚类分析方法有最短距离法、最长距离法、中间距离法、重心法、类平均统和可变类平均法。
13、典型相关分析是研究两组变量之间相关关系的一种多元统计方法14、因子分析中因子载荷系数叫,•的统计意义是:(第i个变量与第j个公因子的相关系数)15、相应分析的特点是研究的变量是定性的16、公共因子方差与特殊因子方差之和为o17、设Z 是总体X=(X”…,乂皿)的协方差阵,X 的特征根人。
=1,2,..・田)与对应的单位正交化特征向量% =(%,%2,,则第一主成分的表达式=% ]X| + %2、2 + ・•• + /mX"],方差为2]18、相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示19聚类分析一是分析如何对样品或变量进行量化分类的问题。
11_第11章,多元统计分析(20120522)

8
第十一章 多元统计分析
二、数字特征
对m维随机向量X ( X 1 , , X m ) ', Y (Y1 , , Yn ) ' 1.数学期望 EX ( EX 1 , , EX m ) ' 2. X 的协方差矩阵 D( X ) E ( X EX )( X EX ) ' Cov( X 1 , X 2 ) Cov( X 1 , X m ) D( X 1 ) Cov( X 2 , X 1 ) D( X 2 ) D( X m ) Cov( X m , X 1 ) Cov( X m , X 2 )
12
第十一章 多元统计分析
§3.距离判别
距离判别的基本思想:样本与哪个总体的距离最 近就判断它属于哪个总体。 一、马氏距离
已知有两个类G1和G2,G1是设备A的产品,G2是设备B 的产品。其指标为耐磨度 X 1 ~ N ( 1 , 12 ) N (80, 0.25), X 1 ~ N ( 2 , 2 2 ) N (75, 4) 现有一产品,其耐磨度x0 78,判断该产品属于哪一 台设备生产的.
2
(2)设A为常数矩阵,b为常数向量,则D ( AX b) AD ( X ) A ' 10 (3)Cov( AX , BY ) ACov( X , Y ) B '
第十一章 多元统计分析
§3.判别分析的介绍
根据观察到的数据来对要研究的对象(样本)进 行判别分类; 如在气象学中,根据已有的气象资料(气温、气 压、湿度等)来判断明天是阴天还是晴天,是有雨还 是无雨; 在经济学中,可根据各国的人均国民收入、人均 工农业产值和人均消费水平等判定一个国家经济发展 程度放入所属类型; 在医学中,经常要根据患者的不同症状和化验结 果等多项指标类诊断其患病类型; 判别分析是应用性很强的统计分析方法。 11
2011年高考数学统计及统计案例配套试卷及答案

2011年《新高考全案》高考总复习配套测评卷单元检测卷(十二)统计及统计案例时间:90分钟,满分:150分一、选择题(共8小题,每小题7分,满分56分)1.在10000个有机会中奖的号码(编号为0000~9999)中,有关部门按照随机抽样的方式确定后两位数字是68的号码为中奖号码,这是运用哪种抽样方式来确定中奖号码的?( )A .抽签法B .系统抽样C .随机数表法D .分层抽样 由题意知中奖号码为0068,0168,0268,…,9968,符合系统抽样. B2.一个容量为20的样本数据分组后,组距与频率如下:(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4,(60,70),2.则样本在区间(-∞,50)上的频率是( )A .0.20B .0.25C .0.50D .0.70 频率=频数样本容量=2+3+4+520=1420=0.7.D3.某高中在校学生2000人,高一级与高二级人数相同并都比高三级多1人.为了响应“阳光体育运动”号召,学校举行了“元旦”跑步和登山比赛活动.每人都参加而且只参与其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的25.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则高二级参与跑步的学生中应抽取( )A .36人B .60人C .24人D .30人全校参与跑步有2000×35=1200人,高二级参与跑步的学生=1200×32+3+5×2002000=36.A4.为了了解1200名学生对学校某项教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔(抽样距)K 为( )A .40B .30C .20D .12抽样距=120030=40.A5.线性回归方程y ∧=bx +a 必过点( )A .(0,0)B .(x ,0)C .(0,y )D .(x ,y )因为a =y -b ·x ,所以y ∧b 2-4ac =bx +y -b x ,当x =x 时,y =y ,所以回归方程过点(x ,y ).D6.如图表示甲、乙两名篮球运动员每场比赛得分情况的茎叶图,则甲和乙得分的中位数的和是( )A.56分 B .57分 C .58分D .59分甲的中位数是32,乙的中位数是26,故中位数之和是58分. C7.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若k 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确 C8.(2009·四川高考题)设矩形的长为a ,宽为b ,其比满足b ∶a =5-12≈0.618,这种矩形给人以美感称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:甲批次:0.598 0.625 0.628 0.595 0.639 乙批次:0.618 0.613 0.592 0.622 0.620根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是( )A .甲批次的总体平均数与标准值更接近B .乙批次的总体平均数与标准值更接近C .两个批次总体平均数与标准值接近程度相同D .两个批次总体平均数与标准值接近程度不能确定用以上各数据与0.618(或0.6)的差进行计算,以减少计算量,说明多思则少算.甲批次的平均数为0.617,乙批次的平均数为0.613.A二、填空题(共6小题,每小题7分,满分42分) 9.(2009·湖北高考题)下图是样本容量为200的频率分布直方图.根据样本的频率分布直方图估计,样本数落在内的频数为________,数据落在(2,10)内的概率约为________.观察直方图易得频数为200×0.08×4=64,频率为0.1×4=0.4. 64 0.4 10.(2009·重庆高考题)从一堆苹果中任取5只,称得它们的质量为(单位:克): 125 124 121 123 127,则该样本标准差s =________(克)(用数字作答).因为样本平均数x =15(125+124+121+123+127)=124,则样本方差s 2=15(12+02+32+12+32)=4,所以s =2211.(2009·辽宁高考题)某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为1∶2∶1,用分层抽样方法(每个分厂的产品为一层)从3个分厂生产的电子产品中共抽取100件作使用寿命的测试,由所得的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的使用寿命的平均值分别为 980h,1020h,1032h ,则抽取的100件产品的使用寿命的平均值为________h.从第一、二、三分厂的抽取的电子产品数量分别为25,50,25,则抽取的100件产品的使用寿命的平均值为980+2×1020+10324=1013.101312.在研究硝酸钠的可溶性程度时,观测它在不同温度的水中的溶解度,得观测结果如下表:若y 与x x =30,y=93.6, 5i =1x 2i =7900, 5i =1x i y i =17035,∴回归直线的斜率 b = 5i =1x i y i -5x y5i =1x 2i -5x 2=17035-5×30×93.67900-4500≈0.8809.0.8809 13.(2009·广东高考题)某篮球队6名主力队员在最近三场比赛中投进的三分球个数如下表所示:则图中判断框应填________,输出的s =________.(注:框图中的赋值符号“=”也可以写成“←”或“:=”)该程序框图是统计该6名队员在最近三场比赛中投进的三分球总数,所图中判断框应填i≤6,输出的s=a1+a2+…+a6.i≤6;a1+a2+…+a614.给出下列命题:①命题“∃x∈R,使得x2+x+1<0”的非命题是“对∀x∈R,都有x2+x+1>0”;②独立性检验显示“患慢性气管炎和吸烟有关”,这就是“有吸烟习惯的人,必定会患慢性气管炎”;③某校有高一学生300人,高二学生270人,高三学生210人,现教育局欲用分层抽样的方法,抽取26名学生进行问卷调查,则高三学生被抽到的概率最小.其中错误的命题序号是________(将所有错误命题的序号都填上).本题三个命题重点考查简易逻辑用语、统计案例和统计等基本概念.①中原命题的非命题是“对∀x∈R,都有x2+x+1≥0”,所以①错误;②中说法不正确,“患慢性气管炎和吸烟有关”只是说明“患慢性气管炎”和“吸烟”有一定的相关关系,但不是确定关系,所以“有吸烟习惯的人,未必患慢性气管炎”;③中,由于抽样比为26300+270+210=1 30,所以高一学生被抽到的人数为130×300=10人,高二学生被抽到的人数为130×270=9人,高三学生被抽到的人数为130×210=7人,尽管高三学生抽到的人数少,但每个学生被抽到的机会均等,所以“高三学生被抽到的概率最小”这种说法错误.①②③三、解答题(共4小题,满分52分)15.(2009·广东高考题)(本小题满分12分)随机抽取某中学甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如下图.(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差.(1)由茎叶图可知:甲班身高集中于160∶179之间,而乙班身高集中于170∶180之间。
多元统计分析上机卷

企业从业人员年 平均人数(人)
246244 199036 118090 92231 20767 193370 66992 71767 502404 1487226 582618 88363 288580 138469 459981 165431 133765 77169 2798984 55327 7817 58276 247461 64832 25432 193806 27635 4998 6078
班级
学号
姓名
试题 A 第 3 页 共 8 页
试题 A 第 4 页 共 8 页
密封线内不要答题 ―――――――――――密――――――――――――――――-封――――――――――――――――线―――――――――――――
.
座号
河南财经政法大学
续表
省份
北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆
145.48
5172672
69.94
747711.7
92.51
2839793
147.81
1026685
261.31
5476437
122.34
2233786
118.17
1554200
77.85
963321.9
420.62
23040968
35.34
386493.4
1.21
91029.65
67.09
695677.6
试根据该资料对各省市自治区进行聚类(样品间的距离用欧式距离的平方,聚 类方法用离差平方和法),判断分为几类合适,写出各类所包含的具体单位。
多元统计分析(A)

2010-2011学年第一学期信息与计算专业《多元统计分析》(课程)试卷一、计算(每小题8+10+6分,共24分)1、(共2+6=8分)设X ~),(3∑μN ,其中),,(321'=X X X X ,)2,0,1('=μ,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑221241111试求:1)计算1X 和2X 的相关系数2) ⎪⎪⎭⎫⎝⎛++=⎪⎪⎭⎫ ⎝⎛=322121X X X X Y Y Y 的分布。
2、(共5+5=10分)、设一个容量为n=4的随机样本取自二维正态总体),(2∑μN ,其数据矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=4031-2231-X , 1)计算样本均值x ,样本自方差2S2). 对]2,2[='μ计算统计量2T 的值,并将其变为F 统计量,同时在显著水平为0.05下检验0μμ=。
(19)05.0(,5.199)05.0(2,21,2==F F )3、(共6分)已知五个样品的之间的距离矩阵如下:D=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡082101109360730605432154321 类间距采用最长距离法,将五个对象分为3类。
二、简答(每小题5分,共20分)1、马氏距离相对欧式距离有什么优点。
2、快速聚类分析的步骤。
3、主成分分析和因子分析的区别。
4、简述典型相关分析模型(用数学形式表示,并解释每个符号的意义)。
三、(每小题6+4+4分,共14分) 为了为了考虑鸡的头(X)和腿(Y)的关系,头观察了两个指标颅骨宽(X1)和颅骨长(X2),腿观察了股骨长(Y1)和胫骨长(Y2),利用spss得到以下结果:Canonical Correlations(表一)1 .6312 .057Raw Canonical Coefficients for Set-1(表二)V1 V2X1 0.781 -.856X2 0.345 1.106Raw Canonical Coefficients for Set-2(表三)W1 W2Y1 0.060 -2.648Y2 0.944 2.475Canonical StructureCorrelations Between the set-1 Variables and Their Canonical Variables(表四)V1 V2X1 0.9548 -0.2974X2 0.7388 0.6739Correlations Between the set-2 Variables and Their Canonical Variables(表五)W1 W2Y1 0.9343 -0.3564Y2 0.9997 0.0227Correlations Between the set-1 Variables and the Canonical Variables of the set-2 Variables(表六)W1 W2X1 0.6025 -0.0169X2 0.4663 0.0383Correlations Between the set-2 Variables and the Canonical Variables of the VAR Variables(表七)V1 V2Y1 0.5897 -0.0202Y4 0.6309 0.0013根据上面结果,试回答以下问题:1、这两组经济变量间的典型相关系数分别是多少,并写出相应的典型相关变量。
应用多元统计2011

§2.2 样本的统计量
p维随机向量X ( X1, X 2 , , X p ) 样本数据阵
x11 x12 x1p
X (1)
X
x21
ห้องสมุดไป่ตู้
x22
x2
p
def
(
X1,
X
2
,,
X
p
)
def
X (2)
xn1
xn2
《红楼梦》后40回是否为高鹗所写?
聚类实例
根据人均年消费性支出,将全国所有省、市和自 治区进行分类。
对欧洲11种语言进行分类 服装定型分类
§1.2 多元统计数据的图表示法
散布图矩阵 轮廓图 雷达图(蜘蛛图、星座图) 调和曲线图 切尔诺夫脸(脸谱图)
姓名 性别 数学 语文 英语 物理
F (x1, , xp ) P{X1 x1, , X p xp}
F(x1,
, xp)
xp
x1
f
(t1,
, t p )dt1
dt p
设X
X X
(1) (2)
,
其中X
(1)为r维随机向量,则X
(1)的边缘分布为
f1(x(1) ) f1(x1,
))
§2.4 随机向量X的二次型 X AX
1. 设X为p维随机向量, E(X ) , D(X ) ,则 E(X AX ) A tr(A)
2. 设p维随机向量X ~ N p (0, I p ), A为对称阵, 秩为r,
若A为幂等阵,即A2 A,则X AX ~ 2 (r)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北方工业大学
《多元统计分析》课程试卷
A 卷
2011年秋季学期
开课学院:理
考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟
班级 姓名 学号
一、(15分)设()∑⎪⎪⎪⎭⎫ ⎝⎛=,~3321μN X X X X ,其中⎪⎪⎪⎭
⎫ ⎝⎛-=413μ,⎪⎪⎪
⎭⎫
⎝⎛--=∑20005
2021。
试判断下列5对随机变量是否独立。
(1)1X 与22X ; (2)2X 与3X ; (3)),(21X X 与3X ; (4))(2121X X +与3X ; (5)2X 与3122
5
X X X --。
订
线
装
二、(15分)设一个容量为n=5的随机样本取自二维正态总体,其数据矩阵为
⎪⎪⎪⎪⎪
⎪⎭
⎫
⎝⎛=9.73.112.03.210.93.8
8.04.79.33.7
X ,给定显著性水平05.0=α, 试检验
,104:H 0⎪⎪⎭⎫ ⎝⎛=μ .104:H 1⎪⎪⎭
⎫
⎝⎛≠μ (已知F 分布的上α分位数为19)2,2(F ,16.19)2,3(F ,55.9)3,2(F 0.050.050.05===)
三、(20分)在某年级44名学生的期末考试中,有的课程采用闭卷,有的课程采用开卷。
考试成绩见表3.1。
表3.1 44名学生闭卷与开卷考试的成绩表
基于相关矩阵对上述数据进行因子分析,运算结果如下。
表3.2 Descriptive Statistics
表3.3 KMO and Bartlett's Test
表3.4 Rotated Component Matrix
表3.5 Component Score Coefficient Matrix 求:1. 请说明表3.3的作用,并对结果做出评价; 2. 请解释共同度及累积贡献率的含义;
3. 根据上述运算结果,试填写下表
4. 说明为什么要进行因子旋转并对两个旋转因子的含义做出解释;
5. 写出两个旋转因子的因子得分表达式。
四、(15分)1. 请写出聚类分析的基本思想; 2.五个样品间的距离矩阵如下
⎪⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛08
5
3
6
1071096040543215
43 2 1
试用最长距离法对样品进行聚类。
画出聚类图,并给出聚为三类时的结果。
五、(15分)为了研究人体的心肺功能,对31个成年男子测量了肺活量(OXY ),并记录了他们的年龄(age )、体重(weight )、以及简单训练后的测试数据:跑1.5英里的时间(time )、休息时的脉搏(spulse )、跑步时的脉搏(rpulse )和跑步时记录的最大脉搏(mpulse )共7项指标。
以肺活量(OXY )为因变量,其它六个变量为自变量进行多元线性回归分析,所得结果如下。
表5.1 Model Summary
表5.2 ANOVA
表5.3 Coefficients
1. 请写出多元线性回归模型的一般形式;
2. 请写出表5.2所检验的原假设和备择假设,当显著性水平05.0=α时,给出检验的结论;
3. 请写出的回归系数t 检验的原假设和备择假设,给定检验的显著性水平05.0=α,是否显著,解释原因;
4. 请写出最小二乘法的思想及多元线性回归方程。
六、(20分)设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表6.1。
表6.1 岩石化学成分的含量数据
对此数据进行判别分析,结果如下。
表6.2 Tests of Equality of Group Means
表6.3 Functions at Group Centroids
表6.4 Classification Function Coefficients
表6.5 Canonical Discriminant Function Coefficients
求:1. 请说明表6.2中检验的意义,并给出检验结论; 2. 请写出Fisher 判别法的线性判别函数; 3. 请写出Bayes 判别法的分类函数;
4. 请写出距离判别的思想,据表6.3及6.5给出距离判别法则。
5. 今测得Cu ,Ag ,Bi 三种化学成分的含量分别为54.115.2,95.2和,请运用Fisher 判别法及Bayes 判别法判断该标本是含矿还是不含矿?。