2006级《多元统计分析》复习题
多元统计复习题.doc

复习题4.2试述判别分析的实质。
.......... 错误!未定义书签。
4.3简述距离判别法的基本思想和方法。
错误!未定义书签。
4.4简述贝叶斯判别法的基本思想和方法。
错误!未定义书签。
4.5简述费希尔判别法的基本思想和方法。
错误!未定义书签。
4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
................................. 错误!未定义书签。
4.8某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
错误!未定义书签。
5.1判别分析和聚类分析有何区别?错误!未定义书签。
5.2试述系统聚类的基本思想。
......错误!未定义书签。
5.3对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造错误!未定义书签。
5.5试述K均值法与系统聚类法的异同。
错误!未定义书签。
6.1试述主成分分析的基本思想。
..错误!未定义书签。
6.2主成分分析的作用体现在何处?错误!未定义书签。
6.3简述主成分分析中累积贡献率的具体含义。
错误!未定义书签。
6.5试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
..................... 错误!未定义书签。
6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
............................. 错误!未定义书签。
6.10根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。
................................. 错误!未定义书签。
7.1试述因子分析与主成分分析的联系与区别。
错误!未定义书签。
7.2因子分析主要可应用于哪些方面?错误!未定义书签。
7.3简述因子模S X = AY +£中载荷矩阵A的统计意义。
多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
多元统计分析模拟试题(卷)复习进程

多元统计分析模拟试题(卷)多元统计分析模拟试题(两套:每套含填空、判断各二十道)A卷1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。
2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。
3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。
4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为=8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。
9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化为几个综合指标的多元统计方法。
10)在进行主成分分析时,我们认为所取的m(m<p,p为所有的主成分)个主成分的累积贡献率达到85%以上比较合适。
11)聚类分析的目的在于使类内对象的同质性最大化和类间对象的异质性最大化12)是随机变量,并且有,那么服从(卡方)分布。
13)在对数线性模型中,要先将概率取对数,再分解处理,公式:14)将每个原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子15)判别分析的最基本要求是分组类型在两组之上,每组案例的规模必须至少一个以上,解释变量必须是可测量的16)当被解释变量是属性变量而解释变量是度量变量时判别分析是合适的统计分析方法17)多元正态分布是一元正态分布的推广18)多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础19)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合。
20)统计距离包括欧氏距离和马氏距离两类1)因子负荷量是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。
《多元统计分析》习题

《多元统计分析》习题分为三部分:思考题、验证题和论文题思考题第一章绪论1﹑什么是多元统计分析?2﹑多元统计分析能解决哪些类型的实际问题?第二章聚类分析1﹑简述系统聚类法的基本思路。
2﹑写出样品间相关系数公式。
3﹑常用的距离及相似系数有哪些?它们各有什么特点?4﹑利用谱系图分类应注意哪些问题?5﹑在SAS和SPSS中如何实现系统聚类分析?第三章判别分析1﹑简述距离判别法的基本思路,图示其几何意义。
2﹑判别分析与聚类分析有何异同?3﹑简述贝叶斯判别的基本思路。
4﹑简述费歇判别的基本思路。
5﹑简述逐步判别法的基本思想。
6﹑在SAS和SPSS软件中如何实现判别分析?第四章主成分分析1﹑主成分分析的几何意义是什么?2﹑主成分分析的主要作用有那些?3﹑什么是贡献率和累计贡献率,其意义何在?4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息?5﹑为什么要用标准化数据去估计V的特征向量与特征值?6﹑证明:对于标准化数据有S=R。
7﹑主成分分析在SAS和SPSS中如何实现?第五章因子分析1﹑因子得分模型与主成分分析模型有何不同?2﹑因子载荷阵的统计意义是什么?3﹑方差旋转的目的是什么?4﹑因子分析有何作用?5﹑因子模型与回归模型有何不同?6﹑在SAS和SPSS中如何实现因子分析?第六章对应分析1﹑简述对应分析的基本思想。
2﹑简述对应分析的基本原理。
3﹑简述因子分析中Q型与R 型的对应关系。
4﹑对应分析如何在SAS和SPSS中实现?第七章典型相关分析1﹑典型相关分析适合分析何种类型的数据?2﹑简述典型相关分析的基本思想。
3﹑典型变量有哪些性质?4﹑典型相关系数和典型变量有何意义?5﹑典型相关分析有何作用?6 ﹑在SAS和SPSS中如何实现典型相关分析?验证题第二章聚类分析1、为了更深入了解我国人口的文化程度,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。
分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。
多元统计复习题及答案

填空题:1、费希尔(Fisher)判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上。
2、因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。
3、K均值聚类分析的基本思想是将每一个样品分配给最接近业壶些直的类中。
4、对应分析是将R型因子分析Q型因子分析结合起来进行的统计分析方法。
5、总体方差未知的情况下,采用样本方差代替总体方差的方法进行计算。
6、主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转7、设X、N2 ( U , N),其中X=(》1,》2),号),则CovQq +》2,*1 - *2)= _0__8、判别分析是判别样品所属类型的一种统计方法,常用的判别方法有距离判别法、Fisher 判另U法、Bayes判另U法、逐步判另U法9 多元正态分布的任何边缘分布为正态分布10、应用多元统计分析方法用于解决多指标问题,聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分析分为Q型聚类和R型聚类。
11、总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为(P )和(n-p-1),其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。
12、系统聚类分析方法有最短距离法、最长距离法、中间距离法、重心法、类平均统和可变类平均法。
13、典型相关分析是研究两组变量之间相关关系的一种多元统计方法14、因子分析中因子载荷系数叫,•的统计意义是:(第i个变量与第j个公因子的相关系数)15、相应分析的特点是研究的变量是定性的16、公共因子方差与特殊因子方差之和为o17、设Z 是总体X=(X”…,乂皿)的协方差阵,X 的特征根人。
=1,2,..・田)与对应的单位正交化特征向量% =(%,%2,,则第一主成分的表达式=% ]X| + %2、2 + ・•• + /mX"],方差为2]18、相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示19聚类分析一是分析如何对样品或变量进行量化分类的问题。
多元统计复习题-附答案

复习题原文:答案:4.2试述判别分析的实质。
4.3 简述距离判别法的基本思想和方法。
4.4简述贝叶斯判别法的基本思想和方法。
4.5 简述费希尔判别法的基本思想和方法。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
4.2试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为R p,则称R1,R2⋯R p为R p的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p维空间R p 构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X到两个总体的马氏距离D 2(X,G1)和D 2(X ,G2),则X ∈G 1 ,D 2(X,G 1)≤ D 2(X ,G 2)X ∈G 2 ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析,2212(,)(,)D G D G -X X111122111111111222*********()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ∈G 1 ,W(X)≥0 X ∈G 2 ,W(X)<0②多个总体的判别问题。
多元统计分析简答题汇总

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
协差阵的检验检验0=ΣΣ0p H =ΣI : /2/21exp 2np n e tr n λ⎧⎫⎛⎫=-⎨⎬ ⎪⎩⎭⎝⎭S S00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ⎧⎫⎛⎫=-⎨⎬ ⎪⎩⎭⎝⎭S S检验12k ===ΣΣΣ012k H ===ΣΣΣ:统计量/2/2/2/211i i kkn n pn np k ii i i n n λ===∏∏S S2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。
当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。
多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。
多元线性回归的条件是:(1)各自变量间不存在多重共线性; (2)各自变量与残差独立;(3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。
4.回归分析的基本思想与步骤 基本思想:所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、已知12x X
x ⎛⎫
= ⎪⎝⎭
的密度函数为()22
121212121
1(,)exp 2222146522f x x x x x x x x π⎧⎫=
-++--+⎨⎬⎩⎭
试求X 的均值向量和协方差阵。
二、设(),p X
N μ∑ ,p p A ⨯为对称阵,试证明
(1)、()E X X μμ''=∑+ (2)()()E X AX
tr A A μμ''=∑+
三、设()12,X x x '=有密度函数
()22
121212121
1(,)exp 256284610622f x x x x x x x x π⎧⎫=
-++--+⎨⎬⎩⎭ 求,cov()EX X μ=∑=。
四、设随机向量有密度函数 2
2
3122212()2
(,)(2)()x
y f x y x y e π---+=+,
证明:相关系数(,)0x y ρ=,但,x y 不独立
五、设有总体(),p X
N μ∑ ,设()1(,,)i i i p X x x '= ,(1,2,,)i n = 为元正态总体的
简单随机样本,试求总体均值向量μ的极大似然估计。
六、人的出汗多少与人体内钠和钾的含量有一定关系,今测量了20名健康成年女性的出汗量()钠的含量和钾的含量,由样本值计算得
(4.64,45.4,9.965)X =及样本离差阵的逆阵
1
0.030850.001160.013580.001160.000310.00008
0.013580.00008
0.02115L
--⎛⎫
⎪
=-
⎪
⎪⎝
⎭
试检验00:(4,50,10)H μμ==。
七、设线性模型 1
1
(1)1
N N N k Y X βε⨯⨯⨯+⨯=+,()0,()0E D εε==∑>
要求'1()()Q Y X Y X ββ-=-∑-达到最小。
试写出其正规方程,并求的最小二乘估计及残差平方和
八、在单因变量的多元线性回归分析中。
(1)说明逐步回归分析中的主要思想和方法。
(2)多元回归分析中,多重共线性是指什么?指出其成因、后果及消除共线性的主要方法。
九、举例说明主成分分析和因子分析原理、方法的异同及适用条件。
十、设三个总体123,,G G G 的分布分别为:222(2,(0.5)),(0,2),(3,1)N N N 试问样品 2.5x =应判为哪一类? (1)、按距离判别 (2)、按Bayes 判别准则(12313
q q q ===
,1(|)0
i j C j i i j
≠⎧=⎨
=⎩)
十一、某科学工作者要建立两个多元总体1π和2π的判别法则,利用他获得的数据已对总体密度12(),()f x f x 做出了估计。
设(21)50,(12)100C C ==,另外在所有可能的研究对象中,大约有20%属于2π。
(1).试导出ECM 最小判别准则;
(2).设有一个新样品0x ,使得1020()0.3,()0.5f x f x ==,
0x 应判入哪个总体。