多元统计分析期末复习试题

合集下载

多元统计分析期末复习试题

多元统计分析期末复习试题

第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵:当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。

随机向量X 与Y 的相关系数矩阵:2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X );E (AXB )=AE (X )B;D(AX)=AD(X)A ’;Cov(AX,BY)=ACov(X,Y)B ’;(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。

例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质(1).若 ,则E(X)= ,D(X)= . )',...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=qp ij r Y X ⨯=)(),(ρ),(~∑μP N X μ∑p X X X ,,,21特别地,当 为对角阵时, 相互独立。

(2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量,AX+d ~ . 即正态分布的线性函数仍是正态分布.(3).多元正态分布的边缘分布是正态分布,反之不成立.(4).多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面.(2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R(3) ,V分别是 和 的最大似然估计;(4)估计的性质是 的无偏估计; ,V分别是 和 的有效和一致估计; ;S~ , 与S相互独立;第五章 聚类分析:一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。

多元统计期末复习题

多元统计期末复习题

多元数据分析练习题第二章多元正态的参数估计一.判断题(1)若S S =),,(~),,,(21m pT p N X X X X 是对角矩阵,则p X X X ,,,21 相互独立。

()(2)多元正态分布的任何边缘分布为正态分布,反之也成立。

()(3)对任意的随机向量Tp X X X X ),,,(21 =来说,其协方差矩阵S 是对称矩阵,并且总是半正定的。

()(4)对标准化的随机向量来说,它的协方差矩阵与原来变量的相关系数阵相同。

()(5)若),,(~),,,(21S =m p Tp N X X X X S X ,分别为样本均值和样本协差阵,则S nX 1,分别为S ,m 的无偏估计。

()二.计算题1.假设随机向量TX X X X ),,(321=的协方差矩阵为úúúûùêêêëé---=S 9232443416,试求相关系数矩阵R 。

úúúúúúúûùêêêêêêêëé----=131413112141211R 2.假设随机向量Tx x x ),(21=的协方差矩阵为úûùêëé=S 20119,令212211,2x x y x x y -=+=,试求Ty y y ),(21=的协方差矩阵。

úûùêëé--=S 2733603.假设úûùêëé---=S 5.005.05.015.0),,(~3A N X m ,其中T)1,2,1(-=m ,úúúûùêêêëé--=S 411121112,试求Ax y =的分布。

多元统计分析期末试题及答案

多元统计分析期末试题及答案

4、 __________, __________, ________________。

(1) 试从Σ出发求X 的第一总体主成分;(2) 试问当 取多大时才能使第一主成分的贡献率达95%以上。

1、0 2、W 3(10,∑) 3、211342113611146R ⎛⎫- ⎪ ⎪ ⎪=-- ⎪ ⎪ ⎪- ⎪⎝⎭4、0.872 1 1.7435、T 2(15,p )或(15p/(16-p))F (p ,n-p )一、填空题:1、多元统计分析是运用 数理统计 方法来研究解决 多指标 问题的理论和方法.2、回归参数显着性检验是检验 解释变量 对 被解释变量 的影响是否着.3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。

通常聚类分析分为 Q 型 聚类和 R 型 聚类。

4、相应分析的主要目的是寻求列联表 行因素A 和 列因素B 的基本分析特征和它们的最优联立表示。

5、因子分析把每个原始变量分解为两部分因素:一部分为 公共因子 ,另一部分为 特殊因子 。

6、若()(,),P x N αμα∑=1,2,3….n 且相互独立,则样本均值向量x 服从的分布为_x ~N(μ,Σ/n)_。

二、简答1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。

在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。

选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。

被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。

ρ(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差2、简述相应分析的基本思想。

相应分析,是指对两个定性变量的多种水平进行分析。

设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。

对这两组因素作随机抽样调查,得到一个rc 的二维列联表,记为 。

多元统计分析期末试题及答案

多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

(完整word版)多元统计分析期末试题及答案

(完整word版)多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑L 、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

多元统计分析期末试题及答案

多元统计分析期末试题及答案

22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。

()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。

215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。

12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。

多元统计分析期末复习试题

多元统计分析期末复习试题

第一章:多元统计分析研究的容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。

随机向量X 与Y 的相关系数矩阵:2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X );E (AXB )=AE (X )B;D(AX)=AD(X)A ’;Cov(AX,BY)=ACov(X,Y)B ’;)',...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=q p ij r Y X ⨯=)(),(ρ(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立.(3).X 的协方差阵D(X)是对称非负定矩阵。

例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质(1).若 ,则E(X)= ,D(X)= .特别地,当 为对角阵时, 相互独立。

(2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量,AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立.(4).多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计(1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量样本均值向量 =样本离差阵S= 样本协方差阵V= S ;样本相关阵R(3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析:一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。

(完整word版)多元统计分析期末试卷

(完整word版)多元统计分析期末试卷

一、(本大题共2小题,每题5分,共10分)1、设),(~3∑μN X ,其中⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑-==221231111,)'1,3,2(,)',,(321μX X X X ,试求32123X X X +-的分布。

2、设三个总体321,G G G 和的分布分别为:)1,3()2,0(),5.0,2(222N N N 和。

试按马氏距离判别准则判别x =2.5应判归哪一类?二、(本题10分)设'1233(,,)~(,)X X X X N μ=∑,其中)10(111,)',,(321<<⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑=ρρρρρρρμμμμ,1342A ⎛⎫= ⎪⎝⎭,14d ⎛⎫= ⎪⎝⎭ (1) 试求(1)AX d +的分布,(1)12()'X X X =(2) 试求3X 的分布。

三、(本题10分)已知5个样品的观测值为:1,4,5,7,11.试用按类平均法对5个样品进行分类。

四、(本题10分)设有两个正态总体21G G 和,已知(m=2)⎥⎦⎤⎢⎣⎡=∑=∑⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡=32121218,2520,151021)1()1(μμ ,先验概率21q q =,而,10)12(=L 75)21(=L 。

试问按贝叶斯判别准则样品⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡=2015,2020)2()1(X X 各应判归哪一类?五、(本题10分)假定人体尺寸有这样的一般规律:身高(1X ),胸围(2X )和上半臂围(3X )的平均尺寸比例是6:4:1。

假定),,1()(n X =αα为来自总体)',,(321X X X X =的随机样本,并设),(~3∑μN X 。

试利用下表中数据来检验其身高、胸围和上半臂围这三个尺寸是否符合这一规律。

(94.6)4,2(,05.005.0==F α)六、(本题10分)设随机变量)',,(321X X X X =的协方差阵为⎪⎪⎪⎭⎫⎝⎛--=∑200052021,试求X 的主成分及主成分对变量i X 的贡献率)3,2,1(=i i ν。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵:当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。

随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X );E (AXB )=AE (X )B;D(AX)=AD(X)A ’;)',...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=qp ij r Y X ⨯=)(),(ρCov(AX,BY)=ACov(X,Y)B ’;(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立.(3).X 的协方差阵D(X)是对称非负定矩阵。

例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。

(2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布.(3).多元正态分布的边缘分布是正态分布,反之不成立.(4).多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计(1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面.(2)多元分布样本的数字特征---常见多元统计量样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立;第五章 聚类分析:一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。

用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。

聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)......Q-型聚类分析(样品)R-型聚类分析(变量)变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。

二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点)1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。

不改变样本间的相互位置,也不改变变量间的相关性。

2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。

经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。

3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。

经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。

4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。

它将具有指数特征的数据结构变换为线性数据结构。

三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP NX μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类;相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l ,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。

样品之间的聚类即Q 型聚类分析,则常用距离(统计量)来测度样品之间的亲疏程度;而变量之间的聚类即R 型聚类分析,常用相似系数(统计量)来测度变量之间的亲疏程度。

1、距离的算法:明氏距离 兰氏距离 斜交空间距离 马氏距离2、相似系数的算法:夹角余弦 相似系数3、样品分类和指标分类:对样品分类常用距离,对指标分类常用相似系数4、明氏(Minkowski )距离的两个缺点:①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。

②明氏距离的定义没有考虑各个变量之间的相关性和重要性。

实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合.5、相似系数:通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i 个样品与第j 个样品之间的相似系数定义为: 实际上,就是两个向量中心化后的夹角余弦6、距离和相似系数选择的原则:(1)所选择的亲疏测度指标在实际应用中应有明确的意义。

(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。

(3)适当地考虑计算工作量的大小。

练习:1.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的___进行科学的分类.2.Q 型聚类法是按___进行聚类,R 型聚类法是按 ___进行聚类。

3.Q 型聚类统计量是___,而R 型聚类统计量通常 采用___。

4.在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间可同度量的目的。

常用的无量纲化方法有以下几种:___、____、___。

5.Q 型聚类方法有___、___、___、___等。

第六章 判别分析:1.四种判别方法:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。

2.贝叶斯Bayes 判别法:距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失;Fisher 判别法随着总体个数的增加,建立的判别式也增加,计算量加大,如果考虑各总体的重要性,问题会突出而简单许多。

既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes 判别就具有这些优点,其判别效果更加理想,应用也更广泛。

基本思想:总是假定对所研究的对象已有一定的认识,常用先验分布来认识它,然后,基于抽取的样本对先验概率作修正,得到后验概率,最后采用相应的判别准则(如误判率最小准则,后验概率最大准则等)进行判别。

Bayes 判别法,对各类(总体)的分布有特定的要求,即已知先验概率和分布密度函数。

3.4.各判别法之间的联系:在正态等协方差阵及先验概率相等的条件下贝叶斯判别与距离判别∑∑∑===----=p k p k j jk i ik p k j jk i ik ij x x x x x x x x 11221])(][)([))((γ等价;不加权的Fisher判别法等价于距离判别法练习:1.判别分析是要解决在研究对象已________的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。

2.用判别分析方法处理问题时,通常以_______作为衡量新样本点与各已知组别接近程度的指标。

3.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有_______、_________。

4.在p 维空间Rp 中,点与点之间的接近和疏远尺度用_______来衡量,最简单的就是________或__________。

5.类内样本点接近,类间样本点疏远的性质,可以通过_________与______的大小差异表现出来,而两者的比值能把不同的类区别开来。

这个比值越大,说明类与类间的差异越___,分类效果越___。

6.Fisher 判别法是找一个由p 个变量组成的______,使得各自组内点的____尽可能接近,而不同组间点的尽可能疏远。

简答题:1.判别分析的分类:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。

2.判别的基本思想:是根据已掌握的、历史上若干样本的p 个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。

根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。

3.简述两个总体的判别及判别准则:基本思路:(1)统计模型:设G1,G2是两个不同的P 维已知总体,x=(x1,…,xp )T 是一个待判样品; (2)距离判别准则: (3)判别函数: 4.简述Fisher 判别法及具体判别步骤:Fisher 判别的思想是投影,将k 组p 维数投影到某一个方向,使得他们的投影组与组之间尽可能的分开。

5.简述逐步判别基本原理: 逐步引入变量,每次把一个判别能力最强的变量引入,每引入一个新的变量,对老变量又逐个进行检验,如其判别能力因新变量的引入而变得不显著,应把它从判别式中剔除,最终建立的判别函数中仅保留判别能力显著的变量。

6.简述BAYES 判别分析与其它判别方法的优劣:(1)与距离判别的优劣比较:距离判别优于两个总体情况下的判别,对两个总体几乎没有任何要求,简捷,实用,易懂;距离判别法在多个总体时,没有考虑各总体出现的概率,对各个变量的重要性一视同仁,难免产生误判。

Bayes 判别法对的理论与方法严密而完善,对研究对象的信息利用充分,误判率大大降低,但计算较复杂。

(2)与Bayes判别法的比较:Bayes判别与Fisher判别的比较:对总体的分布要求不同;多个总体下,Fisher判别的计算量大,但均值向量共线性程度较好时,可以考虑用Fisher判别;各总体出现的重要性不同时应使用是Bayes判别。

第七章、主成分分析1.主成分分析就是设法将原来变量重新组合成一组新的相互无关的综合变量来代替原来的变量,并尽可能多地反映原来变量的信息。

数学表现为:Var (Yj )最大;cov(Yi ,Yj)=0;2.主成分就是以协方差阵的特征向量为系数的线性组合,它们互不相关,其方差的特征根。

相关文档
最新文档