气象统计分析与预报 经验正交函数分解

气象统计分析与预报  经验正交函数分解
气象统计分析与预报  经验正交函数分解

实验二 经验正交函数分解

一、目的和要求:

经验正交函数分解(EOF )是统计天气分析中气象要素场最基础的研究模型,是必须理解和掌握的方法之一,是后续课程中许多气象要素场的计算结果的理解的基础理论,也是毕业设计和论文中的基本分析方法。该方法用个数较少的几个空间分布模态来描述环流形势,而且基本涵盖环流场的信息,既能作为天气分析模型,其方法的延拓又能作为天气预报模型,在实际工作中也有极强的实用意义。通过该实验,深刻理解气象要素场的统计模型的意义,掌握气象要素场分析的基本方法,为实际预报业务和科研工作打下一定的基础。

二、实验的主要内容:

对(0N -90N ,60E -120W )850hPa 高度场进行经验正交展开(EOF.FOR ),输出分析主要参数指标;绘制环流型图和相应的时间系数序列图,并加以分析。

三、步骤:

3.1 熟悉资料方法

3.1.1 资料

提供的资料为NCEP/NCAR 60年(1948年-2007年)逐年1~12月的850hPa 高度场资料,

资料范围为(90N -90S ,0E -360E

),网格距为2.5*2.5,纬向格点数为144,经向格点数为73。资料为NC 格式,资料从南到北、自西向东排列,每月为一个记录,按年逐月排放,注意读取方式以及记录长度。

本次实验应用NCEP/NCAR (0N -90N ,60E -120W

) 58年(1948年-2005年)逐年7月的850hPa 高度场资料,纬向格点数为73,经向格点数为37。

3.1.2 方法(经验正交函数分解EOF )

EOF (经验正交函数分解)是针对气象要素场进行的,其基本原理是把包含p 个空间点 (变量)的场随时间变化进行分解。设抽取样本容量为n 的资料.则场中任一空间点i 和任

一时间点j 的距平观测值ij x 可看成由p 个空间函数ik v 和时间函数kj y (k=1,2,…,p)的线性组合,表示成

11221p

ij ik kj i j i j ip pj k x v y v y v y v y ===+++∑

EOF 功能是从一个气象场多次观测资料中识别出主要空间型及其时间演变规律。

EOF 展开就是将气象变量场分解为空间函数(V )和时间函数(T )两部分的乘积之和: X=VT 。

应用步骤:

1) 资料预处理(距平或标准化处理)

2) 计算协方差矩阵

3) 用Jacobi 方法或迭代法计算协方差矩阵的特征值与特征向量

4) 将特征值从大到小排列

5) 计算特征向量的时间系数

6) 计算每个特征向量的方差贡献

7) 结果输出

3.2 编写程序

要求编写主程序,其中包括资料读入,范围截取,子程序调用。注意:EOF 的资料输入,时间场一维,空间场一维。

*********************(附程序,对关键部分标志出)**********************

EOF 程序

C**********************************************************************

C *

C PROGRAM NOTES *

C *

C THIS PROGRAM USES EOF TO ANALYSIS TIME SERIES *

C OF METEOROLOGICAL FIEL

D *

C * C**********************************************************************

C *

C ******** Parameter Table ********* *

C *

C Mt===>LENTH OF TIME SERIES *

C N ===>NUMBER OF GRID-POINTS ( or STATIONS ) *

C KS=-1, SELF; KS=0, DEPATURE; KS=1, STANDERDLIZE

D DEPATUR

E *

C KV = NUMBER OF EIGENVALUES WILL BE OUTPUT *

C KVT = NUMBER OF EIGENVECTORS AN

D TIM

E SERIES WILL BE OUTPUT *

C MNH = Minimum(Mt,N) *

C EGVT===>EIGENVECTORS, ECOF===>TIME COEFFICIENTS FOR EGVT *

C ER(KV,1)====>LAMDA; LAMDA===>EIGENVALUE *

C ER(KV,2)====>ACCUMULATE LAMDA *

C ER(KV,3)====>THE SUM OF COMPONENTS VECTORS PROJECTE

D ONTO *

C EIGENVACTOR. *

C ER(KV,4)====>ACCUMULATE ER(KV,3) *

C *

C********************************************************************** PARAMETER(N=73*37, MT=58, MNH=58)

PARAMETER(KS=1, KV=10, KVT=10)

REAL F(N,MT),AVF(N),DF(N),ER(MNH,4)

REAL A(MNH,MNH),S(MNH,MNH),V(MNH)

c**************************************************************************

c INFN-输入数据文件名;OUTERA-输出特征值及方差贡献、累积方差贡献的文件名(文本);

c OUTTC1-输出时间系数文件(文本);OUTTC2-输出时间系数文件(二进制);

c OUTTEVT-输出特征向量文件(二进制);

c**************************************************************************

CHARACTER*50 INFN,OUTERA,OUTTC1,OUTTC2,OUTEVT

DATA INFN/'hgt8501948-2005july.grd'/

DATA OUTERA/'hgt_XT03ER3.DAT'/

DATA OUTTC1/'hgt_XT03TC13.DAT'/

DATA OUTTC2/'hgt_XT03TC23.DAT'/

DATA OUTEVT/'hgt_XT03VT3.DAT'/

C---------------- Read ORIGINAL DATA ----------------------------

write(*,*)'Now is reading primative field !'

OPEN (8,FILE=INFN,FORM='UNFORMATTED',ACCESS='DIRECT',RECL=N)

DO IT=1,MT

READ (8,REC=IT)(F(IS,IT),IS=1,N)

END DO

pause

C************** START TO RUN EOF PROGRAM ******************************

WRITE(*,*)

write(*,*)' FIRST STEP'

write(*,*)' forming the initial matrix (F) by using TRANSF !'

CALL TRANSF(N,Mt,F,AVF,DF,KS)

WRITE(*,*)

write(*,*)' STEP 2'

write(*,*)' achiving the covariance matrix by using the FORMA !' CALL FORMA(N,Mt,MNH,F,A)

WRITE(*,*)

write(*,*)' STEP 3 '

write(*,*)' caculating the eigenvalue and eigenvectors '

WRITE(*,*)' by using Jacob method !'

CALL JCB(MNH,A,S,0.001)

WRITE(*,*)

write(*,*)' STEP 4'

write(*,*)' arrange the eigenvalue and eigenvectors' WRITE(*,*)' by using ARRANG !'

CALL ARRANG(MNH,A,ER,S)

WRITE(*,*)

write(*,*)' STEP 5'

write(*,*)' the caculation of standard eigenvectors'

WRITE(*,*)' by using TCOEFF !'

CALL TCOEFF(KVT,N,Mt,MNH,S,F,V,ER)

write(*,*)

write(*,*)' STEP 6'

write(*,*)' outputing eigenvalue and accumulation using OUTER !' CALL OUTER(MNH,ER,OUTERA)

WRITE(*,*)

WRITE(*,*)' STEP 7'

write(*,*)' outputing the time coefficient of the eigenvecters !' CALL OUTVT1(KVT,N,Mt,MNH,S,F,OUTTC1,OUTTC2)

WRITE(*,*)

WRITE(*,*)' STEP 8'

write(*,*)' outputing the eigenvecters !'

CALL OUTVT3(KVT,N,Mt,MNH,S,F,OUTEVT)

END

C *************** FINISH THE MAIN PROGRAM ***************************** C *

C SUBROUTINE FUNCTION * C * C THIS SUBROUTINE PRINTS ARRAY ER * C ER(KV,1) FOR SEQUENCE OF EIGENVALUE FROM BIG TO SMALL * C ER(KV,2) FOR EIGENVALUE FROM BIG TO SMALL * C ER(KV,3) FOR SMALL LO=(LAMDA/TOTAL VARIANCE) * C ER(KV,4) FOR BIG LO=SUM OF SMALL LO) * C ********************************************************************* C -------- SAVING THE EIGENVALUE AN

D ERROR ---------------------------* SUBROUTIN

E OUTER(MNH,ER,OUTERA)

DIMENSION ER(MNH,4)

open (30,file=OUTERA)

WRITE(30,510)

WRITE(30,520)

WRITE(30,530) (IS,(ER(IS,J),J=1,4),IS=1,MNH)

CLOSE(30)

510 FORMAT(25X,'EIGENVALUE AND ANALYSIS ERROR')

520 FORMAT(5X,'N',8X,'LAMDA',10X,'SLAMDA',11X,'PH',12X,'SPH')

530 FORMAT(I6,2E15.6,2F15.5)

RETURN

END

C********************************************************************** C SUBROUTINE FUNCTION * C * C THIS SUBROUTINE PRINTS STANDARD EIGENVECTORS * C AND ITS TIME-COEFFICENT SERIES * C********************************************************************** C ------------- save time-coeffivcent seried of S.E. ------------

SUBROUTINE OUTVT1(KVT,N,M,MNH,S,F,OUTTC1,OUTTC2)

DIMENSION F(N,M),S(MNH,MNH)

CHARACTER*50 OUTTC1,OUTTC2

OPEN(31,file=OUTTC1)

OPEN(32,file=OUTTC2,FORM='UNFORMATTED',ACCESS='DIRECT',RECL=KVT) WRITE(31,400)

WRITE(31,200) (IS,IS=1,KVT)

DO J=1,M

IF(M.GE.N) THEN

WRITE(31,300) J,(F(IS,J),IS=1,KVT)

WRITE(32,REC=J) (F(IS,J),IS=1,KVT)

ELSE

WRITE(31,300) J,(S(J,IS),IS=1,KVT)

WRITE(32,REC=J) (s(J,IS),IS=1,KVT)

ENDIF

END DO

CLOSE(31)

200 FORMAT(3X,10I15)

300 FORMAT(I5,10E15.7)

400 FORMAT(30X,'TIME-COEFFICENT SERIES OF S. E.')

RETURN

END

C --------- save standard eignvectors ------------------

SUBROUTINE OUTVT3(KVT,N,M,MNH,S,F,OUTEVT)

DIMENSION F(N,M),S(MNH,MNH)

OPEN(33,file=OUTEVT,FORM='UNFORMATTED',ACCESS='DIRECT',RECL=N)

DO JS=1,KVT

IF(M.GE.N) THEN

WRITE(33,REC=JS)(S(I,JS),I=1,N)

ELSE

WRITE(33,REC=JS)(F(I,JS),I=1,N)

ENDIF

END DO

CLOSE(33)

RETURN

END

C*********************************************************************** C SUBROUTINE FUNCTION * C * C THIS SUBROUTINE PROVIDES INITIAL F BY KS (optional parameter) * C ks=-1, 0, or 1 according to primative field * C*********************************************************************** SUBROUTINE TRANSF(N,M,F,AVF,DF,KS)

REAL F(N,M),AVF(N),DF(N)

IF (KS) 30,10,10

10 DO I=1,N

AVF(I)=0.0

DF(I)=0.0

END DO

DO I=1,N

DO J=1,M

AVF(I)=AVF(I)+F(I,J)

END DO

AVF(I)=AVF(I)/M

DO J=1,M

F(I,J)=F(I,J)-AVF(I)

END DO

END DO

IF (KS.EQ.1) THEN

DO I=1,N

DO J=1,M

DF(I)=DF(I)+F(I,J)*F(I,J)

END DO

DF(I)=SQRT(DF(I)/M)

DO J=1,M

F(I,J)=F(I,J)/DF(I)

END DO

END DO

END IF

30 CONTINUE

RETURN

END

C ----------------- FORMA -----------------------------

SUBROUTINE FORMA(N,M,MNH,F,A)

REAL F(N,M),A(MNH,MNH)

IF (M-N) 40,50,50

40 DO I=1,MNH

DO J=1,I

A(I,J)=0.0

DO IS=1,N

A(I,J)=A(I,J)+F(IS,I)*F(IS,J)

END DO

A(J,I)=A(I,J)

END DO

END DO

RETURN

50 DO I=1,MNH

DO J=1,I

A(I,J)=0.0

DO JS=1,M

A(I,J)=A(I,J)+F(I,JS)*F(J,JS)

END DO

A(J,I)=A(I,J)

END DO

END DO

RETURN

END

c*********************************************************************** C SUBROUTINE FUNCTION * C * C THIS SUBROUTINE COMPUTS EIGENVALUES AND EIGENVECTORS OF A * c*********************************************************************** SUBROUTINE JCB(N,A,S,EPS)

DIMENSION A(N,N),S(N,N)

DO I=1,N

DO J=1,N

IF (I.EQ.J) THEN

S(I,J)=1.0

ELSE

S(I,J)=0.0

END IF

END DO

END DO

G=0.0

DO I=2,N

I1=I-1

DO J=1,I1

G=G+2.*A(I,J)*A(I,J)

END DO

END DO

S1=SQRT(G)

S2=EPS/FLOAT(N)*S1

S3=S1

L=0

50 S3=S3/FLOAT(N)

60 DO 130 IQ=2,N

IQ1=IQ-1

DO 130 IP=1,IQ1

IF(ABS(A(IP,IQ)).LT.S3) GOTO 130

L=1

V1=A(IP,IP)

V2=A(IP,IQ)

V3=A(IQ,IQ)

U=0.5*(V1-V3)

IF (U.EQ.0.0) G=1.

IF (ABS(U).GE.1E-10) G=-SIGN(1.,U)*V2/SQRT(V2*V2+U*U) ST=G/SQRT(2.*(1.+SQRT(1.-G*G)))

CT=SQRT(1.-ST*ST)

DO I=1,N

G=A(I,IP)*CT-A(I,IQ)*ST

A(I,IQ)=A(I,IP)*ST+A(I,IQ)*CT

A(I,IP)=G

G=S(I,IP)*CT-S(I,IQ)*ST

S(I,IQ)=S(I,IP)*ST+S(I,IQ)*CT

S(I,IP)=G

END DO

DO I=1,N

A(IP,I)=A(I,IP)

A(IQ,I)=A(I,IQ)

END DO

G=2.*V2*ST*CT

A(IP,IP)=V1*CT*CT+V3*ST*ST-G

A(IQ,IQ)=V1*ST*ST+V3*CT*CT+G

A(IP,IQ)=(V1-V3)*ST*CT+V2*(CT*CT-ST*ST)

A(IQ,IP)=A(IP,IQ)

130 CONTINUE

IF (L-1) 150,140,150

140 L=0

GOTO 60

150 IF (S3.GT.S2) GOTO 50

RETURN

END

c********************************************************************** C SUBROUTINE FUNCTION * C * C THIS SUBROUTINE PROVIDES A SERIES OF EIGENVALUES * C FROM MAX TO MIN * C********************************************************************** SUBROUTINE ARRANG(MNH,A,ER,S)

DIMENSION A(MNH,MNH),ER(MNH,4),S(MNH,MNH)

TR=0.0

DO I=1,MNH

TR=TR+A(I,I)

ER(I,1)=A(I,I)

END DO

MNH1=MNH-1

DO K1=MNH1,1,-1

DO K2=K1,MNH1

IF(ER(K2,1).LT.ER(K2+1,1)) THEN

C=ER(K2+1,1)

ER(K2+1,1)=ER(K2,1)

ER(K2,1)=C

DO I=1,MNH

C=S(I,K2+1)

S(I,K2+1)=S(I,K2)

S(I,K2)=C

END DO

END IF

END DO

END DO

ER(1,2)=ER(1,1)

DO I=2,MNH

ER(I,2)=ER(I-1,2)+ER(I,1)

END DO

DO I=1,MNH

ER(I,3)=ER(I,1)/TR

ER(I,4)=ER(I,2)/TR

END DO

RETURN

END

C********************************************************************** C THIS SUBROUTINE PROVIDES STANDARD EIGENVECTORS * C (M.GE.N, SAVED IN S; M.LT.N, SAVED IN F) AND ITS TIME COEFFICENTS * C SERIES (M.GE.N, SAVED IN F; M.LT.N, SAVED IN S) * C********************************************************************** SUBROUTINE TCOEFF(KVT,N,M,MNH,S,F,V,ER)

DIMENSION S(MNH,MNH),F(N,M),V(MNH),ER(MNH,4)

DO J=1,MNH

C=0.0

DO I=1,MNH

C=C+S(I,J)*S(I,J)

END DO

C=SQRT(C)

DO I=1,MNH

S(I,J)=S(I,J)/C

END DO

END DO

IF (M.GE.N) THEN

DO J=1,M

DO I=1,N

V(I)=F(I,J)

F(I,J)=0.0

END DO

DO IS=1,KVT

DO I=1,N

F(IS,J)=F(IS,J)+V(I)*S(I,IS)

END DO

END DO

END DO

ELSE

DO I=1,N

DO J=1,M

V(J)=F(I,J)

F(I,J)=0.0

END DO

DO JS=1,KVT

DO J=1,M

F(I,JS)=F(I,JS)+V(J)*S(J,JS)

END DO

END DO

END DO

DO JS=1,KVT

DO J=1,M

S(J,JS)=S(J,JS)*SQRT(ER(JS,1))

END DO

DO I=1,N

F(I,JS)=F(I,JS)/SQRT(ER(JS,1))

END DO

END DO

END IF

RETURN

END

3.3 结果输出(范例)

范例所用资料为NCEP/NCAR (0N -90N ,60E -120W

) 58年(1948年-2005年)逐年7月的850hPa 高度场资料,方差贡献及典型场分布(图1~图6)仅供参考。

EIGENVALUE AND ANALYSIS ERROR

N LAMDA SLAMDA PH SPH

1 0.490105E+05 0.490105E+05 0.31285 0.31285

2 0.223947E+05 0.714052E+05 0.14295 0.45580

3 0.133197E+05 0.847249E+05 0.08502 0.54083

4 0.109573E+0

5 0.956822E+05 0.06994 0.61077 5 0.931490E+04 0.104997E+0

6 0.05946 0.67023 6 0.665244E+04 0.111650E+06 0.04246 0.71270

7 0.587009E+04 0.117520E+06 0.03747 0.75017

8 0.463021E+04 0.122150E+06 0.02956 0.77972

图1 EOF 第一特征向量场

图2 第一特征向量场对应的时间系数序列

图3 EOF第二特征向量场

图4 第二特征向量场对应的时间系数序列

图5 EOF第三特征向量场

图6 第三特征向量场对应的时间系数序列

第一模态分析

第一模态表现出大体以东经130o为界,西低东高的形势,即在东亚大陆气压较低而北太平洋地区气压较高,另从时间系数序列中可以看出这个形势总体趋势在减弱。

3.4 实验报告内容

3.4.1实验目的

3.4.2实验内容(含实验资料数据介绍)

3.4.3计算方法和使用软件

3.4.4计算程序清单

3.4.5 绘制前三个特征向量场

3.4.6 用所学知识分析图表资料

GIS空间分析复习提纲及答案

空间分析复习提纲 一、基本概念(要求:基本掌握其原理及含义,能做名词解释) 1、空间分析:是基于地理对象的位置和形态的空间数据的分析技术,其目的在于提取和传输空间信息。 2、空间数据模型:以计算机能够接受和处理的数据形式,为了反映空间实体的某些结构特性和行为功能,按一定的方案建立起来的数据逻辑组织方式,是对现实世界的抽象表达。分为概念模型、逻辑模型、物理模型。 3、叠置分析:是指在同一地区、同一比例尺、同一数学基础、不同信息表达的两组或多组专题要素的图形或数据文件进行叠加,根据各类要素与多边形边界的交点或多边形属性建立多重属性组合的新图层,并对那些结构和属性上既互相重叠,又互相联系的多种现象要素进行综合分析和评价;或者对反映不同时期同一地理现象的多边形图形进行多时相系列分析,从而深入揭示各种现象要素的内在联系及其发展规律的一种空间分析方法。 4、网络分析:网络分析是通过研究网络的状态以及模拟和分析资源在网络上的流动和分配情况,对网络结构及其资源等的优化问题进行研究的一种空间分析方法。 5、缓冲区分析:即根据分析对象的点、线、面实体,自动建立它们周围一定距离的带状区,用以识别这些实体或主体对邻近对象的辐射范围或影响度,以便为某项分析或决策提供依据。其中包括点缓冲区、线缓冲区、面缓冲区等。 6、最佳路径分析:也称最优路径分析,以最短路径分析为主,一直是计算机科学、运筹学、交通工程学、地理信息科学等学科的研究热点。这里“最佳”包含很多含义,不仅指一般地理意义上的距离最短,还可以是成本最少、耗费时间最短、资源流量(容量)最大、线路利用率最高等标准。 7、空间插值:空间插值是指在为采样点估计一个变量值的过程,常用于将离散点的测量数据转换为连续的数据曲面,它包括内插和外推两种算法。,前者是通过已知点的数据计算同一区域内其他未知点的数据,后者则是通过已知区域的数据,求未知区域的数据。 8、空间量算:即空间量测与计算,是指对GIS数据库中各种空间目标的基本参数进行量算与分析,如空间目标的位置、距离、周长、面积、体积、曲率、空间形态以及空间分布等,空间量算是GIS获取地理空间信息的基本手段,所获得的基本空间参数是进行复杂空间分析、模拟与决策制定的基础。 9、克里金插值法:克里金插值法是空间统计分析方法的重要内容之一,它是建立在半变异函数理论分析基础上,对有限区域内的区域变化量取值进行无偏最优估计的一种方法,不仅考虑了待估点与参估点之间的空间相关性,还考虑了各参估点间的空间相关性,根据样本空间位置不同、样本间相关程度的不同,对每个参估点赋予不同的权,进行滑动加权平均,以估计待估点的属性值。 二、分析类(要求:重点掌握其原理及含义,能结合本专业研究方向做比较详细的阐述) 1、空间数据模型的分类? 答:分为三类: ①场模型:用于表述二维或三维空间中被看作是连续变化的现象; ②要素模型:有时也称对象模型,用于描述各种空间地物; ③网络模型:一种某一数据记录可与任意其他多个数据记录建立联系的有向图结构的数据模型,可 以模拟现实世界中的各种网络。

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

自然正交函数分析(EOF)程序.docx

5?3自然正交函数分析(EOF)程序 近年來,自然正交函数(乂称经验正交函数)展开在气象上应用比较广泛。这种正交函数展开不彖三角函数展开、球函数展开那样有固定的展开形式。它无固定的函数形式,不是事先人为地给定典型场函数,图形是由场木身来决定的,它具有收敛快又能更好地反映岀场的基木结构的特征。它可以在有限的区域屮进行,既可以取空间不同站点进行分解,也可以对同一站点的不同吋间、不同高度的多种要素进行综和分析。因此它在气彖中具有广泛的应用,可用于气象要素场分析、大气垂直结构分析、动力模型垂直分层等。 5. 3.1功能 计算要素场的自然正交函数分解。 5. 3. 2方法说明 口然止交函数分解是针对气彖要素场进行的,它的基本思想是把包含P个空间点(或P个变 量)的n个时次的观测场随时间进行分解,即将某一区域的气象要素场序列Fq (i=l, 2,???,p; j=l,2,…,n,即p个空间点的n个时次的观测资料)分解成相互正交的时间函数与相互正交的空间函 数的乘积Z和,常把空间函数VW看作典型场,时间函数看作典型场的权重系数,则不同时间 的要素场是若干个典型场按不同权重线性叠加的结果,各个场之间的差别就在于各典型场的系 数不同。则气象耍素场可以表示为 P Ej =》%tkj = Vig+Vj2t2j+???+Viptpj (5. 3. 1) k=l 英中Fq表示第i个场中的第j个测点的观测值。 可将(5.3.1)是写为矩阵的形式 F =VT( 5 . 3 . 2 ) 式中F为pxn阶的均值为0的资料阵,V为pxp阶的空间函数阵,卩为pxn阶的时间函数阵。 由于V和0是根据场的资料阵F进行分解而得到的,分解的函数没有固定的函数形式,因而称为“经验”的,另外,我们还要求这种分解具有“正交”性,即要求满足下式 P Vk V, =X v ik v n =0 (kHl) i=1(5. 3. 3 ) n 兀齐-£,kjtij =0 (k H 1) 冃 事实上,我们对(5. 3. 2)式右乘厂可得 FF =VTTV r( 5 . 3 . 4 ) 因FF'是pxp阶对称阵,其元素为距平变量的交义积。根据实对称矩阵的分解定理有 FF =VAV f(5. 3. 5 ) 其小A是FF'矩阵的特征值组成的对角阵,V是对应的特征向量为列向量组成的矩阵。比较(5. 3. 4)和(5. 3. 5 )式可知 TT r = A(5 . 3. 6 ) 乂根据特征向量的性质有

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

正交函数分解(EOF)源代码(Visual Basic 6.0)

'************************************* ' 全局变量,便于主函数调用。 ' VB 6.0 的函数返回的参数偏少, ' 使用全局变量在一定程度可以解决这个问题。 '**************************************** Public A() As Single ' 协方差/相关系数矩阵A Public V() As Single '特征向量为列组成的矩阵,即空间函数V (EOF)Public T() As Single '时间系数矩阵T(PC) Public B() As Single '特征值λ(E),按从大到小排列 Public GM() As Single '解释的方差(%)(特征向量对X场的累积贡献率)P Public GA() As Single Public GB() As Single '个体i特征向量对X场的贡献率ρ Public XF() As Single '模拟结果 '******************************************************** ' 函数名:CovarMat ' 函数用途: 计算协方差(相关系数)矩阵 ' 参数说明:矩阵下标为1:N,从1开始; ' X,存放原始观测值,二维实型数组,X(P,P)。 ' 返回:计算协方差(相关系数)矩阵。 '******************************************************* Function CovarMat(X() As Single) As Single() Dim XX() As Single Dim P As Integer, N As Integer Dim px As Single P = UBound(X, 1) N = UBound(X, 2) px = IIf(N > 0, 1 / N, 1) ReDim Preserve XX(1 To P, 1 To P) Dim iAs Integer, j As Integer, k As Integer ' 求X乘以X的转置,即A=XXˊ For i = 1 To P For j = 1 To P XX(i, j) = 0 For k = 1 To N XX(i, j) = XX(i, j) + X(i, k) * X(j, k) Next k XX(i, j) = XX(i, j) * px Next j Next i

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

自然正交函数分析(EOF)程序

5.3自然正交函数分析(EOF)程序 近年来,自然正交函数(又称经验正交函数)展开在气象上应用比较广泛。这种正交函数展开不象三角函数展开、球函数展开那样有固定的展开形式。它无固定的函数形式,不是事先人为地给定典型场函数,图形是由场本身来决定的,它具有收敛快又能更好地反映出场的基本结构的特征。它可以在有限的区域中进行,既可以取空间不同站点进行分解,也可以对同一站点的不同时间、不同高度的多种要素进行综和分析。因此它在气象中具有广泛的应用,可用于气象要素场分析、大气垂直结构分析、动力模型垂直分层等。 5.3.1功能 计算要素场的自然正交函数分解。 5.3.2方法说明 自然正交函数分解是针对气象要素场进行的,它的基本思想是把包含p个空间点(或p个变量)的n 个时次的观测场随时间进行分解,即将某一区域的气象要素场序列ij F (i=1, 2, …,p ;j=1,2,…,n ,即p 个空间点的n 个时次的观测资料)分解成相互正交的时间函数与相互正交的空间函数的乘积之和,常把空间函数ik v 看作典型场,时间函数kj t 看作典型场的权重系数,则不同时间的要素场是若干个典型场按不同权重线性叠加的结果,各个场之间的差别就在于各典型场的系数不同。则气象要素场可以表示为 ∑=+++==p 1k pj ip j 22i j 11i kj ik ij t v t v t v t v F (5.3.1) 其中F ij 表示第i 个场中的第j 个测点的观测值。 可将(5.3.1)是写为矩阵的形式 VT F = (5.3.2) 式中F 为n p ?阶的均值为0的资料阵, V 为p p ?阶的空间函数阵,T 为n p ?阶的时间函数阵。由于V 和T 是根据场的资料阵F 进行分解而得到的,分解的函数没有固定的函数形式,因而称为“经验”的,另外,我们还要求这种分解具有“正交”性,即要求满足下式 ??? ????≠=='≠=='∑∑==)l k (0t t t t )l k (0v v v v n 1j lj kj l k p 1i il ik l k (5.3.3) 事实上,我们对(5.3.2)式右乘T '可得 V T VT F F ''=' (5.3.4) 因F F '是p p ?阶对称阵,其元素为距平变量的交叉积。根据实对称矩阵的分解定理有 V V ΛF F '=' (5.3.5) 其中Λ是F F '矩阵的特征值组成的对角阵,V 是对应的特征向量为列向量组成的矩阵。比较(5.3.4)和(5.3.5)式可知 ΛT T =' (5.3.6) 又根据特征向量的性质有 I V V V V ='=' (5.3.7)

实验报告二 经验正交分解

气象统计分析与预报方法 课程实验报告 实验名称 实验二 经验正交函数分解 系 别 大气科学 姓 名 学 号 班 级 应气101 实验地点 机房 实验日期 11月13日 评 分 指导老师 肖国杰 同组其他成员 一、实验内容(含实验原理介绍):实验所提供的资料为NCEP/NCAR 59年(1948年-2006年)逐年1~12月的 850hPa 高度场资料,资料范围为(90 N -90S ,0E -360E ),网格距为2.5*2.5,纬向格点数为144,经向格点 数为73。资料为NC 格式,资料从南到北、自西向东排列,每月为一个记录,按年逐月排放,注意读取方式以及记录长度。 对(0N -90N ,60E -120W )850hPa 高度场进行经验正交展开(EOF.FOR ),输出分析主要参数指标;绘制环流型图和相应的时间系数序列图,并加以分析。 本实验运用EOF 方法: EOF (经验正交函数分解)是针对气象要素场进行的,其基本原理是把包含p 个空间点 (变量)的场随时间变化进行分解。设抽取样本容量为n 的资料.则场中任一空间点i 和任一时间点j 的距平观测值 ij x 可看成由p 个空间函数ik v 和时间函数kj y (k=1,2,…,p)的线性组合,表示成 11221 p ij ik kj i j i j ip pj k x v y v y v y v y == =+++∑ EOF 功能是从一个气象场多次观测资料中识别出主要空间型及其时间演变规律。 EOF 展开就是将气象变量场分解为空间函数(V )和时间函数(T )两部分的乘积之和: X=VT 。 应用步骤: 资料预处理(距平或标准化处理) 计算协方差矩阵、用Jacobi 方法或迭代法计算协方差矩阵的特征值与特征向量、将特征值从大到小排列、计算特征向量的时间系数、计算每个特征向量的方差贡献、结果输出

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析自己写

多元统计分析有哪些应用? 比较 关系 预测 分类 评价 各种应用对应的多元统计分析方法 比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析 ?多元回归、logisitic回归、Cox回归、Poisson回归 多元统计分析方法主要内容 多元T检验、多元方差分析 ?Hotelling T2 ?multivariate analysis of variance (MANOV A) 多元线性回归(multivariate linear regression) logistic回归(logistic regression) Cox比例风险模型(Cox model) Poisson回归(Poisson regression) 聚类分析(cluster analysis) 判别分析(discriminant analysis) 主成分分析和因子分析 生存分析 本课程的要求 上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata, SPSS10.01 考试: 理论占30%,实验占70% 二、多元统计分析的基本概念 研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年 龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。狭义来看,研究因素是指可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。 数值变量→分类成有序分类变量 哑变量的数量=K-1(K为分类数)

气象中的统计方法总结

51气象中的统计方法总结 2、判别分析;广东省徐闻气象局[20]用二级判别做台风登陆地段; 3、相关分析;近20年来在气象统计中用得较多的主要有典型相关(;奇异值分解(SVD)也是提取两个场的最大线性相关; 4、气象场的分解及其应用;50年代中期由Loreng引入到大气科学研究中的;4.1经验正交函数(EOF)分解;章基嘉等[30]应用经验正交函数对亚洲500hP;4.2主成份(主分量) 2、判别分析 广东省徐闻气象局[20]用二级判别做台风登陆地段的预报。Fisher、Bayes以及逐步判别等虽然在气象实际中广泛应用,但严格地说,这些方法仅当变量为正态分布时才可应用, Logistic判别对变量的基本假设条件较宽,对未经正态检验的变量应用本方法是可行的,且可用于既有连续变量又有多值离散变量的情形。吕纯濂等[21] 将Logistic判别引入中国气象界,并研究了二次Logistic判别[22]分析及逐步判别[23]在气象中的应用。 3、相关分析 近20年来在气象统计中用得较多的主要有典型相关(CCA)分析和奇异值分解(SVD)方法。CCA是提取两个气象场的最大线性相关摸态的方法。朱盛明、祝浩敏[24]在数值预报的解释应用中用典型相关分析提取有物理意义的预报因子作预报方程。陈嘉玲、谢炯光[25]用典型相关分析作中期冷空气预报。黄嘉佑[26]用典型相关分析作副高的统计动力预报。近年来发展了一种新的CCA改进方法,称为典型相关分析的BP(Barnert 和Preisendorfer)方法,在气象统计中也得到了应用[27]。 奇异值分解(SVD)也是提取两个场的最大线性相关摸态的方法,SVD 方法可以变成是两个要素场关系的扩大EOF分析。谢炯光等[28]用奇异值分解方法,求出了广东省前汛期(4-6月)西太平洋场海温与广东省降水场的6对奇异向量,来作汛期降水趋势预报。江志红等[29]用SVD方法讨论了中国夏半年降水与北太平洋海温异常的关系。

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

短期气候预测基础实习二

实习二:大气环流分型 一、实习目的及要求 本实习的目的是掌握大气环流分型的基本方法--EOF(经验正交函数分解);要求熟悉EOF方法和程序的应用:用相关GRADS气象绘图系统,编写数据描述文件以及GRADS执行程序,用图形输出空间向量场;并能正确分析结果数据,完成实习报告。 二、实习内容 对1948-2008年1月欧亚(20-700N;40o-140oE)500hPa位势高度场的标准化序列进行自然正交展开,绘图主要的异常环流型环流型,输出讨论EOF分析主要参数标。 三、实习步骤 1、实习资料 NCEP/NCAR 1948-2008年1月的500百帕月平均高度场资料,资料范围为(900S-900N,00-3600E) 网格距为2.50×2.50,纬向格点数为144,经向格点数为41 资料为GRD格式,资料从南到北、自西向东排列,每月为一个记录,按年逐月排放。 2、实习方法 EOF功能:从一个气象场多次观测资料中识别出典型空间场型及其时间演变规律。EOF展开就是将气象变量场分解为空间函数(V)和时间函数(T)两部分的乘积之和:X=VT。 应用步骤: ①数据输入(主程序) ②资料预处理(距平或标准化处理) call TRANSF(N,M,F,AVF,DF,KS) ③计算协方差矩阵call FORMA(N,M,MNH,F,A) ④用Jacobi方法计算协方差矩阵的特征值与特征向量 JCB(mnh,A,S,EPS) ⑤将特征值从大到小排列call ARRANG(KV,MNH,A,ER,S) ⑥计算特征向量的时间系数call TCOEFF(KVT,KV,N,M,MNH,S,F,V,ER) ⑦计算每个特征向量的方差贡献call OUTER(KV,ER) ⑧结果输出(主程序) 3、编写程序 (1)绘制1948-2008年1月欧亚地区500hPa位势平均高度场图 实习配置的GRADS数据描述文件: dset d:\nyclimate\sh2\hgt500.grd undef -9.99E+33 title monthly mean hgt from the NCEP Reanalysis

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

生物统计学 第九章 多元统计分析

第九章多元统计分析简介 多元统计分析主要研究多个变量之间的关系以及具有这些变量的个体之间的关系。无论是自然科学还是社会科学,无论是理论研究还是应用决策,多元统计分析都有较广泛的应用。近年来,随着计算机的普及和广泛应用,多元统计分析的应用越来越广泛,越来越深入。生物学研究中,有许多问题要考虑样本与样本之间的关系、性状与性状之间的关系,也要考虑样本与性状之间的关系,为了能够正确处理这些错综复杂的关系,就需要借助于多元统计分析方法来解决这些问题。 从应用的观点看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。一般认为,典型的多元统计分析主要可以归结为两类问题:第一类是决定某一样本的归属问题:根据某样品的多个性状(特征)判定其所属的总体。如判别分析、聚类分析即属于此类内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系。主成分分析、因子分析和典型相关分析均属于此类问题。此外,多因素方差分析、多元回归与多元相关分析和时间序列分析,均是研究一个变量和多个变量之间的关系的,也是多元统计分析的内容。 第一节聚类分析(Cluster Analysis) 聚类分析是研究分类问题的一种多元统计方法,聚类分析方法比较粗糙,但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。近年来聚类分析发展较快,内容也越来越多。常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分割、概率聚类等方法,本节重点介绍系统聚类法。 系统聚类法是目前应用较多的聚类分析方法,这种聚类方法从一批样本的多个观测指标(变量)中,找出能度量样本之间相似程度的统计数,构成一个相似矩阵,在此基础上计算出样本(或变量)之间或样本组合之间的相似程度或距离,按相似程度或距离大小将样本(或变量)逐一归类,关系密切的归类聚集到一个小分类单位,关系疏远的聚集到一个大的分类单位,直到把所有样本(或变量)都聚集完毕,形成一个亲疏关系谱系图,直观地显示分类对象的差异和联系。 第二节判别分析(Discriminant Analysis) 判别分析是多元统计分析中较为成熟的一类分类方法,它是根据两个或多个总体的观测结果,按照一定的判别准则和相应的判别函数,来判断某一样本属于哪一类总体。判别分析的内容很多,常见的有距离判别、贝叶斯判别、费歇判别、逐步判别、序贯判别等方法。 第三节主成分分析(Principal components analysis)

相关文档
最新文档