北航数理统计第二次大作业-数据分析模板

合集下载

北航数值分析大作业二(纯原创,高分版)

(R_4 ,I_4 )=( 1.590313458807e+000, 0.000000000000e+000)
(R_5 ,I_5 )=(-1.493147080915e+000, 0.000000000000e+000)
(R_6 ,I_6 )=(-9.891143464723e-001, 1.084758631502e-001)
-0.8945216982
-0.0993313649
-1.0998317589
0.9132565113
-0.6407977009
0.1946733679
-2.3478783624
2.3720579216
1.8279985523
-1.2630152661
0.6790694668
-0.4672150886
6.220134985374e-001
-1.119962139645e-001
-2.521344456568e+000
-1.306189420531e+000
-3.809101150714e+000
8.132800093357e+000
-1.230295627285e+000
-6.753086301215e-001
而其本质就是
1.令以及最大迭代步数L；
2.若m≤0，则结束计算，已求出A的全部特征值，判断或或m≤2是否成立，成立则转3，否则转4；
3.若，则得一个特征值，m=m-1，降阶；若，则计算矩阵：
的特征值得矩阵A的两个特征值，m=m-2，降阶，转2.；
4.若k≤L，成立则令
k=k+1，转2，否则结束计算，为计算出矩阵A的全部特征值；

北航数理统计大作业2-聚类与判别分析

应用数理统计作业二学号：姓名：电话：二〇一四年十二月对NBA球队的聚类分析和判别分析摘要：NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱，联盟的30支球队大家也耳熟能详，本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类，并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词：聚类分析，判别分析，NBA目录1. 引言 (4)2、相关统计基础理论 (5)2.1、聚类分析 (5)2.2，判别分析 (6)3.聚类分析 (7)3.1数据文件 (7)3.2聚类分析过程 (9)3.3 聚类结果分析 (11)4、判别分析 (12)4.1 判别分析过程 (12)4.2判别检验 (17)5、结论 (20)参考文献 (21)致谢 (22)1. 引言1896年，美国第一个篮球组织"全国篮球联盟（简称NBL）"成立，但当时篮球规则还不完善，组织机构也不健全，经过几个赛季后，该组织就名存实亡了。

1946年4月6日，由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”（简称BAA）。

1949年在布朗的努力下，美国两大篮球组织BAA和NBL合并为“全国篮球协会”（简称NBA）。

NBA季前赛是 NBA各支队伍的热身赛，因为在每个赛季结束后，每支球队在阵容上都有相当大的变化，为了让各队磨合阵容，熟悉各自球队的打法，确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通，所以在每个赛季开始之前，NBA就举办若干场季前赛，使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响，季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看，NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制，季后赛和总决赛采用七场四胜制的淘汰制。

[31]NBA常规赛从每年的11月的第一个星期二开罗，到次年的4月20日左右结束。

北航数值分析第二次大作业--QR分解

《数值分析A》计算实习题目二姓名学号联系方式班级指导教师2012年10月一、算法设计方案整个程序主要分为四个函数，主函数，拟上三角化函数，QR分解函数以及使用双步位移求解矩阵特征值、特征向量的函数。

因为在最后一个函数中也存在QR分解，所以我没有采用参考书上把矩阵M进行的QR分解与矩阵Ak的迭代合并的方法，而是在该函数中调用了QR分解函数，这样增强了代码的复用性，减少了程序长度；但由于时间关系，对阵中方法的运算速度没有进行深入研究。

1.为了减少QR分解法应用时的迭代次数，首先对给定矩阵进行拟上三角化处理。

2.对经过拟上三角化处理的矩阵进行QR分解。

3.注意到计算特征值与特征向量的过程首先要应用前面两个函数，于是在拟上三角化矩阵的基础上对QR分解函数进行了调用。

计算过程中，没有采用goto语句，而是根据流程图采用其他循环方式完成了设计，通过对迭代过程的合并，简化了程序的循环次数，最后在计算特征向量的时候采用了列主元高斯消去法。

二、源程序代码#include<stdio.h>#include<math.h>#include<string.h>int i,j,k,l,m; //定义外部变量double d,h,b,c,t,s;double A[10][10],AA[10][10],R[10][10],Q[10][10],RQ[10][10]; double X[10][10],Y[10][10],Qt[10][10],M[10][10];double U[10],P[10],T[10],W[10],Re[10]={0},Im[10]={0}; double epsilon=1e-12;void main(){void Quasiuppertriangular(double A[][10]);void QRdecomposition(double A[][10]);void DoublestepsQR(double A[][10]);int i,j;for(i=0;i<10;i++){for(j=0;j<10;j++){A[i][j]=sin(0.5*(i+1)+0.2*(j+1));Q[i][j]=0;AA[i][j]=A[i][j];}A[i][i]=1.5*cos(2.2*(i+1));AA[i][i]=A[i][i];}Quasiuppertriangular(A); //调用拟上三角化函数printf( "\n A经过拟上三角化矩阵为：\n\n");for(i=0;i<10;i++) //输出拟上三角化矩阵{for(j=0;j<10;j++){printf("%.12e ",A[i][j]); //输出拟上三角化矩阵}printf( "\n\n");}QRdecomposition(A); //调用QR分解函数printf( " 进行QR分解后，R矩阵为：\n\n"); //输出R矩阵for(i=0;i<10;i++){for(j=0;j<10;j++){printf("%.12e ",R[i][j]);}printf( "\n\n");}printf( " Q矩阵为:\n\n"); //输出Q矩阵for(i=0;i<10;i++){for(j=0;j<10;j++){printf("%.12e ",Q[i][j]);}printf( "\n\n");}printf( " RQ矩阵为：\n\n"); //输出RQ矩阵for(i=0;i<10;i++){for(j=0;j<10;j++){printf("%.12e ",RQ[i][j]);}printf( "\n\n");}DoublestepsQR(A); //调用双步位移函数printf( "\n\n 特征值实部依次为：\n\n"); //输出特征值实部for(j=0;j<10;j++){printf("%.12e ",Re[j]);}printf("\n\n 特征值虚部依次为：\n\n "); //输出特征值虚部for(j=0;j<10;j++){printf("%.12e ",Im[j]);}//按行输出特征向量printf( "\n\n 按行输出实特征根相应特征向量为：\n\n");for(i=0;i<10;i++){if(i==1||i==2||i==5||i==6){continue;}for(j=0;j<10;j++){printf("%.12e ",X[i][j]);}printf( "\n\n");}getchar();}//拟上三角化函数void Quasiuppertriangular(double A[][10]) {for(j=0;j<8;j++){for(i=0;i<10;i++){U[i]=0;P[i]=0;T[i]=0;W[i]=0;}m=0;for(i=j+2;i<10;i++){if(A[i][j]!=0){m=m+1;}}if(m==0){continue;}d=0;for(i=j+1;i<10;i++){d=d+pow(A[i][j],2);}d=sqrt(d);c=-d;if(A[j+1][j]<=0){c=d;}h=c*(c-A[j+1][j]);U[j+1]=A[j+1][j]-c;for(i=j+2;i<10;i++){U[i]=A[i][j];}for(i=0;i<10;i++){for(k=0;k<10;k++){P[i]=P[i]+U[k]*A[k][i];}P[i]=P[i]/h;}t=0;for(i=0;i<10;i++){for(k=0;k<10;k++){T[i]=T[i]+U[k]*A[i][k];}T[i]=T[i]/h;t=t+P[i]*U[i];}t=t/h;for(i=0;i<10;i++){W[i]=T[i]-t*U[i];for(k=0;k<10;k++){A[i][k]=A[i][k]-W[i]*U[k]-U[i]*P[k];if(abs(A[i][k])<1e-12){A[i][k]=0;}}}}}//QR分解函数void QRdecomposition(double A[][10]) {for(i=0;i<10;i++){for(j=0;j<10;j++){RQ[i][j]=0;Q[i][j]=0;R[i][j]=A[i][j];}Q[i][i]=1;}for(j=0;j<9;j++){for(i=0;i<10;i++){U[i]=0;P[i]=0;W[i]=0;}m=0;for(i=j+1;i<10;i++){if(R[i][j]!=0){m=m+1;}}if(m==0){continue;}d=0;for(i=j;i<10;i++){d=d+pow(R[i][j],2);}d=sqrt(d);c=-d;if(R[j][j]<=0){c=d;}h=c*(c-R[j][j]);U[j]=R[j][j]-c;for(i=j+1;i<10;i++){U[i]=R[i][j];}for(i=0;i<10;i++){for(k=0;k<10;k++){W[i]=W[i]+U[k]*Q[i][k];}}for(i=0;i<10;i++){for(k=0;k<10;k++){Q[i][k]=Q[i][k]-((W[i]*U[k])/h);}}for(i=0;i<10;i++){for(k=0;k<10;k++){P[i]=P[i]+U[k]*R[k][i];}P[i]=P[i]/h;}for(i=0;i<10;i++){for(k=0;k<10;k++){R[i][k]=R[i][k]-U[i]*P[k];if(abs(R[i][k])<epsilon){R[i][k]=0;}}}}for(i=0;i<10;i++) //计算A(n+1)=RQ {for(j=0;j<10;j++){for(k=0;k<10;k++){RQ[i][j]=RQ[i][j]+R[i][k]*Q[k][j];}}}}//双步位移法计算特征值特征向量函数void DoublestepsQR(double A[][10]){int L=1000,m=9; //定义最大循环次数for(i=0;i<L;i++){for(;m>-1;){if(abs(A[m][m-1])<=epsilon){Re[m]=A[m][m];m=m-1; //降阶if(m==0) //4{Re[0]=A[0][0];break;}if(m==-1){break;}if(m>1){continue;}}b=-A[m][m]-A[m-1][m-1]; //5c=A[m][m]*A[m-1][m-1]-A[m][m-1]*A[m-1][m];if(m==1) //6{if((b*b-4*c)>=0){Re[m]=(-b+sqrt(b*b-4*c))/2;Re[m-1]=(-b-sqrt(b*b-4*c))/2;}if((b*b-4*c)<0){Re[m]=-b/2; Im[m]=sqrt(4*c-b*b)/2;Re[m-1]=-b/2; Im[m-1]=-sqrt(4*c-b*b)/2;}m=m-1; //循环出口条件break;}if((m>1)&&(abs(A[m-1][m-2])>epsilon)) //8{if(i==L-1){printf("No results! \n");m=0; //循环出口条件break;}break;}if((m>1)&&(abs(A[m-1][m-2])<=epsilon)) //7 {if((b*b-4*c)>0){Re[m]=(-b+sqrt(b*b-4*c))/2;Re[m-1]=(-b-sqrt(b*b-4*c))/2;}if((b*b-4*c)<0){Re[m]=-b/2; Im[m]=sqrt(4*c-b*b)/2;Re[m-1]=-b/2; Im[m-1]=-sqrt(4*c-b*b)/2;}m=m-2; //降阶if(m>0){continue;}if(m==0){Re[0]=A[0][0];break;}}}if(m<=0){break;}s=A[m-1][m-1]+A[m][m]; //9t=A[m][m]*A[m-1][m-1]-A[m][m-1]*A[m-1][m];for(j=0;j<10;j++){for(k=0;k<10;k++){Qt[j][k]=0;Q[j][k]=0;M[j][k]=0;X[j][k]=0;Y[j][k]=0;}}for(j=0;j<m+1;j++){for(k=0;k<m+1;k++){for(l=0;l<m+1;l++){M[j][k]=M[j][k]+A[j][l]*A[l][k];}}}for(j=0;j<m+1;j++){for(k=0;k<m+1;k++){M[j][k]=M[j][k]-s*A[j][k];}M[j][j]=M[j][j]+t;}//调用QR分解函数对M矩阵进行分解并传递参数矩阵QQRdecomposition(M);for(j=0;j<10;j++){for(k=0;k<10;k++){Qt[j][k]=Q[k][j];}}for(j=0;j<m+1;j++){for(k=0;k<m+1;k++){for(l=0;l<m+1;l++){X[j][k]=X[j][k]+Qt[j][l]*A[l][k];}}}for(j=0;j<m+1;j++){for(k=0;k<m+1;k++){for(l=0;l<m+1;l++){Y[j][k]=Y[j][k]+X[j][l]*Q[l][k];}}}for(j=0;j<10;j++){{A[j][k]=Y[j][k];}}}//应用列主元高斯消元法计算实部特征向量for(l=0;l<10;l++){if(l==1||l==2||l==5||l==6){continue;}for(k=0;k<10;k++){for(m=0;m<10;m++){A[k][m]=AA[k][m];}A[k][k]=A[k][k]-Re[l];}for(j=0;j<9;j++){m=j;for(i=j+1;i<10;i++){if(abs(A[i][j])>abs(A[m][j])){m=i;}}{Y[j][k]=A[j][k];A[j][k]=A[m][k];A[m][k]=Y[j][k];}for(k=j+1;k<10;k++){b=A[k][j]/A[j][j];for(i=j;i<10;i++){A[k][i]=A[k][i]-A[j][i]*b;}}}X[l][9]=1;for(i=8;i>=0;i--){c=0;for(j=i+1;j<10;j++){c=c+A[i][j]*X[l][j];}X[l][i]=-c/A[i][i];}}}三、程序输出结果1819。

北航数理统计大作业聚类分析

应用数理统计聚类分析与判别分析（第二次作业）学院：姓名：学号：2015年12月目录我国部分城市经济发展水平的聚类分析和判别分析................................. - 1 - 摘要：................................................................... - 1 -1. 引言 ................................................................ - 1 -2. 相关统计基础理论 .................................................... - 1 -2.1 聚类分析......................................................... - 1 -2.2 判别分析......................................................... - 2 -3. 模型建立 ............................................................ - 3 -3.1 设置变量......................................................... - 3 -3.2 数据收集和整理................................................... - 3 -4. 数据结果及分析 ...................................................... - 5 -4.1 聚类分析......................................................... - 5 -4.2 判别分析......................................................... - 7 -5. 结论 ............................................................... - 11 -参考文献................................................................ - 12 -我国部分城市经济发展水平的聚类分析和判别分析摘要：本文基于《中国统计年鉴》（2014年版）统计数据，统计全国各省市居民消费情况，包括各地区农村居民人均纯收入、农村居民人均现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标，利用统计软件SPSS综合考虑各指标，对所选地区进行K-Means 聚类分析，利用Fisher 线性判别待判地区类型，进一步验证所建模型的有效性。

北航数值分析全部三次大作业

北航数值分析全部三次大作业第一次大作业是关于解线性方程组的数值方法。

我们被要求实现各种常用的线性方程组求解算法，例如高斯消元法、LU分解法和迭代法等。

我首先学习了这些算法的原理和实现方法，并借助Python编程语言编写了这些算法的代码。

在实验中，我们使用了不同规模和条件的线性方程组进行测试，并比较了不同算法的性能和精度。

通过这个作业，我深入了解了线性方程组求解的原理和方法，提高了我的编程和数值计算能力。

第二次大作业是关于数值积分的方法。

数值积分是数值分析中的重要内容，它可以用于计算曲线的长度、函数的面积以及求解微分方程等问题。

在这个作业中，我们需要实现不同的数值积分算法，例如矩形法、梯形法和辛普森法等。

我学习了这些算法的原理和实现方法，并使用Python编写了它们的代码。

在实验中，我们计算了不同函数的积分值，并对比了不同算法的精度和效率。

通过这个作业，我深入了解了数值积分的原理和方法，提高了我的编程和数学建模能力。

第三次大作业是关于常微分方程的数值解法。

常微分方程是数值分析中的核心内容之一，它可以用于描述众多物理、化学和生物现象。

在这个作业中，我们需要实现不同的常微分方程求解算法，例如欧拉法、龙格-库塔法和Adams法等。

我学习了这些算法的原理和实现方法，并使用Python编写了它们的代码。

在实验中，我们解决了一些具体的常微分方程问题，并比较了不同算法的精度和效率。

通过这个作业，我深入了解了常微分方程的原理和方法，提高了我的编程和问题求解能力。

总的来说，北航数值分析课程的三次大作业非常有挑战性，但也非常有意义。

通过这些作业，我在数值计算和编程方面得到了很大的提升，也更加深入地了解了数值分析的理论和方法。

虽然这些作业需要大量的时间和精力，但我相信这些努力将会对我未来的学习和工作产生积极的影响。

北航数值分析大作业第二题

北航数值分析大作业第二题-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数值分析第二次大作业史立峰SY1505327一、方案（1）利用循环结构将sin(0.50.2)()1.5cos( 1.2)(){i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值，得到需要变换的矩阵A ；（2）然后，对矩阵A 利用Householder 矩阵进行相似变换，把A 化为上三角矩阵A (n-1)。

对A 拟上三角化，得到拟上三角矩阵A (n-1)，具体算法如下：记A(1)=A ，并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij,,1,;,,2,1)( +==。

对于2,,2,1-=n r 执行 1. 若()n r r i a r ir,,3,2)( ++=全为零，则令A(r+1) =A(r),转5；否则转2。

2. 计算()∑+==nr i r irr a d 12)(()()r r r r r r r r r r d c a d a c ==-=++则取,0sgn )(,1)(,1若 )(,12r rr r r r a c c h +-=3. 令()nTr nrr r r r r r r r R a a c a u ∈-=++)()(,2)(,1,,,,0,,0 。

4. 计算r r T r r h u A p /)(= r r r r h u A q /)(=r r Tr r h u p t /=r r r r u t q -=ωT rr T r r r r p u u A A --=+ω)()1(5. 继续。

（3）使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值，也是A 的全部特征值，具体算法如下：1. 给定精度水平0>ε和迭代最大次数L 。

2. 记n n ij n a A A ⨯-==][)1()1()1(，令n m k ==,1。

北航研究生数理统计第二次大作业-聚类分析

Z 场均角球数 0.11373 2.18400 -0.22977 0.02089 0.21585 0.09516 0.32725 -0.90749 -1.22314 0.51293 -0.44330 1.62698 -1.68732 0.32725 -0.83322 1.09780 1.37632 -1.83586 0.79144 1.09780 0.16943 0.94926 -1.68732 -0.13694 -0.75895 -0.50829 -0.13694 -0.44330 -1.37168
北京航空航天大学数理统计第二次大作业
欧洲足球俱乐部竞技水平的聚类分析和判别分析
2015 年 12 月
欧洲足球俱乐部竞技水平的聚类分析和判别分析
摘要：近年来，人们对足球的关注越来越多。欧洲作为足球的发源地，其五大联赛自然吸引着大批人的目光。尤其是欧洲冠军杯联赛更是代表着欧洲足球的最高水平，吸引着各国最好的球队参加。本文从参加 2014-2015 赛季欧洲冠军杯联赛的球队中选取 29 支球队，根据这些球队的一些技术统计资料，用 SPSS 软件对其进行聚类分析，将这些球队按水平层次分为了 5 类。并选取 3 支球队，利用聚类分析的结果对这 3 支球队进行判别分析。结果表明，聚类分类结果与判别分析结果基本符合实际情况。
由于不同的变量之间存在着较大的数量级的差别，因此要对数据变量进行标
准化处理。本文采用 Z 得分值法标准化的方法进行标准化，用 x 的值减去 x 的
均值再除以样本的方差。也就是把个案转换为样本均值为 0、标准差为 1 的样本。
如果不同变量的变量值数值相差太大，会导致计算个案间距离时，由于绝对值较
小的数值权数较小，个案距离的大小几乎由大数值决定，标准化过程可以解决此

北航数理统计第二次数理统计大作业判别分析

数理统计大作业（二）全国各省发展程度的聚类分析及判别分析指导教师院系名称材料科学与工程院学号学生姓名2015 年 12 月21 日目录全国各省发展程度的聚类分析及判别分析 (1)摘要： (1)引言 (1)1实验方案 (2)1.1数据统计 (2)1.2聚类分析 (3)1.3判别分析 (4)2结果分析与讨论 (5)2.1聚类分析结果 (5)2.2聚类分析结果分析： (8)2.3判别分析结果 (9)2.4 Fisher判别结果分析： (11)参考文献： (16)全国各省发展程度的聚类分析及判别分析摘要：利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析，分析选择最佳聚类类数，并对浙江、湖南、甘肃进行类型判别分析。

通过这两个方法对全国各省进行发展分类。

本文选取了7项社会发展指标作为决定发展程度的影响因素，其中经济因素为主要因素，同时评估城镇化率和人口素质因素。

各项数据均来自2014年国家统计年鉴。

分析结果表明：北京市和上海市和天津市为同一类；江苏省和山东省和广东省为同一类型；河北、湖北、河南、湖南、四川、辽宁为同一类；其余的为另一类。

关键词：聚类分析、判别分析、发展引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。

它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

系统聚类分析又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类，从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品，希望根据这些历史的经验（样品），总结出分类的规律性（判别函数）来指导未来的分类。

数据分析作业

数据分析作业数据分析作业是数据分析课程中的一项重要任务，通过对给定的数据进行分析和解读，帮助学生提高数据分析能力和对实际问题的理解能力。

本篇文档将以一个具体的数据分析作业为例，介绍数据分析的基本流程和方法。

一、项目背景本次数据分析作业的背景是一个电商平台的销售数据分析。

该电商平台每天有大量用户在上面购买各种商品，平台方希望通过对这些销售数据的分析，了解用户的购买行为、商品的销售情况以及运营策略的有效性，以便为未来的决策提供参考。

二、数据收集与清洗在进行数据分析之前，首先需要收集和清洗原始数据。

本次数据分析作业使用的数据集包含了一段时间内的用户购买记录、商品信息、用户信息等。

数据集以CSV格式存储，包含多个字段，如用户ID、商品ID、购买数量、购买时间等。

在进行数据清洗时，需要检查数据的完整性和准确性，删除重复数据和异常值，并对缺失值进行处理。

三、数据探索与可视化分析数据清洗完成后，接下来可以进行数据探索和可视化分析。

数据探索的目的是通过使用统计学和可视化方法，对数据的特征和分布进行了解。

通过对用户购买记录和商品销售情况的分析，可以探索以下问题：1.用户消费行为的特征：如用户购买次数、购买金额分布、用户活跃度等。

2.商品销售情况的分析：如畅销商品排名、商品销售额分布、商品的销售趋势等。

3.不同时间维度的分析：如不同时间段内销售情况的变化、季节性特征等。

4.用户购买行为的特征与商品属性的关联：如用户购买的商品类别分布、商品属性对用户购买行为的影响等。

在数据探索的过程中，可以使用各种统计学和可视化工具，如直方图、散点图、箱型图、折线图等。

通过这些分析和可视化结果，可以发现数据的规律和趋势，为后续建模和预测做准备。

四、数据建模与预测在数据探索的基础上，可以进行数据建模和预测。

数据建模是指使用数学或统计的方法，通过对已有数据进行拟合和预测，得到对未来数据的预测结果。

常见的数据建模方法包括回归分析、时间序列分析、聚类分析、关联规则挖掘等。

北航数值分析报告大作业二

数值分析大作业（二）学院名称宇航学院专业名称航空宇航推进理论与工程学生姓名段毓学号SY16153062016年11月5日1 算法设计方案首先将矩阵A 进行拟上三角化，把矩阵A 进行QR 分解，计算出RQ 。

要得出矩阵A 的全部特征值，首先对A 进行QR 的双步位移得出特征值。

最后，采用列主元的高斯消元法求解特征向量。

1.1 A 的拟上三角化因为对矩阵进行QR 分解并不改变矩阵的结构，因此在进行QR 分解前对矩阵A 进行拟上三角化可以大大减少计算机的计算量，提高程序的运行效率。

具体算法如下所示，记A A =)1(，并记)(r A 的第r 列至第n 列的元素为()n r r j n i a r ij,,1,;,,2,1)(ΛΛ+==。

对于2,,2,1-=n r Λ执行若()n r r i a r ir,,3,2)(Λ++=全为零，则令)()1(r r A A =+,转5；否则转2。

计算()∑+==nri r ir r a d 12)(()()r r r r r r r r r r d c a d a c ==-=++则取,0sgn )(,1)(,1若)(,12r rr r r r a c c h +-=令()nTr nrr r r r r r r r R a a c a u ∈-=++)()(,2)(,1,,,,0,,0ΛΛ。

计算r r T r r h u A p /)(=r r rr r Tr r h u p t /=r r r r u t q -=ωT rr T r r r r p u u A A --=+ω)()1(继续。

1.2 A 的QR 分解具体算法如下所示，记)1(1-=n A A ，并记[]nn r ij r a A ⨯=)(，令I Q =1 对于1,,2,1-=n r Λ执行 1.若()n r r i a r ir ,,3,1)(Λ++=全为零，则令r r Q Q =+1r r A A =+1,转5；否则转2。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数理统计第二次大作业材料行业股票的聚类分析与判别分析2015年12月26日材料行业股票的聚类分析与判别分析摘要1 引言2 数据采集及标准化处理2.1 数据采集本文选取的数据来自大智慧软件的股票基本资料分析数据，从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量，分别是每股收益（单位：元）、净资产收益率（单位：%）、每股经营现金流（单位：元）、主营业务收入同比增长率（单位：%）、净利润同比增长率（单位：%）、流通股本（单位：万股）、每股净资产（单位：元）。

各变量的符号说明见表2.1，整理后的数据如表2.2。

表2.1 各变量的符号说明自变量符号每股收益（单位：元）X1净资产收益率（单位：%）X2每股经营现金流（单位：元）X3主营业务收入同比增长率（单位：%）X4净利润同比增长率（单位：%）X5流通股本（单位：万股）X6每股净资产（单位：元）X7表2.2 30支股票的财务指标股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.70302.2 数据的标准化处理由于不同的变量之间存在着较大的数量级的差别，因此要对数据变量进行标准化处理。

本文采用Z得分值法标准化的方法进行标准化，用x的值减去x的均值再除以样本的方差。

也就是把个案转换为样本均值为0、标准差为1的样本。

如果不同变量的变量值数值相差太大，会导致计算个案间距离时，由于绝对值较小的数值权数较小，个案距离的大小几乎由大数值决定，标准化过程可以解决此类问题，使不同变量的数值具有同等的重要性。

经Z标准化输出结果见表 2.2。

表2.2 经Z标准化后的数据ZX1ZX2ZX3ZX4ZX5ZX6ZX7武钢股份-0.75239 -0.53220 -0.29872 -1.43273 0.09044 1.80057 -0.36699 宝钢股份-0.06111 -0.04951 1.27419 -0.54909 0.16571 3.36895 0.82983 山东钢铁-0.80301 -0.24299 -0.10597 -0.79447 0.20551 0.89442 -0.90801 北方稀土-0.22597 0.11777 0.81009 0.89669 0.18178 -0.15036 -0.76605 杭钢股份-1.88333 -1.57819 0.42654 -1.49278 -4.05172 -0.49232 -0.36516 抚顺特钢0.16826 0.76673 0.01953 -0.52124 0.56444 -0.42031 -1.04806 盛和资源-0.39460 -0.06362 -0.61107 -0.16012 0.18419 -0.60318 -1.11250 宁夏建材-0.35035 -0.19764 0.36273 -0.86452 0.14636 -0.58170 1.45398 宝钛股份-1.07056 -0.50398 -0.80334 -0.54517 -2.95236 -0.59357 1.25341 山东药玻0.80777 0.28101 1.71089 0.38199 0.20293 -0.63640 1.38197 国睿科技0.71984 0.91284 -0.74363 0.24276 0.20405 -0.65850 -0.28706 海螺水泥 2.86486 0.66293 1.70219 -0.46903 0.18110 0.29076 2.89275 华建集团0.18186 1.03578 -1.20920 0.44290 0.19091 -0.61395 -0.91879 福耀玻璃 1.81896 1.18694 1.21907 0.25581 0.20318 -0.20393 0.59641 宁波富邦-1.10238 -3.77801 -1.10126 0.23493 0.20350 -0.66703 -1.37450 马钢股份-1.43327 -1.42905 0.38635 -0.85147 -0.16304 0.77834 -0.62837 亚泰集团-0.40820 -0.18857 -0.03017 -0.92891 0.15890 -0.23075 0.00091 博闻科技0.99028 1.43483 -0.42553 -0.37897 1.54862 -0.64168 -0.51569 新疆众和-0.31477 -0.14424 -1.75368 2.82453 0.27823 -0.54131 0.18198 西部黄金-0.18577 0.14800 -0.07102 0.77399 0.20748 -0.66895 -0.69342 中国铝业-0.66851 -0.54329 0.07908 -0.29587 0.23714 1.67341 -0.73317 明泰铝业0.31144 0.22055 -2.04864 0.13486 0.20867 -0.59916 1.02450 金隅股份0.10926 0.09257 0.28316 -0.33807 0.17401 0.07068 0.78075 松发股份0.54630 0.45635 -0.78398 -0.09356 0.18924 -0.69472 0.52151 方大集团-0.19127 0.32132 -1.04876 1.80862 0.20494 -0.59607 -0.96906 铜陵有色-0.40820 -0.12610 0.74611 0.23971 0.17829 1.66843 -1.02134 鞍钢股份-0.82181 -0.43748 0.89950 -1.08946 0.09252 0.82323 0.68295 中钢国际 1.19044 1.20709 -0.92392 -0.52429 0.40688 -0.59788 -0.09131 中材科技 1.51410 0.78587 1.74074 2.17408 0.34050 -0.60107 0.82084 中南重工-0.14788 0.18427 0.29875 0.91888 0.21760 -0.57591 -0.622313 聚类分类3.1 聚类分析概述3.2 聚类分析输出结果本文中使用系统聚类的Ward’s method（最小离差平方和法），度量方法采用Squared Euclidean distance（欧氏距离的平方）。

输出结果如下从表中可以看出：有效数据为30个；缺失数据为0个，即没有缺失数据；数据总数为30个，说明所选随机样本100%有效。

脚注显示聚类时采用的是距离度量法，聚类方法为采用的是欧式距离平方值和Ward联结法。