聚类分析大作业

聚类分析大作业
聚类分析大作业

对数据进行聚类分析实验报告

班级: 09031101

学号: 2011302283 2011302275

姓名:武江临黄松威

目录

摘要 (2)

一、实验目的 (2)

二、实验要求 (2)

三、实验原理概述和流程框图 (2)

1.C均值算法思想的基本原理 (3)

2.分级聚类方法的基本原理 (4)

四、实验结果及分析 (5)

1.C均值聚类的聚类结果 (5)

2分级聚类方法进行聚类得到的聚类结果 (18)

五、实验结论 (19)

六、心得体会 (20)

摘要

聚类分析是对于静态数据分析的一门技术,聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性。本次试验以身高和体重数据作为特征,分别用C均值聚类方法和分级聚类方法对数据进行聚类分析,得出相应的分类结果。对结果进行分析和总结,从而加深对聚类分析方法的理解。

关键词:聚类分析C均值聚类方法分级聚类方法

一、实验目的

用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。

二、实验要求

1. 把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重

数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。

2. 对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,

画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。

3. 对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方

法。

4. 利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重

复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会。

三、实验原理概述和流程框图

本次试验我们分为两组:一、首先对FEMALE 与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类

方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。

1.C 均值算法原理和具体算法流程

(1)算法条件及算法思想

设待分类模式特征矢量集为{}N x x x

......,21,类的数目C 可以事先设定。C 均值算法

首先取定C 个类别和选取C 个初始聚类中心,按最小距离原则将各模式分配到C 类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小 (2)、具体步骤

第一步:确定类别数C ,并选择C 个初始聚类中心。本次试验,我们分别将C 的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N 时,分为两类时,取第1个点和第()12/+N 个点作为代表点;分为三类时,取第1、

()13/+N 、()13/2+N 个点作为代表点,以此类推。

第二步:将待聚类的样本集中的样本逐个按最小距离规则分划给C 个类中的某一类。即:

如果[]

),...2,1(min )()(N i d d k ij j

k il ==则)1(+∈k l i x ω ,式中)

(k ij d 表示i x 和)(k j ω的中心)(k j z 的

距离,上角标表示迭代次数。由此产生新聚类)...,2,1()1(c j k j =+ω。 第三步:计算重新聚类后的个各类心,即:

∑+∈++==

)

1(),...,2,1(,1)

1()1(k i i x i k j k j c j x n z ω

)1(+k j n 为类)1(+k j ω中所含模式的个数。

第四步:如果重新得到的类别的类心与上一次迭代的类心相等,则结束迭代,否

则转至第二步。

第五步:迭代结束时,换不同的初始值进行试验,将实验结果进行比较。 (3)、流程示意图

(4)、本次试验我们用的聚类指标是误差平方和聚类准则e J

设i N 是第i 聚类i C 的样本数目,i m 是这些样本的均值,则把i C 中得各样本x 与均值i m 间的误差平方和对所有类相加后为:

∑∑=∈-=c

i C x i

e i

m x J 12

当C 取不同的值时各自算出它们的

e J ,进行比较。

2.分级聚类算法的算法思想和具体流程

(1)算法思想

把全部样本作为一类,根据相似性,相邻性,通过一定的目标函数对样本进行分解。

(2)具体步骤

第一步:开始时,将全部样本当做一类,第二类即为空集。

第二步:计算两类样本均值21,X X ,样本数21,N N 。其中1N 是1ω类样本数,2N 是

2ω类样本数。计算目标函数()()21212

1X X X X N

N N E T --=

比较E 值大小,选择E 值最大所对应的样本,将其归入第二类。并记录此时的E 为E (1)。

第三步:将第一类中剩下样本依次放入第二类中,按照上面运算得出E 值,并比较E 值大小,选择E 值最大所对应的样本,将其归入第二类。并记录此时的E 为E (2) 第三步:将新的两类按照上面的方法继续划分,直到第i 次迭代的E (i )

四、实验结果

1.用C 均值聚类法对数据进行的聚类:

1、用FAMALE.TXT 和MALE.TXT 中的数据组合起来作为样本集: (1)C=2时

1.取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:

点号表示的类别中样本总数为61,星表示的类别中样本总数为39 。

两个聚类中心分别为: A(163.5738,53.1541),B(175.8974,68.2692)2.取第二十个和七十个样本作为初始聚类中心时得到的实验结果如下:

点号表示的类别中样本总数为61,星表示的类别中样本总数为39。

两个聚类中心分别为: A(163.5738,53.1541),B(175.8974,68.2692)

它们的e J=5.9707e+003

进行多次试验发现取不同的初始聚类中心时实验结果相同。

将男女样本所代表的点分别画到图上可得下图:

其中点表示的是女生样本,圆圈表示的是男生样本。其中,男生的样本均值为(173.9200 ,65.5020)女生的样本均值为(162.8400 ,52.5960)

当C=2时,对数据进行聚类分析得到的聚类结果基本类似于男女生分类,他们的样本均值相差不算太大。

C=3时得到的聚类结果图如下:

最终的三个聚类中心:

A (159.2333,49.9333)

B (168.8158,57.0105)

C (176.4375,70.0156)

e

J =3.9251e+003

当划分为三类时,其结果可以看做按照身高与体重的比将样本进行聚类,身高体重比大,较大,小的分别为一类。

C=4时:得到的分来结果如下:

得到的四个聚类中心为:

A(157.4286,49.2381),B(164.7727,53.3545)C(170.4400,58.2640),D(176.4375,70.0156)

J=3.4318e+003

e

C=5时得到的聚类结果如下:

最终的五个聚类中心分别为: A (158.1579,47.3684),B (163.3913,54.4652) C (170.3462,58.1423),D (176.0741,67.7593) E (178.4000,82.2000)

e

J =2.6352e+003

1.画出C值与e J之间的关系曲线如下:

观察图像,结合所学知识,拐点离2较近。此样本分为两类最佳。、

1、把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,实验结

果如下:

(1)、C=2时

取第二十五个和第二百零一个个样本作为初始聚类中心,得出的实验结果图:

A (165.0479,53.6491),

B (176.4506,69.9378)

e

J =3.2952e+004

取第一百个和第二百个样本作为初始聚类中心,结果如图所示:

A (165.0479,53.6491),

B (176.4506,69.9378)

e

J =3.2952e+004

(2)、C=3时

三个聚类中心分别为:A(163.3438,51.8742), B(174.5561,64.5024)C(178.8657 ,80.4776)

J =2.0594e+004

e

(3)、C=4时:

准则函数为:e J=1.6346e+004,四个聚类中心分别为:

A(159.8548 ,48.3145),B(167.5567,56.6485)

C(175.4783,65.7908),D(179.3684,81.7368)(4)、C=5时:

实验结果如图所示:

准则函数为:e J=1.3575e+004

五个聚类中心分别为:

A(160.5732,50.0512),B(170.0510,57.5020)C(175.3836 ,65.9452),D(178.6429,75.7589) E(179.6667,91.3889)

画出C值与e J之间的关系曲线如下:

由图像可以直观看到,拐点离2较近,所以认为此时仍是将样本集分为二类最佳(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:

样本C 以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的

数据作为样本

2 A(163.5738,53.1541)

B(175.8974,68.2692)A(165.0479,53.6491)B(176.4506,69.9378)

3 A(159.2333,49.9333)

B(168.8158,57.0105)

C(176.4375,70.0156)A(163.3438,51.8742)B(174.5561,64.5024)C(178.8657,80.4776)

4 A(157.4286,49.2381)

B(164.7727,53.3545)

C(170.4400,58.2640)

D(176.4375,70.0156)A(159.8548 ,48.3145)B(167.5567,56.6485)C(175.4783,65.7908)D(179.3684,81.7368)

5 A(158.1579,47.3684)

B(163.3913,54.4652)

C(170.3462,58.1423)

D(176.0741,67.7593)

E(178.4000,82.2000)A(160.5732,50.0512)B(170.0510,57.5020)C(175.3836 ,65.9452)D(178.6429,75.7589)

E(179.6667,91.3889)

6 A(158.3462,49.8462)

B(166.9259,54.5889)

C(171.4737,60.8158)

D(175.6842,68.1842)A(160.8427,50.6596)B(170.6296,55.1241)C(172.6381,62.9143)D(176.8488,76.8837)

E(178.0000,80.6667)F(183.3333,66.6667)E(177.2955,68.0057)F(181.5952,89.1905)

从表中分析可知,横向比较,C越大,即聚类数目越多,聚类之间差别越小,他们的聚类中心也越接近。横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE,test2中数据作为样本时,由于引入了新的样本,可以发现后者的聚类中心比前者都稍大。但是它们的分布类似,变化不大。

2将两个样本分别用分级聚类方法进行聚类,得出结果,并与C均值聚类法进行比较:

1、对FEMALE与MALE中数据组成的样本集进行分级聚类:

聚类结果如下:

分级聚类法将样本分为两类,它们的聚类中心分别为

A(163.4667, 53.0400)B(175.7500,68.0625)

将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,如表所示:

聚类方法C均值聚类分级聚类

聚类中心A(163.5738,53.1541)

B(175.8974,68.2692)A(163.4667,53.0400)B(175.7500,68.0625)

.

比较可以看出他们的聚类结果差别不是很大。

2、对由MALE、MALE、test2中数据组成的样本集进行分级聚类:

结果如下:

分级聚类法将样本分为两类,它们的聚类中心分别为

A(164.9819,53.6229),B(176.4487,69.8868)

将它与C=2时的C均值聚类结果进行比较,分别比较它们的结果图以及聚类中心,如表:

聚类方法C均值聚类分级聚类

聚类中心A(165.0479,53.6491)

B(176.4506,69.9378)A(164.9819,53.6229)B(176.4487,69.8868)

比较两者可以发现他们的聚类结果区别不是很大。

五、实验结论

1.对于C均值聚类而言,聚类的数目越多,类间的差距减小,聚类中心会越加靠近。增大样本容量,会使聚类中心发生变化;但因为增加的样本并没有改变总体样本的分布情况,所以聚类中心的变化并不明显。

2.对于分级聚类而言,总体来说聚类效果与C均值聚类效果差别不是很大。分级聚类是基于对总体样本进行不断分解而得到的聚类中心。C均值是先确定C个初

始聚类中心,通过不断迭代来找到准确的聚类中心。两者在分类效果上基本相同。

物联网大数据聚类分析方法和技术探讨

物联网大数据聚类分析方法和技术探讨 发表时间:2019-09-11T15:11:03.983Z 来源:《基层建设》2019年第16期作者:吴政[导读] 摘要:文章先分析了物联网关键技术以及数据发现等相关技术,随后介绍了聚类分析方法,包括关键算法和技术流程,希望能给相关人士提供有效参考。 广州市汇源通信建设监理有限公司广东省广州市 510220 摘要:文章先分析了物联网关键技术以及数据发现等相关技术,随后介绍了聚类分析方法,包括关键算法和技术流程,希望能给相关人士提供有效参考。 关键词:物联网;大数据;聚类分析 引言:物联网感知层中的无线射频技术是无线通信技术,具有准确识别目标物的功能。在RFID技术不断发展的背景下,其在制造业和电商行业中发挥了巨大的作用,随着数据复杂度的提高,和数据量的扩大,需要对数据存储和数据处理技术进行创新研究,促进大数据技术架构优化设计。 一、物联网关键技术分析 物联网其实是指通过信息传感相关红外感应器、定位系统和激光扫描器,在射频识别条件下将待测物体和网络之间进行有效连接,从而实现全方位物体识别、定位、跟踪管理和全过程监控等功能。物联网的诞生进一步改变了原有的识别技术,对现代化信息改革具有重要的促进作用。随着时代的发展,社会中的多个领域也逐渐将注意力转移到物联网领域当中。物联网相关技术包括以下三种:第一是数据处理和现代通信。现代通信是物联网基础支持,其中具有代表性的是无线智能网络。结合宽带通信的帮助,大部分领域都开始创建多媒体通信,同时相关技术也呈现出不断发展的趋势。第二是智能终端,这部分是物联网整个网络中的核心内容,其中包括智能电话和智能型PDA,可以利用传感器精确采集信息,全面识别判断各种图像。第三是信息安全。将物联网有效应用到各个领域当中,需要进一步确保信息安全,为此需要合理使用相应的加密方法对各种实时访问进行全面监控,进行系统化的安全管理和访问。对于当下的物联网而言,只有的网络状态下才能对各种物体进行准确识别。 二、数据发现 模式识别即利用逻辑关系、文字、数值等内容表征事物现象的信息,实施识别、分析和处理的过程。模式识别也可以称作模式分类,具体包括无监督和监督模式识别,两种模式之间的差异时样本类型已知状态。其中的监督模式是在已知样本类型的基础上进行识别,而无监督则是在不知道样本类型的基础上进行识别。通过计算机识别的目标可以是抽象的也可以是具体的,具体的包括图像、声音、文字等内容,而抽象的包括程度和状态等内容,模式信息即把识别对象和数字信息清除区分开来,这种技术涉及范围较广,包括人工智能、数据库、统计学等内容,是各种技术的综合。在数据挖掘中,模式发现是其中的核心内容,数据挖掘相关任务包括分类、关联、聚类等形式。数据库相关知识模式发现流程如图1所示: 在处理RFID相关事件时,应该先详细解析事件定义,随后根据事件流中各种事件的定义关系,对已形成的模式关系实施定义分析,随后按照事件之间的对应关系实施量化,在量化后距离基础上实施聚类分析。该部分定义中,先对事件进行解析,将其转化为原子事件,随后对其定义,在已经完成定义的原子实践基础上,再对现实事件中的各种关系进行定义,同时分析交易事件中的属性量化指标。原子事件即将事件定义成一个,包括事件标识符ID,也是唯一的标记;DOMAIN是交易事件中问题域实际位置;ALIAS是事件名称,和命名事件相关的一种名称;TYPE是事件种类,和问题域具有一定联系,可以是相关研发人员进行自定义操作,同时也可以是系统自带;TIME是事件出现时间;STIMULATION是激发事件的基础条件,比如快递运输中的某一物品被RFID读取后,证明该物品处于被签收状态,其中的激发因素便是被签收,如果没有被RFID识别器解读,证明该物品尚未发出,也不会出现任何事情。LAOCATION是指事件出现的位置,和事件相关性具有一定联系。 三、聚类分析技术方法 (一)关键算法 第一是平均算法,这种算法从本质上来看是以聚类划分为基础的,在近几年平均算法逐渐广泛应用开来。利用这种算法可以对相关对象进行合理划分,将其分成各种类型的簇。也因此对象组之间也呈现出一种相似性特点。如果是针对特定类型的数据分析工作,则关注点需要放在数据集和数据簇总数上,并从中挑选出可分析数据集。对各组别数据对象进行分配,便能规划处具有较强相似性的簇平均值。第二是分解奇异值算法,这种算法是以特定矩阵为基础,其中包含实数或复数的矩阵,如果该种类型的矩阵存在,便可以直接实施分解奇异值的操作。从整个矩阵范围内分析,涉及到M×M矩阵,这种矩阵类型是一种半正定和对角矩阵。分解奇异值还会涉及到共轭矩阵,并把其看做奇异值分解。从当下的实际发展状况分析,通常可以利用特定类型仿真软件分解相关数值,随后通过归纳得到函数式[1]。 第三是主成分分析算法,这种算法也可以叫做PCA分析办法,正常情况下,如果是多种算法变量,可以利用线性变换方法促进全过程实现简化变换的目标,或利用多元统计方式进行算法分析。从信息分析和数据分析两种视角入手,分析主成分其核心价值是创建对应的数据集,但不能遗漏全方位简化运算。在分析主成分的基础上,降低数据集维度,可以适当保留一些低阶的主成分,忽略高阶成分。第四是决策树学习,其属于一种概率分析图解方法,这种方法需要以事件概率为基础前提,针对不同类型的事件进行系统解析。决策树重点针对特殊期望值,保证其最终结果大于零。同时决策树还涉及到可行性判断和决策分析等方面。

北航数值分析大作业一

《数值分析B》大作业一 SY1103120 朱舜杰 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求 出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和 最小特征值。

②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有对角线上元素的乘积。 二.源程序 #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

16种常用的大数据分析报告方法汇总情况

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、在信度;每个量表是否测量到单一的概念,同时组成两表的在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

《数理统计》上机四聚类分析

《数理统计》 课程实验报告(四)

1 实验内容 聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS 、SAS 等。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 请将‘聚类分析数据.xlsx ’中四川省主要城市设施水平的数据用合适的聚类 分析方法进行聚类,将四川省主要城市进行分类,并说明理由。 2 实验主要步骤 (1) 对数据标准化处理 利用公式 (min) (max)(min) j j j ij ij x x x x x --= ' (i=1,2,…..n,j=1,2,…m ) 其中(max)和(max)j j x x 分别为第j 个变量的最大和最小值。显然,10≤'≤ij x 。 (2) 计算距离系数阵 q m k q jk ik ij x x d 1 1?? ???? -=∑= (3) 计算相似系数统计量

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航数值分析大作业第一题幂法与反幂法

《数值分析》计算实习题目 第一题: 1. 算法设计方案 (1)1λ,501λ和s λ的值。 1)首先通过幂法求出按模最大的特征值λt1,然后根据λt1进行原点平移求出另一特征值λt2,比较两值大小,数值小的为所求最小特征值λ1,数值大的为是所求最大特征值λ501。 2)使用反幂法求λs ,其中需要解线性方程组。因为A 为带状线性方程组,此处采用LU 分解法解带状方程组。 (2)与140k λλμλ-5011=+k 最接近的特征值λik 。 通过带有原点平移的反幂法求出与数k μ最接近的特征值 λik 。 (3)2cond(A)和det A 。 1)1=n λλ2cond(A),其中1λ和n λ分别是按模最大和最小特征值。 2)利用步骤(1)中分解矩阵A 得出的LU 矩阵,L 为单位下三角阵,U 为上三角阵,其中U 矩阵的主对角线元素之积即为det A 。 由于A 的元素零元素较多,为节省储存量,将A 的元素存为6×501的数组中,程序中采用get_an_element()函数来从小数组中取出A 中的元素。 2.全部源程序 #include #include void init_a();//初始化A double get_an_element(int,int);//取A 中的元素函数 double powermethod(double);//原点平移的幂法 double inversepowermethod(double);//原点平移的反幂法 int presolve(double);//三角LU 分解 int solve(double [],double []);//解方程组 int max(int,int); int min(int,int); double (*u)[502]=new double[502][502];//上三角U 数组 double (*l)[502]=new double[502][502];//单位下三角L 数组 double a[6][502];//矩阵A int main() { int i,k; double lambdat1,lambdat2,lambda1,lambda501,lambdas,mu[40],det;

北航数值分析报告第三次大作业

数值分析第三次大作业 一、算法的设计方案: (一)、总体方案设计: x y当作已知量代入题目给定的非线性方程组,求(1)解非线性方程组。将给定的(,) i i

得与(,)i i x y 相对应的数组t[i][j],u[i][j]。 (2)分片二次代数插值。通过分片二次代数插值运算,得到与数组t[11][21],u[11][21]]对应的数组z[11][21],得到二元函数z=(,)i i f x y 。 (3)曲面拟合。利用x[i],y[j],z[11][21]建立二维函数表,再根据精度的要求选择适当k 值,并得到曲面拟合的系数矩阵C[r][s]。 (4)观察和(,)i i p x y 的逼近效果。观察逼近效果只需要重复上面(1)和(2)的过程,得到与新的插值节点(,)i i x y 对应的(,)i i f x y ,再与对应的(,)i i p x y 比较即可,这里求解 (,)i i p x y 可以直接使用(3)中的C[r][s]和k 。 (二)具体算法设计: (1)解非线性方程组 牛顿法解方程组()0F x =的解* x ,可采用如下算法: 1)在* x 附近选取(0) x D ∈,给定精度水平0ε>和最大迭代次数M 。 2)对于0,1, k M =执行 ① 计算() ()k F x 和()()k F x '。 ② 求解关于() k x ?的线性方程组 () ()()()()k k k F x x F x '?=- ③ 若() () k k x x ε∞∞ ?≤,则取*()k x x ≈,并停止计算;否则转④。 ④ 计算(1) ()()k k k x x x +=+?。 ⑤ 若k M <,则继续,否则,输出M 次迭代不成功的信息,并停止计算。 (2)分片双二次插值 给定已知数表以及需要插值的节点,进行分片二次插值的算法: 设已知数表中的点为: 00(0,1,,) (0,1,,)i j x x ih i n y y j j m τ=+=???=+=?? ,需要插值的节点为(,)x y 。 1) 根据(,)x y 选择插值节点(,)i j x y : 若12h x x ≤+ 或12 n h x x ->-,插值节点对应取1i =或1i n =-,

SPSS操作方法:聚类分析

实验指导之一 聚类分析的SPSS操作方法 系统聚类法 实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。 实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据 x1人均粮食支出(元/人) x5人均衣着商品支出(元/人) x2人均副食支出(元/人) x6人均日用品支出(元/人) x3人均烟、酒、茶支出(元/人) x7人均燃料支出(元/人) x4人均其他副食支出(元/人) x8人均非商品支出(元/人) x1x2x3x4x5x6x7x8 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北

湖南13.23 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 系统聚类法的SPSS操作: 1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , (见图1) 图1 系统聚类法 打开层次聚类法对话如图2。 图2 系统聚类法对话框 选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法: Cases 对样品聚类(Q型;系统默认), Variable 对指标变量聚类(R型),本例选择。 在Display栏中选择默认的输出项。 2. 点击Statistics按钮,打开对话框如图 3. 图3 Statistics对话框 Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

SPSS教程-聚类分析-附实例操作

各地区各行业工资水平的分析(2009年数据) 小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍 1.研究背景及意义 1.1 研究背景 工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的水平。 1.2 研究意义 1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。 2. 将平均工资水平划分为3类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供宏观上的方向指引。 2.数据来源与描述 2.1 数据来源——《中国劳动统计年鉴─2010》 (URL:https://www.360docs.net/doc/f87707342.html,/Navi/YearBook.aspx?id=N2011010069&floor=1###) 主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司 出版社:中国统计出版社 简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。 2.2 数据描述 本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地产业、农林牧渔业等等,具体数据格式参见图-0。

图-0 3.分析方法及原理 3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高 描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始的,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。 在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业……)工资的均值、极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。 3.2 通过聚类分析方法,判断哪些地区平均工资水平较高 聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。 在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-均值法(快速聚类法)。 3.2.1系统聚类法 系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。 在本例中进行的是Q型聚类。 类与类之间距离的计算方法主要有以下几种: (1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值; (2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值; (3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;

北航数理统计聚类分析大作业

应用数理统计大作业(二) 部分省市经济类型的聚类和判别分析 学院:学号:姓名:班级: 机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录 摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析 摘要 一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。 关键词:经济类型,聚类分析,判别分析,SPSS 符号说明 符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言 随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。 1 源数据的提取 本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

北航数值分析大作业第二题精解

目标:使用带双步位移的QR 分解法求矩阵10*10[]ij A a =的全部特征值,并对其中的每一个实特征值求相应的特征向量。已知:sin(0.50.2)() 1.5cos( 1.2)(){i j i j ij i j i j a +≠+== (i,j=1,2, (10) 算法: 以上是程序运作的逻辑,其中具体的函数的算法,大部分都是数值分析课本上的逻辑,在这里特别写出矩阵A 的实特征值对应的一个特征向量的求法: ()[]()() []()[]()111111I 00000 i n n n B A I gause i n Q A I u Bu u λλ-?-?-=-?-?? ?-=????→=??????→= ?? ? 选主元的消元 检查知无重特征值 由于=0i A I λ- ,因此在经过选主元的高斯消元以后,i A I λ- 即B 的最后一行必然为零,左上方变 为n-1阶单位矩阵[]()()11I n n -?-,右上方变为n-1阶向量[]()11n Q ?-,然后令n u 1=-,则 ()1,2,,1j j u Q j n ==???-。

这样即求出所有A所有实特征值对应的一个特征向量。 #include #include #include #define N 10 #define E 1.0e-12 #define MAX 10000 //以下是符号函数 double sgn(double a) { double z; if(a>E) z=1; else z=-1; return z; } //以下是矩阵的拟三角分解 void nishangsanjiaodiv(double A[N][N]) { int i,j,k; int m=0; double d,c,h,t; double u[N],p[N],q[N],w[N]; for(i=0;i

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

大数据聚类算法研究(汽车类的)

大数据聚类算法研究(汽车类的) 摘要:本文分析了汽车行业基于不同思想的各类大数据聚类算法,用户应该根 据实际应用中的具体问题具体分析,选择恰当的聚类算法。聚类算法具有非常广 泛的应用,改进聚类算法或者开发新的聚类算法是一件非常有意义工作,相信在 不久的将来,聚类算法将随着新技术的出现和应用的需求而在汽车行业得到蓬勃 的发展。 关键词:汽车;大数据;聚类算法;划分 就精确系数不算太严格的情况而言,汽车行业内对各种大型数据集,通过对 比各种聚类算法,提出了一种部分优先聚类算法。然后在此基础之上分析研究聚 类成员的产生过程与聚类融合方式,通过设计共识函数并利用加权方式确定类中心,在部分优先聚类算法的基础上进行聚类融合,从而使算法的计算准度加以提升。通过不断的实验,我们可以感受到优化之后算法的显著优势,这不仅体现在 其可靠性,同时在其稳定性以及扩展性、鲁棒性等方面都得到了很好的展现。 一、汽车行业在大数据时代有三个鲜明的特征 1、数据全面数字化,第一人的行为数字化,包括所有驾驶操作、每天所有的行为习惯,甚至是座椅的习惯等等都将形成相应的数字化。以车为中心物理事件 的数字化,车况、维修保养、交通、地理、信息等等都会形成数字化,全面数字 化就会形成庞大的汽车产业链,汽车的大数据生态圈。这是第一个特点。 由于大数据拥有分析和总结的核心优势,越来越多的品牌厂商和广告营销机 构都在大力发展以数据为基础的网络营销模式,这些变化也在不断地向传统的汽 车营销领域发起进攻。从前品牌做营销仅能凭主观想法和经验去预估,而现在大 数据的出现则可以帮助客户进行精准的客户群定位。 2、第二个特点是数据互联资源化。有一个领导人讲过:未来大数据会成为石油一样的资源。这说明大数据可以创造巨大的价值,甚至可能成为石油之外,更 为强大的自然资源。 大数据首先改变了传统调研的方式。通过观察Cookie等方式,广告从业者可 以通过直观的数据了解客观的需求。之前的汽车市场调研抽样的样本有限,而且 在问题设计和角度选取过程中,人为因素总是或多或少地介入,这就可能会影响 到市场调研的客观性。大数据分析不只会分析互联网行为,也会关注人生活的更 多纬度。数据可以更加丰富,比如了解到消费者的习惯和周期、兴趣爱好、对人 的理解会更加深刻。这些因素综合在一起就会形成一笔无形且珍贵的数据资源。 有了大数据的支持,便可以实现曾经很多只能“纸上谈兵”的理论。 3、第三个特点则是产生虚拟的汽车,人和汽车可以对话,更具有智慧的新兴产业。这个就是未来在大数据时代,汽车行业会呈现的特点。 在这个情况下,我们以人、车、社会形成汽车产业大数据的生态圈,现实生 活中每个有车一族所产生的数据都对整个生态圈有积极的影响。车辆上传的每一 组数据都带有位置信息和时间,并且很容易形成海量数据。如果说大数据的特征 是完整和混杂,那么车联网与车有关的大数据特征则是完整和精准。如某些与车 辆本身有关的数据,都有明确的一个用户,根据不同用户可以关联到相应的车主 信息,并且这些信息都是极其精准的,这样形成的数据才是有价值的数据。 二、汽车行业大数据下聚类算法的含义 汽车行业大数据是指以多元形式,由许多来源搜集而组成的庞大数据组。电 子商务网站、社交网站以及网页浏览记录等都可以成为大数据的数据来源。同时,

北航数值分析大作业第二题

数值分析第二次大作业 史立峰 SY1505327

一、 方案 (1)利用循环结构将sin(0.50.2)() 1.5cos( 1.2)() {i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值,得到需要变换的 矩阵A ; (2)然后,对矩阵A 利用Householder 矩阵进行相似变换,把A 化为上三角矩阵A (n-1)。 对A 拟上三角化,得到拟上三角矩阵A (n-1),具体算法如下: 记A(1)=A ,并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij ,,1,;,,2,1) ( +==。 对于2,,2,1-=n r 执行 1. 若 ()n r r i a r ir ,,3,2) ( ++=全为零,则令A(r+1) =A(r),转5;否则转2。 2. 计算 () ∑+== n r i r ir r a d 1 2 )( ()( )r r r r r r r r r r d c a d a c ==-=++则取,0sgn ) (,1)(,1若 )(,12r r r r r r a c c h +-= 3. 令 () n T r nr r r r r r r r r R a a c a u ∈-=++) ()(,2)(,1,,,,0,,0 。 4. 计算 r r T r r h u A p /)(= r r r r h u A q /)(= r r T r r h u p t /= r r r r u t q -=ω T r r T r r r r p u u A A --=+ω)()1( 5. 继续。 (3)使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值,也是A 的全部特征值,具体算法如下: 1. 给定精度水平0>ε和迭代最大次数L 。 2. 记n n ij n a A A ?-==][) 1()1()1(,令n m k ==,1。

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析 学号:姓名: 摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。 对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。 关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析 1.引言 国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。 地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析 分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融 业、房地产业及其他产业。 (一)相关自变量的选择 本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

相关文档
最新文档