数理统计第二次大作业——聚类与判别分析

合集下载

聚类分析判别分析

聚类分析判别分析

数学实验报告:聚类分析、判别分析
姓名班级学号日期:月日
一、实验目的和要求
1. 掌握k-均值聚类,分层聚类,两步聚类的基本原理及方法;
2. 掌握判别分析方法;
二、实验内容
为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。

分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、分别用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:
1990年全国人口普查文化程度人口比例(%)
2. 数据.Xls中sheet1中是28名一级,25名健将级标枪运动员测验的6项影响标枪的项目的测试成绩。

(1)据此求出判别运动员等级的判别函数,给出判错率。

(2)对sheet2中的的14名未知等级的运动员运用判别函数进行分类。

(3)用逐步判别法重新完成(1),(2),并比较判错率。

「聚类分析与判别分析」

「聚类分析与判别分析」

「聚类分析与判别分析」聚类分析和判别分析是数据挖掘和统计学中常用的两种分析方法。

聚类分析是一种无监督学习方法,通过对数据进行聚类,将相似的样本归为一类,不同的样本归入不同的类别。

判别分析是一种有监督学习方法,通过学习已知类别的样本,构建分类模型,然后应用模型对未知样本进行分类预测。

本文将对聚类分析和判别分析进行详细介绍。

聚类分析是一种数据探索技术,其目标是在没有任何先验知识的情况下,将相似的样本聚集在一起,形成互相区别较大的样本群。

聚类算法根据样本的特征,将样本分为若干个簇。

常见的聚类算法有层次聚类、k-means聚类和密度聚类。

层次聚类是一种自下而上或自上而下的层次聚合方法,通过测量样本间的距离或相似性,不断合并或分裂簇,最终形成一个聚类树状结构。

k-means聚类将样本划分为k个簇,通过优化目标函数最小化每个样本点与其所在簇中心点的距离来确定簇中心。

密度聚类基于样本点的密度来判断是否属于同一簇,通过划定一个密度阈值来确定簇的分界。

聚类分析在很多领域中都有广泛的应用,例如市场分割、医学研究和社交网络分析。

在市场分割中,聚类分析可以将消费者按照其购买行为和偏好进行分组,有助于企业制定更精准的营销策略。

在医学研究中,聚类分析可以将不同患者分为不同的亚型,有助于个性化的治疗和药物开发。

在社交网络分析中,聚类分析可以将用户按照其兴趣和行为进行分组,有助于推荐系统和社交媒体分析。

相比之下,判别分析是一种有监督学习方法,其目标是通过学习已知类别的样本,构建分类模型,然后应用模型对未知样本进行分类预测。

判别分析的目标是找到一个决策边界,使得同一类别内的样本尽可能接近,不同类别之间的样本尽可能远离。

常见的判别分析算法有线性判别分析(LDA)和逻辑回归(Logistic Regression)。

LDA是一种经典的线性分类方法,它通过对数据进行投影,使得同类样本在投影空间中的方差最小,不同类样本的中心距离最大。

逻辑回归是一种常用的分类算法,通过构建一个概率模型,将未知样本划分为不同的类别。

聚类分析与判别分析

聚类分析与判别分析

第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。

当有一个分类指标时,分类比较容易。

但是当有多个指标,要进行分类就不是很容易了。

比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。

所以需要进行多元分类,即聚类分析。

最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。

对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。

2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。

这两种聚类在数学上是对称的,没有什么不同。

聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。

这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。

二、如何度量距离的远近:统计距离和相似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常用的是明氏距离。

3.相似系数当对个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。

常用的相似系数有夹角余弦、相关系数等。

夹角余弦:相关系数:对于分类变量的研究对象的相似性测度,一般称为关联测度。

第二节如何进行聚类分析一、系统聚类1.系统聚类的基本步骤2.最短距离法3.最长距离法4.重心法和类平均法5.离差平方和法二、SPSS中的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先不用确定分多少类:分层聚类;分层聚类由两种方法:分解法和凝聚法。

数理统计大作业聚类分析和判别分析

数理统计大作业聚类分析和判别分析

数理统计大作业(2)全国各省、市及自治区产业类型聚类分析和判别分析院(系)名称航空科学与工程学院专业名称飞行器设计与工程学生姓名熊蕾学号ZY15054022015年12月全国各省、市及自治区产业类型聚类分析和判别分析ZY1505402 熊蕾摘要本文从中国统计年鉴(2014)中获得了2013年按三次产业分地区生产总值的数据,按各省的第一产业、第二产业和第三产业产值所占地区生产总值的比值不同,对全国23个省、4个直辖市和5个少数民族自治区进行聚类分析和判别分析。

关键词经济类型聚类分析判别分析一、引言产业是指具有某种同类属性的经济活动的集合或系统,是经济社会的物质生产部门。

世界各国把各种产业划分为三大类:第一产业、第二产业和第三产业。

第一产业是指提供生产资料的产业,包括种植业、林业、畜牧业、水产养殖业等直接以自然物为对象的生产部门。

第二产业是指加工产业,利用基本的生产资料进行加工并出售,包括采矿业、制造业、电力、燃气和水的生产和供应业和建筑业。

第三产业又称服务业,它是指第一、第二产业以外的其他行业。

第三产业行业广泛。

包括交通运输业、通讯业、商业、餐饮业、金融保险业、行政、家庭服务等非物质生产部门。

我国区域经济发展不平衡,各地区的产业类型和产业结构不尽相同,因此可以以各省的第一产业、第二产业和第三产业产值所占地区生产总值的比值对全国的23个省、4个直辖市和5个少数民族自治区进行分类。

二、聚类分析2.1数据输入从中国统计年鉴中得到了2013年按三次产业分地区生产总值的数据,如下表所示,产值单位均为亿元,由于各省经济发展程度不同,地区生产总值有较大的差别,因此要算出各地区三大产业所占的比值来进行聚类和判别分析。

表 1 原始数据2.2聚类分析从表1中选出湖南、安徽和西藏三个地区的数据以待判别,对其余地区的数据进行聚类分析。

表 2 聚类分析数据将表2数据导入SPSS,进行系统聚类分析,得到以下结果:表 3 聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 7 13 .052 0 0 92 6 12 .109 0 0 133 14 20 .174 0 0 54 3 21 .244 0 0 95 14 27 .336 3 0 166 5 24 .465 0 0 127 8 23 .602 0 0 198 11 17 .742 0 0 109 3 7 .952 4 1 1510 10 11 1.163 0 8 1711 18 28 1.381 0 0 1812 5 26 1.641 6 0 2013 4 6 1.977 0 2 1614 16 25 2.315 0 0 1815 3 15 2.673 9 0 2016 4 14 3.149 13 5 2317 2 10 3.678 0 10 2318 16 18 4.238 14 11 2119 8 22 4.814 7 0 2120 3 5 5.523 15 12 2521 8 16 6.429 19 18 2422 1 9 7.640 0 0 2623 2 4 9.318 17 16 2524 8 19 11.431 21 0 2625 2 3 14.946 23 20 2726 1 8 20.495 22 24 2727 1 2 26.551 26 25 0表4 群集成员案例8 群集7 群集 6 群集 5 群集 4 群集 3 群集1:北京 1 1 1 1 1 1 2:天津 2 2 2 2 2 2 3:河北 3 3 3 3 3 2 4:山西 4 4 4 2 2 2 5:内蒙古 3 3 3 3 3 2 6:辽宁 4 4 4 2 2 2 7:吉林 3 3 3 3 3 2 8:黑龙江 5 5 5 4 4 3 9:上海 6 6 1 1 1 1 10:江苏 2 2 2 2 2 2 11:浙江 2 2 2 2 2 2 12:福建 4 4 4 2 2 2 13:江西 3 3 3 3 3 2 14:山东 4 4 4 2 2 2 15:河南 3 3 3 3 3 2 16:湖北7 5 5 4 4 3 17:广东 2 2 2 2 2 2 18:广西7 5 5 4 4 3 19:海南8 7 6 5 4 3 20:重庆 4 4 4 2 2 2 21:四川 3 3 3 3 3 2 22:贵州 5 5 5 4 4 3 23:云南 5 5 5 4 4 3 24:陕西 3 3 3 3 3 2 25:甘肃7 5 5 4 4 3 26:青海 3 3 3 3 3 2 27:宁夏 4 4 4 2 2 2 28:新疆7 5 5 4 4 3图1聚类分析树状图从树状图中,我们定下聚类分析最终得到四个组别:1为北京和上海,可以看出这两个直辖市的总产值中,第三产业也就是服务业占有绝对优势,因此可将第一组作为第三产业为主的地区;2为天津、山西、江苏、广东等10个省份,这些省份的第二产业占有较多的比重,而第一产业仅占极少的比重,说明第2组以第二、三产业为主;第三组包括河北、河南、吉林、江西等省份,这些省份虽然也是第二产业占有的比重最大,但它们的第一产业的比重与第1、2组相比更多;第四组的各个地区是传统的鱼米之乡,可以看到它们的第一产业的比重大于其他各组。

聚类和判别分析

聚类和判别分析

市场细分
在市场营销中,判别分析可用于 识别消费者群体的特征和行为模 式,以便进行更有效的市场细分 和定位。
04
判别分析算法
线性判别分析(LDA)
01
基本思想:通过找到一个投影方向,使得同类样本在该方 向上投影后尽可能接近,不同类样本在该方向上投影后尽 可能远离。
02
算法步骤
03
1. 计算各类样本均值。
04
2. 计算类间散度矩阵和类内散度矩阵。
05
3. 计算投影方向,使得类间散度矩阵最大,类内散度矩 阵最小。
06
4. 将样本投影到该方向上,得到判别结果。
支持向量机(SVM)
算法步骤
2. 计算支持向量所构成的法向量 。
基本思想:通过找到一个超平面 ,使得该超平面能够将不同类样 本尽可能分开,同时使得离超平 面最近的样本距离尽可能远。
目的
聚类分析的目的是揭示数据集中的内在结构,帮助我们更好地理解数据的分布 和特征,为进一步的数据分析和挖掘提供基础。
聚类方法分类
01
基于距离的聚类
根据对象之间的距离进行聚类,常见的算法有K-means 、层次聚类等。
02
基于密度的聚类
根据数据点的密度进行聚类,将密度较高的区域划分为 一类,常见的算法有DBSCAN、OPTICS等。
聚类和判别分析
目录
• 聚类分析概述 • 聚类分析算法 • 判别分析概述 • 判别分析算法 • 聚类与判别分析的比较与选择
01
聚类分析概述
定义与目的
定义
聚类分析是一种无监督学习方法,旨在将数据集中的对象按照它们的相似性或 差异性进行分组,使得同一组内的对象尽可能相似,不同组之间的对象尽可能 不同。

聚类分析与判别分析

聚类分析与判别分析

距离判别法
两个总体G1和G2,均值向量:1和2 ;协差阵: 1和 2
数据点X到总体Gi的马氏距离定义为:
D2 (X ,Gi ) (X (i) )' ( (i) )1(X (i) )(i 1,2)
设判别函数:W ( X ) D2 ( X ,G2 ) D2 ( X ,G1)

判别分析概述
根据已有的划分类别的有关历史资料,确定一种判定方法, 判定一个新的样本归属哪一类。
设定有k个样本,对每个样本测得p项指标的数据,已知每 个样本属于k个类别中的每一类。利用这些数据,找出一种 判别函数,使得这一函数具有某种最优性质,能把属于不 同类别的样本点尽可能地区别开来,并对测得同样p项指标 数据的一个新样本,能判定这个样本属于哪一类。
针对计数变量的距离测度:
卡方距离;
Phi方距离;
针对二值变量的距离测度:
二值欧式距离;
二值欧式距离平方;
不对称指数; 不相似性测度; 方差
一般聚类个数在4-6类, 不宜太多,或太少;
聚类分析应注意的问题
所选择的变量应符合聚类的要求; 各变量的变量值不应有数量级上的差异; 各变量间不应有较强的线性相关关系。
Fisher判别函数 y1=-11.528+0.21质量-1.95宽度+0.186长度 y2=-15.935+0.112质量+2.246宽度+0.092长度
典型判别式函数系数
函数
1
2
质量 .210 .112 宽度 .950 2.246 长度 .186 .092 (常量) -11.528 -15.935 非标准化系数
个体与小类,小类与小类“亲疏程度”度量方法

北航研究生数理统计第二次大作业-聚类分析

北航研究生数理统计第二次大作业-聚类分析

Z 场均 角球数 0.11373 2.18400 -0.22977 0.02089 0.21585 0.09516 0.32725 -0.90749 -1.22314 0.51293 -0.44330 1.62698 -1.68732 0.32725 -0.83322 1.09780 1.37632 -1.83586 0.79144 1.09780 0.16943 0.94926 -1.68732 -0.13694 -0.75895 -0.50829 -0.13694 -0.44330 -1.37168
北京航空航天大学 数理统计第二次大作业
欧洲足球俱乐部竞技水平的聚类分析和判别分析
2015 年 12 月
欧洲足球俱乐部竞技水平的聚类分析和判别分析
摘要:近年来,人们对足球的关注越来越多。欧洲作为足球的发源地,其五大联 赛自然吸引着大批人的目光。尤其是欧洲冠军杯联赛更是代表着欧洲足球的最高 水平,吸引着各国最好的球队参加。本文从参加 2014-2015 赛季欧洲冠军杯联赛 的球队中选取 29 支球队,根据这些球队的一些技术统计资料,用 SPSS 软件对 其进行聚类分析,将这些球队按水平层次分为了 5 类。并选取 3 支球队,利用聚 类分析的结果对这 3 支球队进行判别分析。结果表明,聚类分类结果与判别分析 结果基本符合实际情况。
由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标
准化处理。本文采用 Z 得分值法标准化的方法进行标准化,用 x 的值减去 x 的
均值再除以样本的方差。也就是把个案转换为样本均值为 0、标准差为 1 的样本。
如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较
小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此

聚类分析与判别分析的区别

聚类分析与判别分析的区别
二聚类分析与判别分析的区别1基本思想不同1聚类分析的基本思想我们所研究的样品或指标变量之间存在程度不同的相似性亲疏关系于是根据一批样品的多个观测指标具体找出一些能够度量样品或指标之间相似程度的统计量以这些统计量作为划分类型的依据
武汉学刊 2006 年第 1 期
经济研究
聚类分析与判别分析的区别
邓海燕
上世纪 60 年代末到 70 年代初, 人们把大量 因变量的各个类别。
义如下:

"! 2
dij=
( Xik- Xjk)
k= 1
其中: Xik: 第 i 个样品的第 k 个指标的观测值
Xjk: 第 j 个样品的第 k 个指标的观测值
dij: 第 i 个样品与第 j 个样品之间的欧氏距离
依次求出任何两个点的距离系数 dij( i, j=1, 2,
…, n) 以后, 则可形成一个距离矩阵:
或“ 相 似 系 数 ”较 小 的 点 归 为 不 同 的 类 。
“距离”常用来度量样品之间的相似性 ,“相似
系 数 ”常 用 来 度 量 变 量 之 间 的 相 似 性 。
a、根 据 不 同 的 需 要 , 距 离 可 以 定 义 为 许 多 类
型, 最常见、最 直 观 的 距 离 是 欧 几 里 德 距 离 , 其 定
目的决定 , 一般 可 用 背 景 变 量 、生 活 形 态 变 量 、产 品使用变量或消费者行为变量等。
b 、研 究 消 费 者 行 为 同一类别的消费者或购买者可能有着相似的 购买行为, 通过对不同类别的消费者的研究, 可以 深入地探讨各类消费者的消费行为。 c 、设 计 抽 样 方 案 在大规模的抽样调查中, 常常采用分层抽样, 以提高抽样的精度。例如: 湖北省的消费者调查的 抽样方案, 首先将城市或地区按一些可能影响消 费水平和行为的变量分层, 然后在各层中再实行 多级抽样, 分层所采用的方法之一就是聚类分析。 d 、寻 找 新 的 潜 在 市 场 按照同一类的产品或品牌聚类, 可将竞争的 产 品 或 品 牌 分 类 。竞 争 更 为 激 烈 的 会 在 同 一 类 内 。 通过考察和比较目前自己的情况和竞争对手的情 况, 就有可能发现潜在的新产品机会。 e 、选 择 试 验 的 市 场 为了推出某项新的市场策略, 例如开发新的 产品、实行新的 促 销 方 式 、新 的 广 告 创 意 等 , 需 要 进行事先的实验。通过聚类分析, 可将实验的对象 ( 例如商店、城市、居民区等) 分成同质的几个组作 为实验组和控制组。 f、作 为 多 元 分 析 的 预 处 理 通过聚类分析可以达到简化数据的目的, 将 众多的样品先聚集成比较好处理的几个类别或子 集, 然后再进行后续的多元分析。比如在回归分析 中, 有时不对原始数据进行拟合, 而是对这些子集 的中心作拟合, 可能会更有意义。又比如, 为了研 究不同消费者群体的消费行为特征, 可以先聚类, 然后再利用判别分析进一步研究各个群体之间的 差异。 ( 2) 判别分析在市场研究中主要用于对一个 企业进行市场细分, 以选择目标市场, 有针对性地 进行广告、促销等活动。例如, 根据消费者的一些 背景资料如何判定他们中的哪些会是某种品牌的 忠诚用户, 哪些不是? 或者想要知道, 忠诚用户和 非忠诚用户在人口的基本特征方面到底有哪些不 同? 如何区分价格敏感型的顾客和非敏感型的顾 客? 哪些心里特征或生活形态特征可以用作判别 或区分的标准? 各种目标消费群体在媒介接触方 面是否有显著的差异? 等等这类均可以通过判别
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

地区生产总值及经济发展状况的统计分析
学号:姓名:
摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。

研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。

对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。

分析结果与我国目前地区经济发展情况基本相符。

关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析
1.引言
国内生产总值是某国家领土面积内的经济情况的度量。

是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。

它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。

地区生产总值是指由地方政府组织、支配的生产总值。

是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。

分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。

本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。

2.地区经济发展的聚类和判别分析
分地区生产总值主要包括的内容有:
(1)第一产业: 包括农、林、牧、渔业。

(2)第二产业: 包括工业及建筑业。

(3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融
业、房地产业及其他产业。

(一)相关自变量的选择
本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。

鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐
饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。

需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市(不包括港澳台地区)。

我们选用2006和2007年度地区生产总值的数据进行分析(2006年度数据来自中国统计年鉴2007,2007年度数据来自中国统计年鉴2008,见附件)。

(二)聚类分析
首先采取系统聚类法(hierarchical cluster)进行对所有31个地区聚类分析(数据为2007年度地区生产总值):
表1 处理过程汇总
表1表示所有观测量都加入聚类判别分析,没有遗漏。

表2 聚类过程小结
聚类进度表,表中列出了观测量或类合并的详细步骤。

图1 树状谱系图
图中横向聚类表示差异的大小,从图中可以清晰的看出整个的观测量的聚类过程。

分析结果显示,青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类,它们在经济发展中处于不利地位,是经济欠发达地区。

北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区,可以划归另一类。

其余省份划归第三类,为经济中等发达地区。

下面基于做好的分类对结果进行判别分析,确定聚类结果的准确性。

(三)判别分析
为了鉴别聚类分析结果的准确性,我们选用2006年相同地区的数据对上述分类进行判别分析。

在这里我们选用Fisher判别法构造判别函数。

分析结果如下:
表3 案例分析过程
表3表明所有变量都进入了判别分析。

表4 变量表
用逐步分析方法选择用于构造判别函数的变量。

表5 逐步分析法变量表
表6 特征值
Eigenvalues代表用于分析的前两个典则判别函数的特征值, 是组间平方和与组内平方
和之比值。

最大特征值与组均值最大的向量对应, 第二大特征值对应着次大的组均值向量。

表7标准化的典则判别式函数系数
标准化的典则判别式函数系数(使用时必须用标准化的自变量)。

由图可知Fisher判别法构造的两个典则判别函数为:
Y1=1.275X1+1.824X2-1.654X3
Y2=-0.639X1-0.815X2-0.065X3
表8 结果
预测分类结果小结,可以看出初始分组的正确率。

表9 详细分类结果
从图中我们可以看出,有一个观测量被错误地分到了第1类上,这个观测量是16山东。

预测结果应是第二类,但不排除是此地区2006年的发展使其经济状况改善的结果。

上图为观测量分类点图,从图中我们可以清楚地看到观测量的分类情况,可见三个类型
的中心点距离较远,区分效果较好。

3.问题的总结及研究意义
本文以SPSS 16.0为分析工具,通过地区生产总值对地区经济发展进行了聚类和判别分析,对我国各地区经济发展状况有了初步的了解。

总体来说,我国经济发展东强西弱的结果没有改变。

我国东部沿海各省份的经济发展明显强于中西部地区;中部地区经济地位近年来不上不下;而位于我国西部偏远地区的青海、西藏等省份,在我国经济发展格局中明显处于不利地位。

当然,我们也应该欣喜地看到,国家西部大开发战略和中部崛起战略的实施必然会对中西部地区经济的发展起着巨大的促进作用。

总之,采用聚类和判别分析分析地区经济发展状况所得的模型符合我国当前实际情况,其结果具有统计学和现实意义,因此有比较实际的应用和研究价值。

参考文献
[1] 孙海燕, 周梦, 李卫国, 冯伟, 应用数理统计, 北京航空航天大学, 2004.9
[2] 周复恭, 黄运成, 应用线性回归分析, 中国人民大学出版社, 1989.8
[3] 中华人民共和国国家统计局, 中国统计年鉴-2008
[4] 中华人民共和国国家统计局, 中国统计年鉴-2007
[5] 倪青山, 刘小丹, SPSS 应用•实验教程, 湖南大学出版社, 2007。

相关文档
最新文档