数理统计大作业聚类分析和判别分析

合集下载

北航数理统计大作业2-聚类与判别分析

应用数理统计作业二学号：姓名：电话：二〇一四年十二月对NBA球队的聚类分析和判别分析摘要：NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱，联盟的30支球队大家也耳熟能详，本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类，并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词：聚类分析，判别分析，NBA目录1. 引言 (4)2、相关统计基础理论 (5)2.1、聚类分析 (5)2.2，判别分析 (6)3.聚类分析 (7)3.1数据文件 (7)3.2聚类分析过程 (9)3.3 聚类结果分析 (11)4、判别分析 (12)4.1 判别分析过程 (12)4.2判别检验 (17)5、结论 (20)参考文献 (21)致谢 (22)1. 引言1896年，美国第一个篮球组织"全国篮球联盟（简称NBL）"成立，但当时篮球规则还不完善，组织机构也不健全，经过几个赛季后，该组织就名存实亡了。

1946年4月6日，由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”（简称BAA）。

1949年在布朗的努力下，美国两大篮球组织BAA和NBL合并为“全国篮球协会”（简称NBA）。

NBA季前赛是 NBA各支队伍的热身赛，因为在每个赛季结束后，每支球队在阵容上都有相当大的变化，为了让各队磨合阵容，熟悉各自球队的打法，确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通，所以在每个赛季开始之前，NBA就举办若干场季前赛，使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响，季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看，NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制，季后赛和总决赛采用七场四胜制的淘汰制。

[31]NBA常规赛从每年的11月的第一个星期二开罗，到次年的4月20日左右结束。

聚类分析与判别分析的区别与联系

聚类分析与判别分析的区别与联系松哥常言统计分三级：“初级说一说，中级比一比，高级找关系”；今天所言之题，即为高级找关系之一法。

聚类与判别，所谓天下合久必分、分久必合，合则聚类，分则判别。

1.聚类分析根据研究对象特征对研究对象进行分类的一种多元分析技术, 把性质相近的个体归为一类, 使得同一类中的个体都具有高度的同质性, 不同类之间的个体具有高度的异质性。

根据分类对象的不同分为样品聚类（Q聚类）和变量聚类（R）。

现实研究中个案聚类常用哦2.判别分析根据一定量案例的一个分组变量和相应的其他多元变量的已知信息, 确定分组与其他多元变量之间的数量关系, 建立判别函数, 然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。

判别分析中的因变量或判别准则是定类变量, 而自变量或预测变量基本上是定距变量。

依据判别类型的多少与方法不同, 分为多类判别和逐级判别。

判别分析的过程是通过建立自变量的线性组合(或其他非线性函数), 使之能最佳地区分因变量的各个类别。

3.区别与联系1、基本思想不同( 1) 聚类分析的基本思想根据相似性( 亲疏关系)，具体找出一些能够度量样品或指标之间相似程度的统计量, 把一些相似程度较大的样品( 或指标) 聚合为一类, 把另外一些相似程度较大的样品( 或指标) 又聚合为另一类; 关系密切的聚合到一个小的分类单位, 关系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕。

( 2）判别分析的基本思想对已知分类的数据建立由数值指标构成的分类规则即判别函数, 然后把这样的规则应用到未知分类的样本去分类。

2.研究目的不同虽然都是研究分类的，但在进行聚类分析前，对总体到底有几种类型不知道（研究分几类较为合适需从计算中加以调整）。

判别分析则是在总体类型划分已知，对当前新样本判断它们属于哪个总体。

3.聚类分析分两种：Q型聚类（对样本的聚类），R型聚类（对变量的聚类）聚类分析需要注意的是，一般小样本数据可以用系统聚类法，大样本数据一般用快速聚类法（K均值聚类法），当研究因素既有分类变量又有计量变量，可以用两步聚类。

聚类分析判别分析

数学实验报告：聚类分析、判别分析
姓名班级学号日期：月日
一、实验目的和要求
1. 掌握k-均值聚类，分层聚类，两步聚类的基本原理及方法;
2. 掌握判别分析方法;
二、实验内容
为了更深入了解我国人口的文化程度状况，现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。

分析选用了三个指标：（1）大学以上文化程度的人口占全部人口的比例（DXBZ）；（2）初中文化程度的人口占全部人口的比例（CZBZ）；（3）文盲半文盲人口占全部人口的比例（WMBZ）、分别用来反映较高、中等、较低文化程度人口的状况，原始数据如下表：
1990年全国人口普查文化程度人口比例（%）
2. 数据.Xls中sheet1中是28名一级，25名健将级标枪运动员测验的6项影响标枪的项目的测试成绩。

（1）据此求出判别运动员等级的判别函数，给出判错率。

（2）对sheet2中的的14名未知等级的运动员运用判别函数进行分类。

（3）用逐步判别法重新完成（1），（2），并比较判错率。

聚类分析与判别分析区别

ｉｊ
表示
：
ｃｏｓ
!
ｉｊ
＝
ｐ
ａ
＝
１
!
ｘ
ｉａ
ｘ
ｊａ
ｐ
ａ
＝
１
!
ｘ
２
・
ｐ
ａ
＝
１
!
ｘ
２
"
ｉａ
ｊａ
１
≤
ｃｏｓ
!
ｉｊ
≤
１
当
ｃｏｓ
!
ｉｊ
＝１
，
说明两个样品
ｘ
ｉ
与
ｘ
ｊ
完全相似
；
ｃｏｓ
!
ｉｊ
接
近
１
，
说
明
两
个
样
品
ｘ
ｉ
与
ｘ
ｊ
相
似
密
切
；
ｃｏｓ
!
ｉｊ
＝０
，
说明
ｘ
ｉ
与
ｘ
ｊ
完全不一样
；
ｃｏｓ
!
ｉｊ
接近
０
，
说
明
ｘ
ｉ
与
ｘ
ｊ
差别大。把所有两两样品的相似系数都
通过聚类分析可以达到简化数据的目的
，
将
众多的样品先聚集成比较好处理的几个类别或子
集
，
然后再进行后续的多元分析。
比如在回归分析
中
，
有时不对原始数据进行拟合
，
而是对这些子集
的中心作拟合
，
可能会更有意义。又比如
，
为了研
究不同消费者群体的消费行为特征
，

「聚类分析与判别分析」

「聚类分析与判别分析」聚类分析和判别分析是数据挖掘和统计学中常用的两种分析方法。

聚类分析是一种无监督学习方法，通过对数据进行聚类，将相似的样本归为一类，不同的样本归入不同的类别。

判别分析是一种有监督学习方法，通过学习已知类别的样本，构建分类模型，然后应用模型对未知样本进行分类预测。

本文将对聚类分析和判别分析进行详细介绍。

聚类分析是一种数据探索技术，其目标是在没有任何先验知识的情况下，将相似的样本聚集在一起，形成互相区别较大的样本群。

聚类算法根据样本的特征，将样本分为若干个簇。

常见的聚类算法有层次聚类、k-means聚类和密度聚类。

层次聚类是一种自下而上或自上而下的层次聚合方法，通过测量样本间的距离或相似性，不断合并或分裂簇，最终形成一个聚类树状结构。

k-means聚类将样本划分为k个簇，通过优化目标函数最小化每个样本点与其所在簇中心点的距离来确定簇中心。

密度聚类基于样本点的密度来判断是否属于同一簇，通过划定一个密度阈值来确定簇的分界。

聚类分析在很多领域中都有广泛的应用，例如市场分割、医学研究和社交网络分析。

在市场分割中，聚类分析可以将消费者按照其购买行为和偏好进行分组，有助于企业制定更精准的营销策略。

在医学研究中，聚类分析可以将不同患者分为不同的亚型，有助于个性化的治疗和药物开发。

在社交网络分析中，聚类分析可以将用户按照其兴趣和行为进行分组，有助于推荐系统和社交媒体分析。

相比之下，判别分析是一种有监督学习方法，其目标是通过学习已知类别的样本，构建分类模型，然后应用模型对未知样本进行分类预测。

判别分析的目标是找到一个决策边界，使得同一类别内的样本尽可能接近，不同类别之间的样本尽可能远离。

常见的判别分析算法有线性判别分析（LDA）和逻辑回归（Logistic Regression）。

LDA是一种经典的线性分类方法，它通过对数据进行投影，使得同类样本在投影空间中的方差最小，不同类样本的中心距离最大。

逻辑回归是一种常用的分类算法，通过构建一个概率模型，将未知样本划分为不同的类别。

判别分析与聚类分析的基本原理

判别分析与聚类分析的基本原理数据分析是在如今信息时代中，越来越重要的一项技能。

在数据分析的过程中，判别分析和聚类分析是两个非常重要的方法。

本文将介绍判别分析和聚类分析的基本原理，以及它们在数据分析中的应用。

一、判别分析的基本原理判别分析是一种用于分类问题的统计方法，其目的是通过学习已知类别的样本数据，来构建一个分类器，从而对未知样本进行分类。

判别分析的基本原理可以简单概括为以下几个步骤：1. 数据预处理：首先需要对数据进行预处理，包括数据清洗、缺失值处理、特征选择等，以获得更好的数据质量。

2. 特征提取：在进行判别分析之前，需要将原始数据转化为有效的特征。

特征提取的方法有很多种，常用的包括主成分分析、线性判别分析等。

3. 训练分类器：利用判别分析算法对已知类别的样本数据进行训练，建立分类模型。

常用的判别分析方法有线性判别分析、二次判别分析等。

4. 分类预测：通过训练好的分类器，对未知样本进行分类预测。

分类预测的结果可以是离散的类标签，也可以是概率值。

判别分析广泛应用于医学、金融、市场营销等领域。

例如，在医学领域，可以利用判别分析来预测疾病的状态，辅助医生做出诊断决策。

二、聚类分析的基本原理聚类分析是一种无监督学习方法，其目的是将相似的数据对象分组，使得同一组内的对象相似度较高，不同组间的相似度较低。

聚类分析的基本原理可以概括为以下几个步骤：1. 选择相似性度量：首先需要选择一个合适的相似性度量，用于评估数据对象之间的相似程度。

常用的相似性度量包括欧氏距离、曼哈顿距离等。

2. 选择聚类算法：根据具体的问题需求，选择合适的聚类算法。

常用的聚类算法有K-means、层次聚类等。

3. 确定聚类数目：根据实际问题，确定聚类的数目。

有些情况下，聚类数目事先是已知的，有些情况下需要通过评价指标进行确定。

4. 根据聚类结果进行分析：将数据对象划分到各个聚类中，并对聚类结果进行可视化和解释。

聚类分析被广泛应用于市场分析、图像处理、社交网络等领域。

北航数理统计大作业聚类分析

应用数理统计聚类分析与判别分析（第二次作业）学院：姓名：学号：2015年12月目录我国部分城市经济发展水平的聚类分析和判别分析................................. - 1 - 摘要：................................................................... - 1 -1. 引言 ................................................................ - 1 -2. 相关统计基础理论 .................................................... - 1 -2.1 聚类分析......................................................... - 1 -2.2 判别分析......................................................... - 2 -3. 模型建立 ............................................................ - 3 -3.1 设置变量......................................................... - 3 -3.2 数据收集和整理................................................... - 3 -4. 数据结果及分析 ...................................................... - 5 -4.1 聚类分析......................................................... - 5 -4.2 判别分析......................................................... - 7 -5. 结论 ............................................................... - 11 -参考文献................................................................ - 12 -我国部分城市经济发展水平的聚类分析和判别分析摘要：本文基于《中国统计年鉴》（2014年版）统计数据，统计全国各省市居民消费情况，包括各地区农村居民人均纯收入、农村居民人均现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标，利用统计软件SPSS综合考虑各指标，对所选地区进行K-Means 聚类分析，利用Fisher 线性判别待判地区类型，进一步验证所建模型的有效性。

[理学]判别分析和聚类分析_OK

若
1和
都是正态总体，
2
当X
时，
1
即X
~
N p 1, 时，W
X aT X
~
N
p
1 2
a
T
1
2 ,
aT a
令 2 1 2 T 1 1 2 ，
则 W X ~ N 1 2， 2
2
所以
W X 1 2
PW
X
0
X
1
P
2
2 2
同理
PW
X
0
X
2
2
两个误判概率相同.
5
总体的均植向量和协方差矩阵一般都是未知的，可以由样本均值和样本协方差矩阵分别进行估计.
得 B n1n2 x 1 x 2 x 1 x 2 T n1 n2
由于 rB 1, 所以方程 B E 0 只有一个非零特征根
1 i
X
i
总
体
的概率密度函数为
i
fi x 2
exp p 0.5 2
1 2
di2
x
X属于总体
的后验概率，
i
即当样品X已知时，
它属于
的
i
概率
为
P i X
pi fi X
k
,
i 1,2,, k
11
pi fi X
i 1
判别规则:
X i,
若P i X
max
1 jk
P
d 2 X ,Y X Y T 1X Y
X 到总体的马氏距离的平方定义为
d 2 X , X T 1X
3
1.两总体的距离判别
设总体 1 ,
2的均值分别为1 ,

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数理统计大作业（2）
全国各省、市及自治区产业类型聚类分析和判别分析
院（系）名称航空科学与工程学院专业名称飞行器设计与工程
学生姓名熊蕾
学号ZY1505402
2015年12月
全国各省、市及自治区产业类型聚类分析和判别分析
ZY1505402 熊蕾
摘要
本文从中国统计年鉴（2014）中获得了2013年按三次产业分地区生产总值的数据，按各省的第一产业、第二产业和第三产业产值所占地区生产总值的比值不同，对全国23个省、4个直辖市和5个少数民族自治区进行聚类分析和判别分析。

关键词
经济类型聚类分析判别分析
一、引言
产业是指具有某种同类属性的经济活动的集合或系统，是经济社会的物质生产部门。

世界各国把各种产业划分为三大类：第一产业、第二产业和第三产业。

第一产业是指提供生产资料的产业，包括种植业、林业、畜牧业、水产养殖业等直接以自然物为对象的生产部门。

第二产业是指加工产业，利用基本的生产资料进行加工并出售，包括采矿业、制造业、电力、燃气和水的生产和供应业和建筑业。

第三产业又称服务业，它是指第一、第二产业以外的其他行业。

第三产业行业广泛。

包括交通运输业、通讯业、商业、餐饮业、金融保险业、行政、家庭服务等非物质生产部门。

我国区域经济发展不平衡，各地区的产业类型和产业结构不尽相同，因此可以以各省的第一产业、第二产业和第三产业产值所占地区生产总值的比值对全国的23个省、4个直辖市和5个少数民族自治区进行分类。

二、聚类分析
2.1数据输入
从中国统计年鉴中得到了2013年按三次产业分地区生产总值的数据，如下表所示，产值单位均为亿元，由于各省经济发展程度不同，地区生产总值有较大的差别，因此要算出各地区三大产业所占的比值来进行聚类和判别分析。

表 1 原始数据
2.2聚类分析
从表1中选出湖南、安徽和西藏三个地区的数据以待判别，对其余地区的数据进行聚类分析。

表 2 聚类分析数据
将表2数据导入SPSS，进行系统聚类分析，得到以下结果：
表 3 聚类表
阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 2
1 7 13 .05
2 0 0 9
2 6 12 .109 0 0 13
3 1
4 20 .174 0 0 5
4 3 21 .244 0 0 9
5 14 27 .33
6 3 0 16
6 5 24 .465 0 0 12
7 8 23 .602 0 0 19
8 11 17 .742 0 0 10
9 3 7 .952 4 1 15
10 10 11 1.163 0 8 17
11 18 28 1.381 0 0 18
12 5 26 1.641 6 0 20
13 4 6 1.977 0 2 16
14 16 25 2.315 0 0 18
15 3 15 2.673 9 0 20
16 4 14 3.149 13 5 23
17 2 10 3.678 0 10 23
18 16 18 4.238 14 11 21
19 8 22 4.814 7 0 21
20 3 5 5.523 15 12 25
21 8 16 6.429 19 18 24
22 1 9 7.640 0 0 26
23 2 4 9.318 17 16 25
24 8 19 11.431 21 0 26
25 2 3 14.946 23 20 27
26 1 8 20.495 22 24 27
27 1 2 26.551 26 25 0
表4 群集成员
案例8 群集7 群集 6 群集 5 群集 4 群集 3 群集1:北京 1 1 1 1 1 1 2:天津 2 2 2 2 2 2 3:河北 3 3 3 3 3 2 4:山西 4 4 4 2 2 2 5:内蒙古 3 3 3 3 3 2 6:辽宁 4 4 4 2 2 2 7:吉林 3 3 3 3 3 2 8:黑龙江 5 5 5 4 4 3 9:上海 6 6 1 1 1 1 10:江苏 2 2 2 2 2 2 11:浙江 2 2 2 2 2 2 12:福建 4 4 4 2 2 2 13:江西 3 3 3 3 3 2 14:山东 4 4 4 2 2 2 15:河南 3 3 3 3 3 2 16:湖北7 5 5 4 4 3 17:广东 2 2 2 2 2 2 18:广西7 5 5 4 4 3 19:海南8 7 6 5 4 3 20:重庆 4 4 4 2 2 2 21:四川 3 3 3 3 3 2 22:贵州 5 5 5 4 4 3 23:云南 5 5 5 4 4 3 24:陕西 3 3 3 3 3 2 25:甘肃7 5 5 4 4 3 26:青海 3 3 3 3 3 2 27:宁夏 4 4 4 2 2 2 28:新疆7 5 5 4 4 3
图1聚类分析树状图
从树状图中，我们定下聚类分析最终得到四个组别：1为北京和上海，可以看出这两个直辖市的总产值中，第三产业也就是服务业占有绝对优势，因此可将第一组作为第三产业为主的地区；2为天津、山西、江苏、广东等10个省份，这些省份的第二产业占有较多的比重，而第一产业仅占极少的比重，说明第2组以第二、三产业为主；第三组包括河北、河南、吉林、江西等省份，这些省份虽然也是第二产业占有的比重最大，但它们的第一产业的比重与第1、2组相比更多；第四组的各个地区是传统的鱼米之乡，可以看到它们的第一产业的比重大于其他各组。

三、判别分析
接下来在SPSS中再对聚类分析得到的分组信息进行判别分析，得到如下结果：
将湖南、安徽和西藏的数据带入线性判别函数：
取数值最大时所属于的那类，于是湖南属于第四组，安徽属于第三组，而西藏属于第二组。

四、总结与讨论
由聚类分析的结果可知，得到的四个组均具有与其他组明显不同的特征。

第一组的北京、上海面积小，因此第一产业和第二产业的发展不如其他组，人口密度大，属于全国经济发达的区域，因此以服务业为主的第三产业占比重较多；第二组中，山西、宁夏和重庆矿产资源丰富，而剩下的辽宁、山东、江苏、浙江、福建、广东都是我国沿海省份，工业发达，因此第二组是第二、三产业占比重较大的地区；第三组的各省虽然也是以第二产业为主，但与第二组不同的是，它们第一产业所占的比重更多，可能是由于这些省份或地处内陆，经济不够发达，或人口众多，农业人口所占比例更大，所以第三组是以第二产业为主，第一产业较为发达的省份；第四组中的各省都是传统的“鱼米之乡”，水土肥沃，适宜发展种植业，因此第四组与其他组的省份相比，第一产业会占到更大的比重。

而判别分析的结果也与直观感觉较为相符：湖南地处洞庭湖畔，自古就有“湖广熟，天下足”的说法，因此湖南自然而然会被分到第四组；安徽省有丰富的铁矿资源，同时也有良好的发展农业的条件，因此会被分到第三组。

但是，判别分析中将西藏分入了第二组，这一点与直观感受似乎不太相符，直观看来，西藏是个比较特殊的省份，西藏地处高原，地广人稀，农业不如江南地区发达，虽然有丰富的地热资源，但西藏的矿产目前并没有得到大规模开采，因此似乎不应该将其排入第二组。

青藏铁路开通后，进藏旅游的游客越来越多，使得西藏的第三产业有了较大的发展，但又没有多到能与北京上海相提并论的地步，因此一定要把西藏分进四个组中的某一个的话，似乎还是以第二、三产业为主的第二组较为合适。

综上所示，本文的聚类分析和判别分析的结果与直观较为相符，此分类方法较为可信。

参考文献
[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京航空航天大学,2010.9.
[2]于义良，罗蕴玲，安建业.概率统计与SPSS应用[M].西安：西安交通大学出版社，2009.213-220.
[3]张文彤,邝春伟.SPSS统计分析基础教程[M].北京：高等教育出版社2011.11。