聚类分析练习题20121105

合集下载

聚类分析作业

聚类分析作业

1.根据调查得到某地42所学校的数据如下:
试将这些学校分类。

2.16种饮料的热量、咖啡因、钠及价格四种变量数据如下表:
试将这些饮料分类。

3.20种啤酒的成分和价格数据如下表:
试将这些啤酒分类。

4.50名学生参加10个测验项目的测试数据如下表:
试将学生分类。

5.下表列出了2007年我国31个省、市、自治区和直辖市的城镇居民家庭平均每人全年消费性支出的8个主要变量数据。

利用系统聚类法,对各地区进行聚类分析:
试将这些地区分类
6.在全国服装标准制定中,对某地区成年女子的14个部位尺寸(体型尺寸)进行了测量,根据测量数据计算得到14个部位尺寸之间的相关系数矩阵,如下表所示,:试对14个变量进行聚类分析:
7.下表列出了2006年我国31个省、市、自治区和直辖市的12个月的月平均气温数据。

数据来源:中华人民共和国国家统计局网站,现利用聚类法,对各地区进行聚类分析。

第3章 类分析答案

第3章  类分析答案

第三章 聚类分析一、填空题1.在进行聚类分析时,根据变量取值的不同,变量特性的测量尺度有以下三种类型: 间隔尺度 、 顺序尺度 和 名义尺度 。

2.Q 型聚类法是按___样品___进行聚类,R 型聚类法是按_变量___进行聚类。

3.Q 型聚类统计量是____距离_,而R 型聚类统计量通常采用_相似系数____。

4.在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对原始数据进行变换处理。

常用的变换方法有以下几种:__中心化变换_____、__标准化变换____、____规格化变换__、__ 对数变换 _。

5.距离ij d 一般应满足以下四个条件:对于一切的i,j ,有0≥ij d 、 j i =时,有0=ij d 、对于一切的i,j ,有ji ij d d =、对于一切的i,j,k ,有kj ik ij d d d +≤。

6.相似系数一般应满足的条件为: 若变量i x 与 j x 成比例,则1±=ij C 、 对一1≤ij 和 对一切的i,j ,有ji ij C C =。

7.常用的相似系数有 夹角余弦 和 相关系数 两种。

8.常用的系统聚类方法主要有以下八种: 最短距离法 、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。

9.快速聚类在SPSS 中由__K-mean_____________过程实现。

10.常用的明氏距离公式为:()qpk q jk ik ij x x q d 11⎥⎦⎤⎢⎣⎡-=∑=,当1=q 时,它表示 绝对距离 ;当2=q 时,它表示 欧氏距离 ;当q 趋于无穷时,它表示 切比雪夫距离 。

11.聚类分析是将一批 样品 或 变量 ,按照它们在性质上 的 亲疏、相似程度 进行分类。

12.明氏距离的缺点主要表现在两个方面:第一 明氏距离的值与各指标的量纲有关 ,第二 明氏距离没有考虑到各个指标(变量)之间的相关性 。

聚类分析实例分析题(推荐文档)

聚类分析实例分析题(推荐文档)

5.2酿酒葡萄的等级划分5.2.1葡萄酒的质量分类由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。

在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。

通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward 最小方差法,又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。

所谓类,通俗地说,就是指相似元素的集合。

为了将样品进行分类,就需要研究样品之间关系。

这里的最小方差法的基本思想就是将一个样品看作P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。

面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。

现在我们将用SAS 系统里面的stepdisc 和cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。

建立数据阵,具体数学表示为:1111...............m n nm X X X X X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦(5.2.1) 式中,行向量1(,...,)i i im X x x =表示第i 个样品;列向量1(,...,)'j j nj X x x =’,表示第j 项指标。

聚类分析上机作业

聚类分析上机作业

一.使用系统聚类法分析习题5.8,完成下列问题。

要求:
A. 采用标准化数据,样品间距离采用欧式平方距离,类间距离采用Wald法
1.分为几类比较合适?
2.给出分为三类时的分类结果。

3.画出聚类过程图。

B. 采用原始数据,样品间距离采用绝对值距离,类间距离组间连接法
4.分为几类比较合适?
5.给出分为三类时的分类结果。

6.画出聚类过程图。

二.使用K均值聚类法分析习题5.8,完成下列问题。

7.给出分为三类时的分类结果。

8.写出三个类的初始类中心和最终聚类中心。

9.写出前三个样品所属的类,以及这三个类到每个类中心的距离。

(6)聚类分析例子

(6)聚类分析例子

例题1:下表是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。

试利用调查资料对16个地区进行分类。

地区食品衣着燃料住房生活用品及其他文化生活服务支出北京190.33 43.77 9.73 60.54 49.01 9.04 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.4 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.19 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.52 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 12.72 47.12 34.35 5安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.51 21.5 17.64 19.19 15.97 4.94 山东115.84 30.26 12.2 33.61 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3下面用统计学软件 SAS(Statistical Analysis System) data dfdf;input city $ x1 x2 x3 x4 x5 x6;cards;beijing 190.33 43.77 9.73 60.54 49.01 9.04tianjing 135.20 36.40 10.47 44.16 36.49 3.94hebei 95.21 22.83 9.30 22.44 22.81 2.80shanxi 104.78 25.11 6.40 9.89 18.17 3.25 neimenggu 128.41 27.63 8.94 12.58 23.99 3.27 liaoning 145.68 32.83 17.19 27.29 39.09 3.47jilin 159.37 33.38 18.37 11.81 25.29 5.22 heilongjiang 116.22 29.57 13.24 13.76 21.75 6.04 shanghai 221.11 38.64 12.53 115.65 50.82 5.89 jiangsu 144.98 29.12 11.67 42.60 27.30 5.74 zhejiang 169.92 32.75 12.72 47.12 34.35 5.00anhui 153.11 23.09 15.62 23.54 18.18 6.39fujian 144.92 21.26 16.96 19.52 21.75 6.73jiangxi 140.54 21.50 17.64 19.19 15.97 4.94 shandong 115.84 30.26 12.20 33.61 33.77 3.85henan 101.18 23.26 8.46 20.20 20.50 4.30;run;proc cluster data=dfdf std outtree=tree method=ave pesudo rsq;id city;run; /*ward离差平方和法 war; 类平均法 ave; 重心法 cen;最长距离法 com;中间距离法 med; 最短距离法 sin;密度估计法 den;极大似然法 eml; 可变类平均 fle;相似分析法 mcq; 两阶段密度估计 two; */proc tree data=tree out=new graphics horizontal;id city;run;Cluster HistoryNormRMS NCL Clusters Joined--- FREQ SPRSQ RSQ PSF PST2 Dist 15 anhui fujian 2 0.0025 0.998 28.7 . 0.193 14 hebei henan 2 0.0055 0.992 19.1 . 0.2869 13 CL14 shanxi 3 0.0068 0.985 16.7 1.2 0.3116 12 CL15 jiangxi 3 0.0099 0.975 14.4 4 0.3481 11 jiangsu zhejiang 2 0.0089 0.966 14.4 . 0.366 10 CL13 neimengg 4 0.0106 0.956 14.4 1.7 0.3692 9 tianjing shandong 2 0.0092 0.947 15.5 . 0.3711 8 CL9 CL11 4 0.0237 0.923 13.7 2.6 0.4957 7 liaoning jilin 2 0.0189 0.904 14.1 . 0.5329 6 heilongj CL12 4 0.0267 0.877 14.3 4.3 0.5463 5 CL8 CL7 6 0.0528 0.824 12.9 3.5 0.6681 4 CL5 CL6 10 0.1269 0.698 9.2 6.6 0.7823 3 CL4 CL10 14 0.1955 0.502 6.6 7.8 0.8751 2 beijing shanghai 2 0.0562 0.446 11.3 . 0.91841CL2 CL3 16 0.4458 0 . 11.3 1.5454(1)2R 统计量(列标题为RSQ )用于评价每次合并成NCL 个类时的聚类效果。

聚类因子分析试题

聚类因子分析试题

六、多元统计分析
数据“考试题6-沿海十省市数据.sav”呈现了某年我国10个沿海省份的资料,共有10个指标,详见数据。

请进行如下分析。

(一)用分层聚类的办法将10个地区聚类。

要求①不输出冰状图,输出树状图,其余默认。

(每题2分共10分)
1. 和(填地区序号)地区是此种聚类法下距离最近的观测。

2.请写出如果将全部10个地区分成三类,在此种分类方法下的各类分别是:
3.在第步聚类时,2、5组成的新类与其它类合并?
4.聚类分析中,对于样品的聚类又叫做型聚类.
5.K均值聚类法是否属于快速聚类法
(二)对于“考试题6-沿海十省市数据.sav”进行因子分析,要求①用方差最大法进行因子旋转②保存因子得分,其余默认。

(每题2分,共18分)
1.因子分析和主成分分析对于数据的要求是
2.用KMO和巴特莱特检验来判断数据是否适合于因子分析和主成分分析时,当出现 p=0.000则认为数据是否合适
3.综合来看,对变量提取公因子后,提取的信息占全部变量信息的 %,特征值大于1的公因子有个。

4.第一个因子的方差贡献率是 %,前两个因子的累计贡献率是 %。

5.因子载荷矩阵与旋转的因子载荷矩阵的区别是(意思对即可)
6.请写出X1变量的因子表达式
7.对于生成的两个因子得分F1、F2,请计算总得分,并“由高到低”将各个地区排序,则总得分排在第一位的是号省市。

聚类分析例题

聚类分析例题

聚类分析例题聚类分析例题5.2酿酒葡萄的等级划分5.2.1葡萄酒的质量分类由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。

等级特优优优良良及格不及格分数95-100 90-94 80-89 70-79 60-69 0-59在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。

等级偏优偏优良良中及格分数80-84 75-79 70-74 65-69 60-64数字等级 5 4 3 2 1通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):编号红酒原等级细化等级白酒原等级细化等级1号68.1 2 2 77.9 3 4 2号74 3 3 75.8 3 4 3号74.6 3 4 75.6 3 4 4号71.2 3 3 76.9 3 4 5号72.1 3 3 81.5 4 5 6号66.3 2 2 75.5 3 4 7号65.3 2 2 74.2 3 3 8号66 2 2 72.3 3 3 9号78.2 3 4 80.4 4 510号68.8 2 2 79.8 3 411号61.6 2 1 71.4 3 312号68.3 2 2 72.4 3 313号68.8 2 2 73.9 3 314号72.6 3 3 77.1 3 415号65.7 2 2 78.4 3 416号69.9 2 3 67.3 2 217号74.5 3 3 80.3 4 518号65.4 2 2 76.7 3 419号 72.6 3 3 76.4 3 4 20号 75.8 3 4 76.6 3 4 21号 72.2 3 2 79.2 3 4 22号 71.6 3 3 79.4 3 4 23号 77.1 3 4 77.4 3 4 24号 71.5 3 3 76.1 3 4 25号 68.2 2 2 79.5 3 4 26号 72 3 3 74.3 3 3 27号 71.5 3 3 77 3 4 28号 79.6 3 4 考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

聚类分析作业

聚类分析作业

1.根据调查得到某地42所学校的数据如下:单位占地面积(m2)建筑面积(m2)教师总数学生总数学校1 2088 562.05 42 434学校2 10344.8 4755 76 1279学校3 2700 4100 56 820学校4 3967 3751 67 990学校5 5850.24 6173.25 78 1241学校6 1803.26 5224.99 72 1180学校7 2165 2391 47 671学校8 3838 3815 104 1400学校9 2268 8011 56 800学校10 9809 3000 90 1597学校11 2996 3889 61 745学校12 2886 3372 65 1722学校13 32000 18000 200 2000学校14 11842 11106 143 2006学校15 7610 5310 69 790学校16 20518 30867 188 2658学校17 7860 8313 77 852学校18 5570 5579 103 1350学校19 19600 8600 108 1490学校20 13351.47 8784 190 2580学校21 9534 12446 142 1800学校22 42080 19500 187 2609学校23 2000 2100 62 332学校24 7928 7024 96 1267学校25 26000 15000 160 2000学校26 12371 12173 128 1634学校27 8561 6556 102 714学校28 11842 11106 163 2904学校29 18850 8332 85 1196学校30 25244 10535 125 1400学校31 10000 8500 200 3700学校32 15037 9523 133 1500学校33 6579 7857 143 2285学校34 30094 25027 175 2623学校35 4238.73 8522.38 130 1200学校36 10846 8377 200 2300学校37 27282.25 21614.04 200 2400学校38 40000 13000 151 1800学校39 53333.3 16000 224 2132学校40 60000 50000 360 200学校41 100000 30000 200 1100学校42 173333 60000 420 2552试将这些学校分类。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析和判别分析练习题
一、选择题
1.需要在聚类分析中保序的聚类分析是( )。

A.两步聚类
B.有序聚类
C.系统聚类
D.k-均值聚类 2.在系统聚类中2R 是( )。

A.组内离差平方和除以组间离差平方和
B.组间离差平方和除以组内离差平方和
C.组间离差平方和除以总离差平方和
D.组间均方除以总均方。

3.系统聚类的单调性是指( )。

A.每步并类的距离是单调增的 B.每步并类的距离是单调减的 C.聚类的类数越来越少 D.系统聚类2R 会越来越小
4.以下的系统聚类方法中,哪种系统聚类直接利用了组内的离差平方和。

( ) A.最长距离法 B.组间平均连接法 C.组内平均连接法 D.WARD 法
5.以下系统聚类方法中所用的相似性的度量,哪种最不稳健( )。

A.2
1()p
ik jk k x x =-∑ B.
1p
ik jk
k ik
jk
x x x
x =-+∑
C.
21p
k =∑ D. 1()()i j i j -'x -x Σx -x
6. 以下系统聚类方法中所用的相似性的度量,哪种考虑了变量间的相关性( )。

A.2
1()p
ik jk k x x =-∑ B.
1
p
ik jk
k ik
jk
x x x
x =-+∑
C.
21
p
k =∑ D. 1()()i j i j -'x -x Σx -x
7.以下统计量,可以用来刻画分为几类的合理性统计量为( )? A.可决系数或判定系数2R B.
G
G
W P P -
C.()/(1)
/()
G
G
W P G
P n G
--
-
D.()
G W P
W
-
8.以下关于聚类分析的陈述,哪些是正确的()
A.进行聚类分析的统计数据有关于类的变量
B.进行聚类分析的变量应该进行标准化处理
C.不同的类间距离会产生不同的递推公式
D.递推公式有利于运算速度的提高。

D(3)的信息需要D(2)提供。

9.判别分析和聚类分析所要求统计数据的不同是()
A.判别分析没有刻画类的变量,聚类分析有该变量
B.聚类分析没有刻画类的变量,判别分析有该变量
C.分析的变量在不同的样品上要有差异
D.要选择与研究目的有关的变量
10.距离判别法所用的距离是()
A.马氏距离
B. 欧氏距离
C.绝对值距离
D. 欧氏平方距离
11.在一些条件同时满足的场合,距离判别和贝叶斯判别等价,是以下哪些条件。

()
A.正态分布假定
B.等协方差矩阵假定
C.均值相等假定
D.先验概率相等假定
12.常用逐步判别分析选择不了的标准是()
A.Λ统计量越小变量的判别贡献更大
B.Λ统计量越大变量的判别贡献更大
C.判定系数越小变量的判别贡献更大
D.判定系数越大变量的判别贡献更大
二、填空题
1、聚类分析是建立一种分类方法,它将一批样本或变量按照它们在性质上的_______________进行科学的分类。

2.Q型聚类法是按_________进行聚类,R型聚类法是按_______进行聚类。

3.Q型聚类相似程度指标常见是、、,而R型聚类相似程度指标通常采用_____________ 、。

4.在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间
可同度量的目的。

常用的无量纲化方法有以下几种:_____________、____________、_____ ___。

5.六种Q 型聚类方法分别为____ 、_______ ___、____ ____、 _____________、___________、_____________。

6.判别分析是要解决在研究对象已知_________________的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。

7.用判别分析方法处理问题时,通常以__________作为衡量新样本点与各已知组别接近程度的指标。

8.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有____________、_____________。

9.类内样本点接近,类间样本点疏远的性质,可以通过_____________与___________的大小差异表现出来,而两者的比值能把不同的类区别开来。

这个比值越大,说明类与类间的差异越_____,分类效果越______。

10. 最大的错判概率为 ,这时两个总体的均值向量的关系是 。

11. 两个点x 和y 是从同一个总体中抽出的样本,二者的马氏距离可以表达为 。

三、总结系统聚类有哪些方法?他们的D (0)可以如何定义,其各种方法的递推公式式什么。

证明类平均法的递推公式是
222
(,)(,)(,)K L K L
n D J K n D J L D J M n n +=+
四、系统聚类类别的确定有哪些方法或指标? 五、如果在系统聚类时,某步产生了如下的两个小类
()2,3,4,(3,4,5),(3,5,2)⎡⎤⎣⎦ ()8,4,4,(6,4,5)
⎡⎤⎣⎦ 如果用离差平方和法聚类,两个小类的距离是多少。

六、简述系统聚类法的基本思想及主要步骤。

六、简述快速聚类的基本思想及主要步骤。

七、某地区将农村经济类型分为三类:G1—较富裕类型,G2—中等类型,G3—较贫困类型。

每种类型以五个指标为依据:x1=土地生产率=农村社会总产值/总土地面积(百元/每亩),x2=劳动生产率=农村社会总产值/农村劳动力(百元/每个劳动力),x3=人均收入=农村经济纯收入/农业人口(百元/每人),x4=费用水平=总费用/总收入, x5=农村工业比重=农村工业产值/农村社会总产值。

每种类型分别有容量为n 1=5,n 2=8,n 3=4的样本(每个个体以县为单位),其数据如下:
(2)试以x1,x2,x3,x4,x5为变量,建立马氏距离判别函数
八、设两个二维总体有公共协方差,从二总体中分别抽取了容量为9和8的样本,其数据如下:
九、以下数据是20种啤酒的相关数据,进行聚类分析。

十、讨论系统聚类、k均值聚类和有序聚类的技术。

说明其特点。

相关文档
最新文档