聚类分析实例分析题

合集下载

CDA数据分析师Level 2考试题库库案例之聚类问题

CDA数据分析师Level 2考试题库库案例之聚类问题

CDA数据分析师LevelⅡ考试题库案例之聚类问题
案例:
为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见下表。

使用该原始数据按照国别进行聚类分析,国家按照表顺序从上往下依次编号,如图所示:
使用SPSS软件分析结果如下:
问题1:聚类分析常用的方法不包括哪个()
A、动态聚类法
B、合成法
C、加入法
D、分解法
答案:B
问题2:从聚类结果来看,与其他国家相似度最低,处于最高类别的国家是()
A、巴西
B、中国
C、俄罗斯
D、美国
答案:C
问题3:下列各项关于聚类分析的描述中,不正确的是()
A、相关聚类度量是表示两个事物之间关联度的值,常见的计算方法包括SAD、SSD、MAE、MSE等
B、层次聚类算法是自下而上的一种分类方法
C、层次聚类算法的缺点是必须提前知道数据有多少组/类,即K值,否则会造成严重的错误和偏差
D、常用的聚类算法包括层次聚类、K-均值聚类和DBSCAN聚类
答案:C
问题4:在聚类分析中不会使用的距离是()
A、Minkowski距离
B、绝对距离
C、笛卡尔距离
D、欧式距离
答案:C
问题5:在聚类结果中,与中国最应该聚为一类的国家是()
A、澳大利亚
B、印尼
C、日本
D、加拿大
答案:A。

08聚类分析与判别分析的例题

08聚类分析与判别分析的例题

聚类分析与判别分析的例题1、某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。

下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。

(1)根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。

(2)现有一新品牌的饮料再该超市试销,其销售价格为3.0,顾客对其口味的评分平均分为8,信任评分为5,试预测该饮料的销售情况。

2、银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。

可以根据贷款申请人的年龄、受教育程度、现从事工作的年龄、未变更住址的年数、收入,负债收入比例、信用卡债务、其他债务等来判断其信用情况。

下表是某银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费系尔判别法建立判别函数和判别规则。

(2)某客户的如上情况资料为(53,1,9,18,50,11,20,2.02,3.58),对其进行信3、从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行思想生化指标的化验:血清铜蛋白、蓝色反应、尿吲哚乙酸和中性硫化物,数据见下表。

试用距离判别法建立判别函数,并根据此判4、为了了解儿童的生长发育规律,今随机抽取了男孩从出生到11岁每年平均增长的重量数据表,试问男孩发育可分为几个阶段?表1~11岁儿童每年平均增长的重量5、下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K均值法分别对这些公司进行聚类,并对结果进行分析。

6、下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。

试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。

7、下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDP元、人均工业产值元、客运总量万人、货运总量万人、地方财政预算内收入亿元、固定资产投资总额亿元、在岗职工人数占总人口的比例%、在岗职工人均工资额元、城乡居民年底储蓄余额亿元。

聚类分析实验报告例题

聚类分析实验报告例题

一、实验目的1. 理解聚类分析的基本原理和方法。

2. 掌握K-means、层次聚类等常用聚类算法。

3. 学习如何使用Python进行聚类分析,并理解算法的运行机制。

4. 分析实验结果,并评估聚类效果。

二、实验环境1. 操作系统:Windows 102. 编程语言:Python3.83. 库:NumPy、Matplotlib、Scikit-learn三、实验数据本次实验使用的数据集为Iris数据集,包含150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),属于3个不同的类别。

四、实验步骤1. 导入Iris数据集,并进行数据预处理。

2. 使用K-means算法进行聚类分析,选择合适的K值。

3. 使用层次聚类算法进行聚类分析,观察聚类结果。

4. 分析两种算法的聚类效果,并进行比较。

5. 使用Matplotlib绘制聚类结果的可视化图形。

五、实验过程1. 数据预处理```pythonfrom sklearn import datasetsimport numpy as np# 加载Iris数据集iris = datasets.load_iris()X = iris.datay = iris.target# 数据标准化X = (X - np.mean(X, axis=0)) / np.std(X, axis=0) ```2. K-means聚类分析```pythonfrom sklearn.cluster import KMeans# 选择K值k_values = range(2, 10)inertia_values = []for k in k_values:kmeans = KMeans(n_clusters=k, random_state=42) kmeans.fit(X)inertia_values.append(kmeans.inertia_)# 绘制肘部图import matplotlib.pyplot as pltplt.plot(k_values, inertia_values, marker='o') plt.xlabel('Number of clusters')plt.ylabel('Inertia')plt.title('Elbow Method')plt.show()```3. 层次聚类分析```pythonfrom sklearn.cluster import AgglomerativeClustering# 选择层次聚类方法agglo = AgglomerativeClustering(n_clusters=3)y_agglo = agglo.fit_predict(X)```4. 聚类效果分析通过观察肘部图,可以发现当K=3时,K-means算法的聚类效果最好。

聚类分析例题及解答

聚类分析例题及解答

聚类分析作业之青柳念文创作
例题:
停止聚类分析,步调如下:
1、尺度化的欧式间隔聚类
各类所属
得出以上成果,以欧氏间隔为计算间隔方法,把以
上17个亚洲国家地区按6个变量欧氏间隔划分为三类.
第一类为:Bangladesh
第二类为:China
第三类为:Malaysia
2、测验测验其他类间间隔方法
其他类间间隔方法得出以上成果,以欧氏间隔为计
算间隔方法,把以上17个亚洲国家地区按6个变量欧氏
间隔也可以划分为以下三类:
第一类为:Bangladesh
第二类为:China
第三类为:Malaysia
3、用样本主成分画图
由图可知,所聚成的3类中:
第1类有5个样本,类间间隔较接近,效果较好;第2类有6个样本,类间间隔较接近,效果次之;第3类有6个样本.类间间隔较团圆,效果最差.。

聚类分析法经典案例

聚类分析法经典案例

聚类分析法经典案例
聚类分析是一种常用的数据分析方法,它能够将相似的观察对象分为一组,并将不相似的对象分为不同的组。

下面将介绍一个经典的聚类分析案例。

在电信行业,客户流失是一个非常重要的问题。

为了降低客户流失率,一家电信公司希望通过聚类分析来识别客户流失的特征,以便进行有针对性的营销策略。

首先,该公司收集了一些客户数据,如客户的年龄、性别、月平均消费金额、通话时长等。

然后,利用聚类分析方法,将客户分为不同的组。

在这个案例中,我们可以采用k-means聚类算法。

通过聚类分析,该公司发现了三个客户群体。

第一组客户是高消费高通话客户,他们的平均消费金额和通话时长都很高。

第二组客户是低消费低通话客户,他们的平均消费金额和通话时长都很低。

第三组客户是高消费低通话客户,他们的平均消费金额很高,但通话时长很低。

利用聚类分析的结果,该公司能够采取有针对性的营销策略。

对于高消费高通话客户,他们可能是该公司的忠诚客户,可以通过提供一些优惠或奖励来保持他们的忠诚度。

对于低消费低通话客户,可以通过提供更具吸引力的套餐或增加服务内容来激发他们的消费需求。

对于高消费低通话客户,可以通过了解他们的通话行为,推出更适合他们的通话套餐,以增加他们的通话时长。

通过这个案例,我们可以看到聚类分析在客户流失预测和营销策略中的重要作用。

它可以帮助企业快速识别不同类型的客户,有针对性地制定相应的营销策略,提高客户满意度和忠诚度,降低客户流失率。

聚类分析还可以应用于其他领域,如金融、医疗等,具有广泛的应用前景。

(6)聚类分析例子

(6)聚类分析例子

例题1:下表是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。

试利用调查资料对16个地区进行分类。

地区食品衣着燃料住房生活用品及其他文化生活服务支出北京190.33 43.77 9.73 60.54 49.01 9.04 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.4 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.19 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.52 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 12.72 47.12 34.35 5安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.51 21.5 17.64 19.19 15.97 4.94 山东115.84 30.26 12.2 33.61 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3下面用统计学软件 SAS(Statistical Analysis System) data dfdf;input city $ x1 x2 x3 x4 x5 x6;cards;beijing 190.33 43.77 9.73 60.54 49.01 9.04tianjing 135.20 36.40 10.47 44.16 36.49 3.94hebei 95.21 22.83 9.30 22.44 22.81 2.80shanxi 104.78 25.11 6.40 9.89 18.17 3.25 neimenggu 128.41 27.63 8.94 12.58 23.99 3.27 liaoning 145.68 32.83 17.19 27.29 39.09 3.47jilin 159.37 33.38 18.37 11.81 25.29 5.22 heilongjiang 116.22 29.57 13.24 13.76 21.75 6.04 shanghai 221.11 38.64 12.53 115.65 50.82 5.89 jiangsu 144.98 29.12 11.67 42.60 27.30 5.74 zhejiang 169.92 32.75 12.72 47.12 34.35 5.00anhui 153.11 23.09 15.62 23.54 18.18 6.39fujian 144.92 21.26 16.96 19.52 21.75 6.73jiangxi 140.54 21.50 17.64 19.19 15.97 4.94 shandong 115.84 30.26 12.20 33.61 33.77 3.85henan 101.18 23.26 8.46 20.20 20.50 4.30;run;proc cluster data=dfdf std outtree=tree method=ave pesudo rsq;id city;run; /*ward离差平方和法 war; 类平均法 ave; 重心法 cen;最长距离法 com;中间距离法 med; 最短距离法 sin;密度估计法 den;极大似然法 eml; 可变类平均 fle;相似分析法 mcq; 两阶段密度估计 two; */proc tree data=tree out=new graphics horizontal;id city;run;Cluster HistoryNormRMS NCL Clusters Joined--- FREQ SPRSQ RSQ PSF PST2 Dist 15 anhui fujian 2 0.0025 0.998 28.7 . 0.193 14 hebei henan 2 0.0055 0.992 19.1 . 0.2869 13 CL14 shanxi 3 0.0068 0.985 16.7 1.2 0.3116 12 CL15 jiangxi 3 0.0099 0.975 14.4 4 0.3481 11 jiangsu zhejiang 2 0.0089 0.966 14.4 . 0.366 10 CL13 neimengg 4 0.0106 0.956 14.4 1.7 0.3692 9 tianjing shandong 2 0.0092 0.947 15.5 . 0.3711 8 CL9 CL11 4 0.0237 0.923 13.7 2.6 0.4957 7 liaoning jilin 2 0.0189 0.904 14.1 . 0.5329 6 heilongj CL12 4 0.0267 0.877 14.3 4.3 0.5463 5 CL8 CL7 6 0.0528 0.824 12.9 3.5 0.6681 4 CL5 CL6 10 0.1269 0.698 9.2 6.6 0.7823 3 CL4 CL10 14 0.1955 0.502 6.6 7.8 0.8751 2 beijing shanghai 2 0.0562 0.446 11.3 . 0.91841CL2 CL3 16 0.4458 0 . 11.3 1.5454(1)2R 统计量(列标题为RSQ )用于评价每次合并成NCL 个类时的聚类效果。

聚类分析与判别分析例题与代码

聚类分析与判别分析例题与代码

1、设有20个土壤样品分别对5个变量的观测数据如下表所示,试利用二种聚类法对其进行样品聚类分析。

解:首先将16组的异常有机物值修改为3.33.通过SPss软件进行K-均值检验,得到:由上表可见三组的聚类中心。

可认为:第一组含沙量低,淤泥含量高,黏土含量高,有机物含量中等,PH值中等。

第二组含沙量高,淤泥含量低,黏土含量低,有机物含量较低,PH值中等。

第三组含沙量中等,淤泥含量中等,黏土含量中等,有机物含量较高,PH值中等迭代两次后得到结果。

具体分组如下运用层次聚类法:首先将数据标准化,然后使用标准化后数据组别解释如下:一组:含沙量低,淤泥含量中等,黏土含量高,有机物含量高,PH值中等;二组:含沙量高,淤泥含量低,黏土含量中等,有机物含量中等,PH值较高;三组:含沙量高,淤泥含量高,黏土含量低,有机物含量高,PH值较低;但是考虑到数据可能具有相关性,我们在matlab中使用马氏距离clearclcX=importdata('lunwen.txt');normplot(X(:,5))figurenormplot(X(:,2))figurenormplot(X(:,3))figurenormplot(X(:,4))服从正态分布,使用马氏距离clearclcX=[77.30 13.00 9.70 1.50 6.40;82.50 10.00 7.50 1.50 6.50;66.90 20.00 12.50 2.30 7.00;47.20 33.30 19.00 2.80 5.80;65.30 20.50 14.20 1.90 6.90;83.30 10.00 6.70 2.20 7.00;81.60 12.70 5.70 2.90 6.70;47.80 36.50 15.70 2.30 7.20;48.60 37.10 14.30 2.10 7.20;61.60 25.50 12.60 1.90 7.30;58.60 26.50 14.90 2.40 6.70;69.30 22.30 8.40 4.00 7.00;61.80 30.80 7.40 2.70 6.40;67.70 25.30 7.00 4.80 7.30;57.20 31.20 11.60 2.40 6.30;67.20 22.70 10.10 33.3 6.20;59.20 31.20 9.60 2.40 6.00;80.20 13.20 6.60 2.00 5.80;82.20 11.10 6.70 2.20 7.20;69.70 20.70 9.60 3.10 5.90];%x=zscore(X);corrcoef(X)Y=pdist(X,'mahal');Z=linkage(Y,'average');T=cluster(Z,3);[H,T]=dendrogram(Z);可知,部分变量之间具有相关性,因此得到谱系图认为组一:含沙量中等偏低,淤泥含量低,黏土含量低,有机物含量低,PH偏酸性;认为组二:含沙量中等,淤泥含量低,黏土含量中等偏低,有机物含量高。

第5章聚类分析习题

第5章聚类分析习题

个样品为六类, 利用最短距离法5.11 解:设6个样品为六类,G1,…,G6,利用最短距离法 个样品为六类 , 及5.12式,D(0)计算结果为 式
G1 G1 G2
G3
0 1 2 5 8 10 0 1 4 7 9 0 3 6 8 0 3 5 0 2 0
G2
G3
G4
G5
G6
G4
G5 G6
D(0)中的最小元素是 中的最小元素是D12=D23=1,将G1,G2和G3合并成 ,构成 合并成G7,构成D(1) 中的最小元素是 将 , 和 合并成
D
2 中的最小元素是D12=D23=1,将G1,G2和G3合并成G7,构成 =1,将 合并成G (0) 中的最小元素是D
D2(1)
例如,k=5: 例如,k=5:D 2 57 = 1 D 2 51 + 1 D 2 52 + 1 D 2 53 − 1 D 212 − 1 D 213 − 1 D 2 23 3 3 3 9 9 9 1 1 1 6 149 2 = 64 + 49 + 36 − = − = 49 3 3 3 9 3 3 1 1 1 1 1 1 例如,k=6: 例如,k=6:D 2 67 = D 2 61 + D 2 62 + D 2 63 − D 212 − D 213 − D 2 23 3 3 3 9 9 9 1 1 1 6 245 2 = 100 + 81 + 64 − = − = 121 .5 3 3 3 9 3 3
第五章 聚类分析习题
思考与习题
判别分析与聚类分析有何区别 5.1 判别分析与聚类分析有何区别 答: 判别分析:就是希望利用已经测得的变量数据, 判别分析:就是希望利用已经测得的变量数据,找出 一种判别函数,使得这一函数具有某种最优性质, 一种判别函数,使得这一函数具有某种最优性质,能把属 于不同类别的样本点尽可能地区别开来。或者说, 于不同类别的样本点尽可能地区别开来。或者说,确定了 某种标准,在类别已知的情况下, 某种标准,在类别已知的情况下,利用这种标准将它们区 别开来。 别开来。 聚类分析:就是利用这些标准,在类别未知时, 聚类分析:就是利用这些标准,在类别未知时,找出 类别的个数,并将它们分别聚成为不同的类里。 类别的个数,并将它们分别聚成为不同的类里。 试述系统聚类的基本思想 5.2 试述系统聚类的基本思想 就是距离相近的样品先聚成类, 答:就是距离相近的样品先聚成类,距离相远的后聚 成类,过程一直进行下去,每个总能聚到合适的类中。 成类,过程一直进行下去,每个总能聚到合适的类中。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

5.2酿酒葡萄的等级划分
5.2.1葡萄酒的质量分类
由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。

在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。

通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):
考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward 最小方差法,又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。

所谓类,通俗地说,就是指相似元素的集合。

为了将样品进行分类,就需要研究样品之间关系。

这里的最小方差法的基本思想就是将一个样品看作P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。

面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。

现在我们将用SAS 系统里面的stepdisc 和cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。

建立数据阵,具体数学表示为:
1111...............m n nm X X X X X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦
(5.2.1) 式中,行向量1(,...,)i i im X x x =表示第i 个样品;
列向量1(,...,)'j j nj X x x =’,表示第j 项指标。

(i=1,2,…,n;j=1,2,…m)
接下来我们将要对数据进行变化,以便于我们比较和消除纲量。

在此我们用了使用最广范的方法,ward 最小方差法。

其中用到了类间距离来进行比较,定义为:
2||||/(1/1/)kl k l k l D X X n n =-+ (5.2.2) Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。

系统聚类数的确定。

在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。

在实际应用中常使用下面几种
方法确定类的个数。

由适当的阀值确定,此处阀值为kl D 。

根据样本的散点图直观的确定。

当样本所含指标只有2个或3个时,可运用散点图直观观察。

如果指标超过3个时,可用主成份法先综合指标。

根据统计量确定分类个数。

在SAS 中,提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1) 2R 统计量:
222221//A T B T R S S S S =-= (5.2.3)
其中,2A S 为分类数为k 个数时的总类内离差平方和,2T S 为所有样品或变量
的总离差平方和。

2R 越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k 个类的效果越好。

显然分类越多,每个类离差越小,2R 越大,所以我们只能取k 使得2R 足够大,但k 本身比较小,而且2R 不再大幅度增加。

2)半偏2R 统计量:在把类k C 和类l C 合并为下一水平的类m C 时,定义半偏相关:
2/kl B T =半偏R (5.2.4)
其中()kl m k l B S S S =-+为合并类引起的类内离差平方和的增量: T S 为类T C 的类内离差平方和。

半偏2R 用于评价单次合并效果,其值越大,说明上次合并效果越好。

3)伪F 统计量: (T-P )/(k-1)=/()
k k F P n k -伪 (5.2.5) 伪统计量评价分为k 个类的效果。

伪F 统计量越大,表达分为k 个类越合理。

通常取伪F 统计量较大而类数小的聚类水平。

4) 伪2t 统计量:
2/(()/(2))kl k l k l t B S S n n =++- (5.2.6) 用此统计量评价合并类k C 和类l C 的效果,该值大说明合并的两个类k C 和类l C 是很分开的,这个合并不成功,而应该去合并前的水平。

通过使用sas 软件的cluster 过程和tree 过程,可以求解分析出结果。

5.2.3模型的求解与分析
首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类分析,把酿酒葡萄分成五类,得到初步的结果(见图3):
从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表8. 表8:误判概率表(具体表见附录)
组号 1 2 3 4 5 概率 0.2727 0.1250 0.3333 0.4000 1.000
在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。

为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。

通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。

经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。

得到了新的结果(见表9):
表9:优化后的聚类分析部分结果 (详细见附录)
分类数 样品数 半偏2R 2R 伪F 统计量
伪2t 统计量 6 4 0.0171 0.915 47.6 9.1 5 6 0.0500 0.865 37.0 6.1 4 11 0.0612 0.804 32.9 17.3 3 21 0.1032 0.701 29.3 17.9 2 7 0.1648 0.536 30.1 10.0 1 28 0.5362 0 . 30.1
综合个数据检验,把葡萄分为5个类别是比较合理的一种方案,为了检验与之前的差异我们得到了新的谱系聚类图(见图4)
图3:谱系聚类图 图4:优化后的谱系聚类图
通过对比前后的两图,我们可以发现,分类的结果除了组间的类别有点波动之外,整体的分组是没有改变的。

所以,我们第一步得到了优化结果的可靠。


仅仅用图说明是不够的,为此我们通过判别分析法,通过具体数据来说明分析结果的可靠。

有存在误差的。

这个结果是比较令人满意也令人信服的。

由此,我们得到的结果是,我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。

具体分类结果为:
分类。

由于用到的算法与检验方法一样,所以这里不再累赘,将直接输出最后分组结果。

部分详细内容见附录。

评分,首先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的说出一点,一般好的葡萄能酿出好的酒,可能酿酒过程会意外让酒变质导致酒变差,但好的酒由好的葡萄酿制出来是毫无疑问的。

为此我们把对于酒的等级相当于对葡萄打分。

每种葡萄分别得到分数i S ,i 表示第i 种葡萄。

通过将每组的葡萄总分除以组内总数得到的数据,对葡萄进行分类,
i =/S 分类指标组内数
通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表13:
附录五:原判别分析表
附录六:优化后的判别分析表
在表中的各列数据代表的意思是:”NCL”为分类数量,表示新类别形成后类别的总数。

“--Clusters Joined---”为合并的类别,指明这一步合并了哪两个类,有两列。

其中OBx表示某一个原始样品,而CLx表示在某一个聚类水平上产生的类。

“FREQ”表示这次合并得到的类有多少个样品。

“SPRSQ”是半偏,“RSQ”是,”CCC”是考察聚类效果的统计量,该值越大,聚类水平越好,”PSF”为伪F统计量,“PST2”为伪统计量,“Tie”指示距离最小的候选类对是否有多对,本例全无。

相关文档
最新文档