聚类分析报告实例分析报告题
聚类分析实例分析题(推荐文档)

5.2酿酒葡萄的等级划分5.2.1葡萄酒的质量分类由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。
我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。
通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。
在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。
为此我们需要进一步细化等级。
为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。
通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。
5.2.2建立模型在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward 最小方差法,又叫做离差平方和法。
聚类分析是研究分类问题的一种多元统计方法。
所谓类,通俗地说,就是指相似元素的集合。
为了将样品进行分类,就需要研究样品之间关系。
这里的最小方差法的基本思想就是将一个样品看作P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。
面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。
现在我们将用SAS 系统里面的stepdisc 和cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。
建立数据阵,具体数学表示为:1111...............m n nm X X X X X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦(5.2.1) 式中,行向量1(,...,)i i im X x x =表示第i 个样品;列向量1(,...,)'j j nj X x x =’,表示第j 项指标。
08聚类分析与判别分析的例题

聚类分析与判别分析的例题1、某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
(1)根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
(2)现有一新品牌的饮料再该超市试销,其销售价格为3.0,顾客对其口味的评分平均分为8,信任评分为5,试预测该饮料的销售情况。
2、银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄、受教育程度、现从事工作的年龄、未变更住址的年数、收入,负债收入比例、信用卡债务、其他债务等来判断其信用情况。
下表是某银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费系尔判别法建立判别函数和判别规则。
(2)某客户的如上情况资料为(53,1,9,18,50,11,20,2.02,3.58),对其进行信用好坏的判别。
目前信用好坏客户序号已履行还贷责任1 23 1 7 2 31 6.6 0.34 1.712 34 1 173 59 8.0 1.81 2.913 42 2 7 23 41 4.6 0.94 0.944 39 1 195 48 13.1 1.93 4.365 35 1 9 1 34 5.0 0.40 1.30未履行还贷责任6 37 1 1 3 24 15.1 1.80 1.827 29 1 13 1 42 7.4 1.46 1.658 32 2 11 6 75 23.3 7.76 9.729 28 2 2 3 23 6.4 0.19 1.2910 26 1 4 3 27 10.5 2.47 0.363、从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行思想生化指标的化验:血清铜蛋白、蓝色反应、尿吲哚乙酸和中性硫化物,数据见下表。
试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。
聚类分析实验报告例题

一、实验目的1. 理解聚类分析的基本原理和方法。
2. 掌握K-means、层次聚类等常用聚类算法。
3. 学习如何使用Python进行聚类分析,并理解算法的运行机制。
4. 分析实验结果,并评估聚类效果。
二、实验环境1. 操作系统:Windows 102. 编程语言:Python3.83. 库:NumPy、Matplotlib、Scikit-learn三、实验数据本次实验使用的数据集为Iris数据集,包含150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),属于3个不同的类别。
四、实验步骤1. 导入Iris数据集,并进行数据预处理。
2. 使用K-means算法进行聚类分析,选择合适的K值。
3. 使用层次聚类算法进行聚类分析,观察聚类结果。
4. 分析两种算法的聚类效果,并进行比较。
5. 使用Matplotlib绘制聚类结果的可视化图形。
五、实验过程1. 数据预处理```pythonfrom sklearn import datasetsimport numpy as np# 加载Iris数据集iris = datasets.load_iris()X = iris.datay = iris.target# 数据标准化X = (X - np.mean(X, axis=0)) / np.std(X, axis=0) ```2. K-means聚类分析```pythonfrom sklearn.cluster import KMeans# 选择K值k_values = range(2, 10)inertia_values = []for k in k_values:kmeans = KMeans(n_clusters=k, random_state=42) kmeans.fit(X)inertia_values.append(kmeans.inertia_)# 绘制肘部图import matplotlib.pyplot as pltplt.plot(k_values, inertia_values, marker='o') plt.xlabel('Number of clusters')plt.ylabel('Inertia')plt.title('Elbow Method')plt.show()```3. 层次聚类分析```pythonfrom sklearn.cluster import AgglomerativeClustering# 选择层次聚类方法agglo = AgglomerativeClustering(n_clusters=3)y_agglo = agglo.fit_predict(X)```4. 聚类效果分析通过观察肘部图,可以发现当K=3时,K-means算法的聚类效果最好。
聚类分析例题及解答

聚类分析作业之青柳念文创作
例题:
停止聚类分析,步调如下:
1、尺度化的欧式间隔聚类
各类所属
得出以上成果,以欧氏间隔为计算间隔方法,把以
上17个亚洲国家地区按6个变量欧氏间隔划分为三类.
第一类为:Bangladesh
第二类为:China
第三类为:Malaysia
2、测验测验其他类间间隔方法
其他类间间隔方法得出以上成果,以欧氏间隔为计
算间隔方法,把以上17个亚洲国家地区按6个变量欧氏
间隔也可以划分为以下三类:
第一类为:Bangladesh
第二类为:China
第三类为:Malaysia
3、用样本主成分画图
由图可知,所聚成的3类中:
第1类有5个样本,类间间隔较接近,效果较好;第2类有6个样本,类间间隔较接近,效果次之;第3类有6个样本.类间间隔较团圆,效果最差.。
聚类分析算法实验报告(3篇)

第1篇一、实验背景聚类分析是数据挖掘中的一种重要技术,它将数据集划分成若干个类或簇,使得同一簇内的数据点具有较高的相似度,而不同簇之间的数据点则具有较低相似度。
本实验旨在通过实际操作,了解并掌握聚类分析的基本原理,并对比分析不同聚类算法的性能。
二、实验环境1. 操作系统:Windows 102. 软件环境:Python3.8、NumPy 1.19、Matplotlib 3.3.4、Scikit-learn0.24.03. 数据集:Iris数据集三、实验内容本实验主要对比分析以下聚类算法:1. K-means算法2. 聚类层次算法(Agglomerative Clustering)3. DBSCAN算法四、实验步骤1. K-means算法(1)导入Iris数据集,提取特征数据。
(2)使用Scikit-learn库中的KMeans类进行聚类,设置聚类数为3。
(3)计算聚类中心,并计算每个样本到聚类中心的距离。
(4)绘制聚类结果图。
2. 聚类层次算法(1)导入Iris数据集,提取特征数据。
(2)使用Scikit-learn库中的AgglomerativeClustering类进行聚类,设置链接方法为'ward'。
(3)计算聚类结果,并绘制树状图。
3. DBSCAN算法(1)导入Iris数据集,提取特征数据。
(2)使用Scikit-learn库中的DBSCAN类进行聚类,设置邻域半径为0.5,最小样本数为5。
(3)计算聚类结果,并绘制聚类结果图。
五、实验结果与分析1. K-means算法实验结果显示,K-means算法将Iris数据集划分为3个簇,每个簇包含3个样本。
从聚类结果图可以看出,K-means算法能够较好地将Iris数据集划分为3个簇,但存在一些噪声点。
2. 聚类层次算法聚类层次算法将Iris数据集划分为3个簇,与K-means算法的结果相同。
从树状图可以看出,聚类层次算法在聚类过程中形成了多个分支,说明该算法能够较好地处理不同簇之间的相似度。
聚类分析实验

题目:对北京地区18区县中等职业教育发展水平进行聚类,聚类的依据是x(1):每万人中职在校生数,x(2):每万人中职招生数,x(3):每万人中职毕业生数,x(4):每万人中职专任教师数,x(5):本科以上学校老师占任教师的比例,x(6):高级教师占专任教师的比例,x(7):学校平均在校生人数,x(8):国家财政预算中职经费占国内生产总值的比例,x(9):生均教育经费,数据如表11.1表示。
建立数据文件取名为“EG11-1,SAR”如下图2、单击“Hierar chical claster analysis”对话框,从其左侧的变量列表中选“x1”“x2”…“x9”变量,添加到右侧的“variable(s):”,选择g(x)变量添加到“label cases by:”中。
3、单击“method…”,弹出“Hierar chical claster analysis:method”,在“claster method:”中指定小类之间的距离计算方法,选择“interval”中的“squared eudidean distance”,单击“continue”,返回“Hierar chical claster analysis”。
4、单击“plots…”,弹出“Hierar chical claster analysis:plots”,选中“dendiogran”,并选择纵向vetial输出类聚全过程的冰柱图,单击“continue”,返回“Hierar chical claster analysis”。
5、显示凝聚状态表。
单击“statistic”,弹出“Hierar chical claster analysis:statistic”。
6、设定保存层次聚类结果。
单击“save…”,弹出“Hierar chical claster analysis:save new var”,选中single solution,并在后面的框中输入3。
(6)聚类分析例子

例题1:下表是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。
试利用调查资料对16个地区进行分类。
地区食品衣着燃料住房生活用品及其他文化生活服务支出北京190.33 43.77 9.73 60.54 49.01 9.04 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.4 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.19 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.52 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 12.72 47.12 34.35 5安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.51 21.5 17.64 19.19 15.97 4.94 山东115.84 30.26 12.2 33.61 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3下面用统计学软件 SAS(Statistical Analysis System) data dfdf;input city $ x1 x2 x3 x4 x5 x6;cards;beijing 190.33 43.77 9.73 60.54 49.01 9.04tianjing 135.20 36.40 10.47 44.16 36.49 3.94hebei 95.21 22.83 9.30 22.44 22.81 2.80shanxi 104.78 25.11 6.40 9.89 18.17 3.25 neimenggu 128.41 27.63 8.94 12.58 23.99 3.27 liaoning 145.68 32.83 17.19 27.29 39.09 3.47jilin 159.37 33.38 18.37 11.81 25.29 5.22 heilongjiang 116.22 29.57 13.24 13.76 21.75 6.04 shanghai 221.11 38.64 12.53 115.65 50.82 5.89 jiangsu 144.98 29.12 11.67 42.60 27.30 5.74 zhejiang 169.92 32.75 12.72 47.12 34.35 5.00anhui 153.11 23.09 15.62 23.54 18.18 6.39fujian 144.92 21.26 16.96 19.52 21.75 6.73jiangxi 140.54 21.50 17.64 19.19 15.97 4.94 shandong 115.84 30.26 12.20 33.61 33.77 3.85henan 101.18 23.26 8.46 20.20 20.50 4.30;run;proc cluster data=dfdf std outtree=tree method=ave pesudo rsq;id city;run; /*ward离差平方和法 war; 类平均法 ave; 重心法 cen;最长距离法 com;中间距离法 med; 最短距离法 sin;密度估计法 den;极大似然法 eml; 可变类平均 fle;相似分析法 mcq; 两阶段密度估计 two; */proc tree data=tree out=new graphics horizontal;id city;run;Cluster HistoryNormRMS NCL Clusters Joined--- FREQ SPRSQ RSQ PSF PST2 Dist 15 anhui fujian 2 0.0025 0.998 28.7 . 0.193 14 hebei henan 2 0.0055 0.992 19.1 . 0.2869 13 CL14 shanxi 3 0.0068 0.985 16.7 1.2 0.3116 12 CL15 jiangxi 3 0.0099 0.975 14.4 4 0.3481 11 jiangsu zhejiang 2 0.0089 0.966 14.4 . 0.366 10 CL13 neimengg 4 0.0106 0.956 14.4 1.7 0.3692 9 tianjing shandong 2 0.0092 0.947 15.5 . 0.3711 8 CL9 CL11 4 0.0237 0.923 13.7 2.6 0.4957 7 liaoning jilin 2 0.0189 0.904 14.1 . 0.5329 6 heilongj CL12 4 0.0267 0.877 14.3 4.3 0.5463 5 CL8 CL7 6 0.0528 0.824 12.9 3.5 0.6681 4 CL5 CL6 10 0.1269 0.698 9.2 6.6 0.7823 3 CL4 CL10 14 0.1955 0.502 6.6 7.8 0.8751 2 beijing shanghai 2 0.0562 0.446 11.3 . 0.91841CL2 CL3 16 0.4458 0 . 11.3 1.5454(1)2R 统计量(列标题为RSQ )用于评价每次合并成NCL 个类时的聚类效果。
班级学生成绩聚类分析报告

班级学生成绩聚类分析报告1. 引言学生成绩是评价学生学习成果的一个重要指标。
通过对学生成绩进行聚类分析可以帮助我们理解学生成绩之间的关系,发现不同学生群体之间的特点和差异,为教育教学提供参考。
本报告旨在对某班级学生成绩进行聚类分析,并探讨聚类结果的意义。
2. 数据准备本次分析使用的数据是某班级学生的成绩数据,包括数学、语文、英语三门课程的成绩。
共有50个学生的成绩数据,每位学生的成绩用一个向量表示,该向量的维度为3。
下表给出了前5位学生的成绩数据示例:学生编号数学成绩语文成绩英语成绩S1 85 90 75S2 72 80 82S3 96 91 93S4 68 75 78S5 92 88 853. 聚类分析方法聚类分析是一种将样本根据其相似性进行分组的方法。
在本次分析中,我们使用K-means算法对学生成绩进行聚类。
K-means算法通过将样本划分到K个聚类中心,使得各个样本到所属聚类中心的距离最小化,来实现聚类的目标。
4. 聚类分析过程在进行聚类分析之前,需要先确定K值,即要将样本分成几个聚类。
我们通过手肘法确定K值。
手肘法通过绘制不同K值下的聚类误差平方和(SSE)与K值的关系图,找到误差平方和变动趋势明显变缓的拐点作为合适的K值。
本次分析中,我们尝试了K从1到10的值,计算了对应的SSE,并绘制了SSE与K值的关系图。
观察到当K=3时,SSE的变化趋势明显变缓,因此我们选择K=3作为合适的聚类数量。
接下来,我们使用K-means算法将学生成绩进行聚类。
在聚类过程中,我们随机选择了3个初始聚类中心,并迭代计算每个样本与各个聚类中心的距离,将其划分到距离最近的聚类中心。
5. 聚类结果分析经过聚类分析,我们将学生成绩分成了3个聚类,分别为聚类1、聚类2和聚类3。
下图给出了聚类结果的可视化效果:从上图可以看出,不同聚类之间存在明显的差异。
我们对每个聚类的特点进行分析如下:- 聚类1: 该聚类中的学生在数学和语文成绩上表现较为突出,英语成绩相对较低。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5.2酿酒葡萄的等级划分
5.2.1葡萄酒的质量分类
由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。
我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作为总的对于这支酒的等级评价。
通过国际酿酒工会对于葡萄酒的分级,以百分制标准评级,总共评出了六个级别(见表5)。
在问题2的计算中,我们求出了各支酒的分数,考虑到所有分数在区间[61.6,81.5]波动,以原等级表分级,结果将会很模糊,不能分得比较清晰。
为此我们需要进一步细化等级。
为此我们重新细化出5个等级,为了方便计算,我们还对等级进行降序数字等级(见表6)。
通过对数据的预处理,我们得到了一个新的关于葡萄酒的分级表格(见表7):
考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系,我们将保留葡萄酒质量对于酿酒葡萄的影响,先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类,然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。
5.2.2建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程,我们用到了聚类分析方法中的ward 最小方差法,又叫做离差平方和法。
聚类分析是研究分类问题的一种多元统计方法。
所谓类,通俗地说,就是指相似元素的集合。
为了将样品进行分类,就需要研究样品之间关系。
这里的最小方差法的基本思想就是将一个样品看作P 维空间的一个点,并在空间的定义距离,距离较近的点归为一类;距离较远的点归为不同的类。
面对现在的问题,我们不知道元素的分类,连要分成几类都不知道。
现在我们将用SAS 系统里面的stepdisc 和cluster 过程完成判别分析和聚类分析,最终确定元素对象的分类问题。
建立数据阵,具体数学表示为:
1111...............m n nm X X X X X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦
(5.2.1) 式中,行向量1(,...,)i i im X x x =表示第i 个样品;
列向量1(,...,)'j j nj X x x =’,表示第j 项指标。
(i=1,2,…,n;j=1,2,…m)
接下来我们将要对数据进行变化,以便于我们比较和消除纲量。
在此我们用了使用最广范的方法,ward 最小方差法。
其中用到了类间距离来进行比较,定义为:
2||||/(1/1/)kl k l k l D X X n n =-+ (5.2.2) Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。
系统聚类数的确定。
在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。
在实际应用中常使用下面几种
方法确定类的个数。
由适当的阀值确定,此处阀值为kl D 。
根据样本的散点图直观的确定。
当样本所含指标只有2个或3个时,可运用散点图直观观察。
如果指标超过3个时,可用主成份法先综合指标。
根据统计量确定分类个数。
在SAS 中,提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。
1) 2R 统计量:
222221//A T B T R S S S S =-= (5.2.3)
其中,2A S 为分类数为k 个数时的总类内离差平方和,2T S 为所有样品或变量
的总离差平方和。
2R 越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k 个类的效果越好。
显然分类越多,每个类离差越小,2R 越大,所以我们只能取k 使得2R 足够大,但k 本身比较小,而且2R 不再大幅度增加。
2)半偏2R 统计量:在把类k C 和类l C 合并为下一水平的类m C 时,定义半偏相关:
2/kl B T =半偏R (5.2.4)
其中()kl m k l B S S S =-+为合并类引起的类内离差平方和的增量: T S 为类T C 的类内离差平方和。
半偏2R 用于评价单次合并效果,其值越大,说明上次合并效果越好。
3)伪F 统计量:
(T-P )/(k-1)=/()
k k F P n k -伪 (5.2.5) 伪统计量评价分为k 个类的效果。
伪F 统计量越大,表达分为k 个类越合理。
通常取伪F 统计量较大而类数小的聚类水平。
4) 伪2t 统计量:
2/(()/(2))kl k l k l t B S S n n =++- (5.2.6) 用此统计量评价合并类k C 和类l C 的效果,该值大说明合并的两个类k C 和类l C 是很分开的,这个合并不成功,而应该去合并前的水平。
通过使用sas 软件的cluster 过程和tree 过程,可以求解分析出结果。
5.2.3模型的求解与分析
首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类分析,把酿酒葡萄分成五类,得到初步的结果(见图3):
从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表8.
组号 1 2 3 4 5
概率 0.2727 0.1250 0.3333 0.4000 1.000 在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。
为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。
通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。
经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。
得到了新的结果(见表9):
分类数 样品数 半偏2R 2R 伪F 统计量
伪2t 统计量 6 4 0.0171 0.915 47.6 9.1 5 6 0.0500 0.865 37.0 6.1 4 11 0.0612 0.804 32.9 17.3 3 21 0.1032 0.701 29.3 17.9 2 7 0.1648 0.536 30.1 10.0 1 28 0.5362 0 . 30.1
之前的差异我们得到了新的谱系聚类图(见图4)
图3:谱系聚类图 图4:优化后的谱系聚类图
通过对比前后的两图,我们可以发现,分类的结果除了组间的类别有点波动之外,整体的分组是没有改变的。
所以,我们第一步得到了优化结果的可靠。
但
仅仅用图说明是不够的,为此我们通过判别分析法,通过具体数据来说明分析结果的可靠。
有存在误差的。
这个结果是比较令人满意也令人信服的。
由此,我们得到的结果是,我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。
具体分类结果为:
分类。
由于用到的算法与检验方法一样,所以这里不再累赘,将直接输出最后分组结果。
部分详细内容见附录。
评分,首先应该说明的是,烂葡萄是不能酿出好酒,根据这个,我们可以客观的说出一点,一般好的葡萄能酿出好的酒,可能酿酒过程会意外让酒变质导致酒变差,但好的酒由好的葡萄酿制出来是毫无疑问的。
为此我们把对于酒的等级相当于对葡萄打分。
每种葡萄分别得到分数i S ,i 表示第i 种葡萄。
通过将每组的葡萄总分除以组内总数得到的数据,对葡萄进行分类,
i =/S 分类指标组内数
通过指标的具体分数,我们就可以轻松对葡萄进行等级划分,结果见表13:
附录五:原判别分析表
附录六:优化后的判别分析表
在表中的各列数据代表的意思是:”NCL”为分类数量,表示新类别形成后类别的总数。
“--Clusters Joined---”为合并的类别,指明这一步合并了哪两个类,有两列。
其中OBx表示某一个原始样品,而CLx表示在某一个聚类水平上产生的类。
“FREQ”表示这次合并得到的类有多少个样品。
“SPRSQ”是半偏,“RSQ”是,”CCC”是考察聚类效果的统计量,该值越大,聚类水平越好,”PSF”为伪F统计量,“PST2”为伪统计量,“Tie”指示距离最小的候选类对是否有多对,本例全无。