聚类分析发法

合集下载

聚类分析方法

聚类分析方法

聚类分析方法聚类分析是一种常见的数据分析方法,它可以帮助我们将数据集中的对象按照它们的相似性分成不同的组,从而更好地理解数据的结构和特征。

在实际应用中,聚类分析方法被广泛应用于市场分割、社交网络分析、生物信息学、图像处理等领域。

本文将介绍几种常见的聚类分析方法,包括K均值聚类、层次聚类和密度聚类,并对它们的原理和应用进行简要阐述。

K均值聚类是一种基于距离的聚类方法,它将数据集分成K个簇,每个簇包含距离最近的K个中心点。

K均值聚类的原理是通过迭代计算每个样本点到中心点的距离,然后将样本点分配到距离最近的中心点所在的簇中。

这个过程一直迭代进行,直到簇的分配不再改变为止。

K均值聚类的优点是简单易懂,计算速度快,但是它对初始中心点的选择敏感,容易陷入局部最优解。

层次聚类是一种基于树形结构的聚类方法,它通过不断地将最相似的样本点或簇合并在一起,从而构建出一个层次化的聚类结构。

层次聚类可以分为凝聚型和分裂型两种方法。

凝聚型层次聚类是从下往上构建聚类结构,它首先将每个样本点看作一个独立的簇,然后根据它们的相似性逐步合并成更大的簇,直到所有样本点合并成一个簇为止。

分裂型层次聚类则是从上往下构建聚类结构,它首先将所有样本点看作一个簇,然后根据它们的差异逐步分裂成更小的簇,直到每个样本点都成为一个簇为止。

层次聚类的优点是不需要预先确定簇的个数,但是它的计算复杂度较高,不适合处理大规模数据集。

密度聚类是一种基于样本点密度的聚类方法,它将高密度的样本点划分为一个簇,并且可以发现任意形状的簇。

密度聚类的核心思想是通过计算每个样本点周围的密度来确定核心点,然后将核心点连接在一起形成簇。

密度聚类的优点是对噪声和离群点具有较好的鲁棒性,但是它对参数的选择比较敏感,需要合适的密度阈值来确定核心点。

总的来说,聚类分析方法是一种强大的数据分析工具,它可以帮助我们发现数据中的潜在结构和规律。

不同的聚类方法适用于不同类型的数据和应用场景,选择合适的聚类方法需要根据具体问题的特点来进行。

聚类分析方法

聚类分析方法

聚类分析方法方法介绍聚类分析 (Clauster Analysis)数值分类法的一种,在社会应用中称类型学。

Robert Tryon于1939年提出的一种心理学研究方法。

目的:用数量关系对事物进行分类。

对于可以用某些数量描述的事物,采用样本间的距离来将性质接近的事物归为一类,从而达到对事物的分析和评价。

聚类分析作分类时各类群乃至类群数事先未知,而是根据数据的特征确定的,又称为无师可循的分类。

一般分为逐步聚类、系统聚类和其它方法。

16种饮料的热量、咖啡因、钠及价格四种变量数据示例聚类分析(cluster analysis)对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件、样品)来分类(相当于对数据中的行分类)。

比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。

当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。

如何度量远近,如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。

这样就可以把接近的点放到一类。

如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100 个点,也可以按照距离远近来分类。

三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。

在饮料数据中,每种饮料都有四个变量值。

这就是四维空间点的问题了。

如果以n个数值型变量(n维空间)来描述某一类事物,则一个事物就是n维空间中是一个点。

YXZ1>.........................ABC.在A、B、C三组数据点群中,每组内部的数据点的坐标数值都比较接近。

用几何距离表示就是:由于在同一类中数据点的坐标值比较接近或几何距离比较接近,这类点的总体性质就比较接近。

聚类分析就是通过对变量的测量,将比较接近的个案找出来归为一类,进一步再将比较接近的类合并成为新的类,逐层合并直到最后合并成为一类。

spss聚类分析方法选择

spss聚类分析方法选择

SPSS聚类分析方法选择引言在数据分析中,聚类分析是一种常用的技术,用于将一组数据点分成不同的类别或群组。

聚类分析有助于揭示数据中的模式和结构,并帮助我们理解数据集中的关联性。

SPSS是一个流行的统计软件,提供了多种聚类分析方法供用户选择。

本文将介绍SPSS中常用的聚类分析方法,并讨论如何选择适合的方法。

聚类分析方法SPSS提供了多种聚类分析方法,包括K-means聚类、层次聚类和模糊聚类。

下面将对这些方法进行简要介绍:K-means聚类K-means聚类是一种基于距离的聚类方法,将数据点分为K个不同的类别。

该方法的主要优点是计算效率高,适用于大规模数据集。

K-means聚类的基本步骤包括选择初始聚类中心、计算每个数据点到聚类中心的距离、将数据点分配到最近的聚类中心,并重新计算聚类中心的位置。

K-means聚类的结果可以用于发现类别之间的差异和相似性。

层次聚类层次聚类是一种自下而上或自上而下的聚类方法,通过构建一个层次化的聚类结构来组织数据。

在层次聚类中,数据点被逐步合并形成更大的聚类,直到所有数据点都被合并为一个聚类或达到预定的停止条件。

层次聚类方法的优点是可以自动确定聚类的个数,并提供了一个可视化的聚类结构。

模糊聚类模糊聚类是一种基于隶属度的聚类方法,将数据点分配到多个不同的聚类中心,并为每个数据点计算其属于不同聚类的隶属度。

与传统的硬聚类方法不同,模糊聚类允许数据点属于多个不同的聚类,反映了数据的不确定性和模糊性。

模糊聚类的结果可以用于描述数据点在不同类别之间的相似性。

方法选择在选择聚类分析方法时,需要考虑以下几个因素:数据类型首先需要考虑数据的类型。

如果数据是连续变量,则可以使用K-means聚类或层次聚类方法。

如果数据是分类变量,则可以使用层次聚类方法。

如果数据既包含连续变量又包含分类变量,则可以使用模糊聚类方法。

聚类个数另一个需要考虑的因素是聚类的个数。

K-means聚类和模糊聚类需要在分析之前确定聚类的个数。

第十四章-聚类分析

第十四章-聚类分析
属于非系统聚类法的一种
也叫快速聚类\动态聚类、逐步聚类、迭代 聚类)(quick cluster method、kmeans model )
适用于样本量很大的情形,用系统聚类法 计算的工作量极大,作出的树状图也十分复 杂, 不便于分析
1、原理
➢选择初始凝聚点 ➢根据欧氏距离将每个样品归类 ➢各类的重心代替初始凝聚点 ➢根据欧氏距离将每个样品归类,…… ➢直至达到指定的迭代次数或达到终止迭代的 判据要求
8.Mcquitty的相似分析法(Mcquitty's similarity analysis)
9.最大似然估计法(EML)
10.密度估计(density linkage)
11.两阶段密度估计法(two-stage density linkage)等。
4、系统聚类法的性质
➢ 单调性
中间距离法、重心法不具有单调性 ➢ 空间的浓缩与扩张
4、菜单:
Analyze-classify-K means Cluster
5、分析实例(P416 data13-02)
三、Hierarchical Cluster 过程 1、系统聚类的基本思想
➢ 相近的聚为一类(以距离表示,样品聚类) ➢ 相似的聚为一类(以相似系数表示,变量聚类)
2、方法原理
9、共线性问题
对纪录聚类结果有较大的影响 最好先进行预处理
10、变量的标准化
变量变异程度相差非常大时需要进行 标准化后会削弱有用变量的作用
11、异常值
影响较大 还没有比较好的解决办法 应尽力避免
12、分类数
从实用角度讲,2~8类比较合适
13、专业意义
一定要结合专业知识进行分析
二、K-means Cluster 过程

聚类分析法

聚类分析法

0 1 0 5 4 7 6 10 9
0 2 5
0 3
0 4 6 9
0 2 5 0 3 0
0
系统聚类分析应用
(3) D(1)中的最小元素是D34=2,合并G3和G4成 G7,计算新类G, 与其它类间的距离,距离矩阵D2如下:
G6 G6 G3 G4 G5 G3 G4 G5 G6 G7 G5 G6 G7 G5
0 1 0 5 4 7 6 10 9
0 2D(0)中最小元素是D12 =1,于是将GI和G2合并成新类G6,计算G6 与其它类的距离,距离矩阵D(1),如下图:
G1 G1 G2 G3 G4 G5 G2 G3 G4 G5 G6 G3 G4 G5 G6 G3 G4 G5
购物环境 73 66 84 91 94
服务质量 68 64 82 88 90
例:16种饮料的热量、咖啡因、钠及价格四种变量:
聚类分析的可用处
• 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些 知识来开展一个目标明确的市场计划; • 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的 地区; • 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成 本的客户; • 城市规划: 根据类型、价格、地理位置等划分不同类型的住宅 ;
感性词汇的筛选:首先参考探讨设计意象的相关研究与相关流行杂志和网站,去 除形容产品物理性的词汇,整理出常用的探讨产品意象的形容词汇118个。去掉意 义重复和相近的词汇,得到34个形容词。
如图所得:
归纳总结形容词:后经30名受测者,其中有设计教育背景的受测者占五分之四, 任意挑选出适合形容豆浆机产品的形容词,将选出的结果加总排序归纳出感觉 形容词10个,并找出与该语对意义相对的形容词形成语对。

市场细分方法(聚类法)

市场细分方法(聚类法)

市场细分方法(聚类法)市场细分方法(聚类法)市场细分是指将市场划分为不同的分组或细分市场,以满足不同消费者的需求和偏好。

其中一种常用的市场细分方法是聚类分析法。

什么是聚类法?聚类法是一种数据分析技术,通过对消费者的属性和行为进行聚类,将具有相似特征的消费者划分到同一组。

该方法基于统计学和数学原理,可以帮助我们发现市场中的不同细分。

聚类法的步骤聚类法的步骤如下:1. 数据收集:首先,我们需要收集与消费者相关的数据,包括他们的个人特征、偏好、购买行为等。

2. 变量选择:接下来,从收集到的数据中选择合适的变量,以描述消费者的不同特征。

常见的变量包括年龄、性别、收入、购买频率等。

3. 数据预处理:在进行聚类分析之前,我们需要对数据进行预处理,如处理缺失值、标准化等,以确保数据的准确性和可比性。

4. 聚类分析:在此步骤中,使用聚类算法对预处理后的数据进行分析,将消费者划分为不同的群组。

常见的聚类算法包括K-means算法、层次聚类算法等。

5. 群组解释:最后,我们需要解释和描述每个聚类群组的特征和差异。

这可以帮助我们了解每个细分市场的特点,并制定针对不同群组的市场策略。

聚类法的优势和应用聚类法在市场细分中具有以下优势:- 没有事先假设:聚类分析不需要任何事先的假设或预设关于市场的信息,可以自动发现潜在的细分。

- 简单易用:聚类法相对简单直观,不涉及复杂的数学模型和法律风险。

- 灵活性强:通过调整算法和变量的选择,可以灵活应用聚类法来满足不同的研究目的。

聚类法在市场细分中的应用包括:- 产品定位:通过将消费者划分到不同的群组,可以确定产品适合的目标群体,并为其定位和市场推广提供指导。

- 市场调研:通过群组间的比较,可以了解不同细分市场的规模、消费行为、偏好等,为市场调研提供基础数据。

- 客户关系管理:通过识别不同群组的特征和需求,可以针对性地开展客户关系管理活动,提高客户满意度和忠诚度。

小结市场细分方法中的聚类法是一种简单而强大的工具,可以帮助我们理解市场中的不同细分,设计针对性的市场策略。

聚类分析

聚类分析

算法
聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。传统的聚类算法可以被分为五类: 划分方法、层次方法、基于密度方法、基于格方法和基于模型方法。
1划分方法(PAM:PArtitioning method)首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位 技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application), CLARANS(Clustering Large Application based upon RANdomized Search). FCM 2层次方法(hierarchical method)创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解) 和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合 并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括: BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)方法,它首先利用进行优化。
主要步骤
1.数据预处理,
2.为衡量数据点间的相似度定义一个距离函数,
3.聚类或分组,
4.评估输出。
数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特 征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行 聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会 导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。

聚类分析(共8张PPT)

聚类分析(共8张PPT)
第4页,共8页。
聚类分析
三、聚类分析中的测度与标准化
在聚类分析技术的发展过程中,形成了很多种测度相似性的方法。每一种方法 都从不同的角度测度了研究对象的相似性。
在数据采集过程中,一般可以用三种方式采集数据:二分类型数据、等级类型 数据和连续类型数据。在进行聚类分析时可以根据不同的数据特点采用相应的测度 方法。
尽量避免绝对数据。
研究个案 A B C
受教育年限 10 16 6
年收入(万元) 2
1.5 1
年收入(元) 20000 15000 10000
A、B、C在不同距离单位时的距离图
A
B
B
10.01
C
A
10000
C
单位:万元
第6页,共8页。
单位:元
聚类分析
四、常用两种聚类分析方法
1.快速聚类法
快速聚类过程是初始分类的有效方法。适用于大容量样本的情形,由用户指定须聚类的 类数之后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。
m维空间中点与点之间的某种距离就可用来描述样品之间的亲疏程度。 而聚类分析则较常使用于将变量属性相似程度较高的观察值,加以分类,使类与类间的异质性达到最大,而同一类的几个观察值同质性很高。 ③对数据进行变换处理,(如标准化或规格化);
mm维维空 空间间中中点点与与点点实之之际间间的的应某某用种种距距时离离,就就可可两用用者来来描描的述述主样样品品要之之差间间的的别亲亲在疏疏程程于度度因。。子分析是针对“变量”予以分组,而聚类分析 按照这种方则法是不断将进“行合观并察,直值到个把所体有”的样予品以合为分一组个,大类亦为即止。因子分析时,根据因变量(题项)间关系密切与 四⑦、最常 后用绘两制否种系,聚统类聚将分类变析谱方系量法图予,按以不分同的类分(类标分准为或不几同个的层分类面原因则,子得)出不;同而的分聚类类结果分。析则较常使用于将变量属性相似 从数据结构程和度统计较形高式上的看观,因察子值分析,是加一种以“横分向类合并,”的使方类法,与聚类类分间析的则是异一质种“性纵向达合到并”最的方大法,。 而同一类的几个观察值 适每用一于 种大方容法同量都质样从本不性的同很情的形角高,度。由测用度户了指研定究须对聚象类的的相类似数性之。后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。 研究学生学业差异、因教师素教分学水析平:等等横,向都需简要化对研,究聚对象类进分行分析类:。纵向分组
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析,亦称群分析或点分析,是研究多要素事物分类问题的数量方法。

其基本原理是,根据样本自身的属性,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系,并按亲疏关系的程度对样本进行聚类(徐建华,1994)。

聚类分析方法,应用在地下水中,是在各种指标和质量级别标准约束条件下,通过样品的各项指标监测值综合聚类,以判别地下水质量的级别。

常见的聚类分析方法有系统聚类法、模糊聚类法和灰色聚类法等。

(一)系统聚类法系统聚类法的主要步骤有:数据标准化、相似性统计量计算和聚类。

1.数据标准化在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。

在地下水质量研究中,被聚类的对象常常是多个要素构成的。

不同要素的数据差异可能很大,这会对分类结果产生影响。

因此当分类要素的对象确定之后,在进行聚类分析之前,首先对聚类要素进行数据标准化处理。

假设把所考虑的水质分析点(G)作为聚类对象(有m个),用i 表示(i=1,2,…,m);把影响水质的主要因素作为聚类指标(有n个),用j表示(j=1,2,…,n),它们所对应的要素数据可用表4-3给出。

在聚类分析中,聚类要素的数据标准化的方法较多,一般采用标准差法和极差法。

表4-3 聚类对象与要素数据对于第j个变量进行标准化,就是将x ij变换为x′ij。

(1)总和标准化区域地下水功能可持续性评价理论与方法研究这种标准化方法所得的新数据x′ij满足区域地下水功能可持续性评价理论与方法研究(2)标准差标准化区域地下水功能可持续性评价理论与方法研究式中:;由这种标准化方法所得的新数据x′ij,各要素的平均值为0,标准差为1,即有区域地下水功能可持续性评价理论与方法研究(3)极差标准化区域地下水功能可持续性评价理论与方法研究经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在[0,1]闭区间内。

上述式中:x ij为j变量实测值;x j为j变量的样本平均值;s j为样本标准差。

2.相似性统计量系统聚类法要求给出一个能反映样品间相似程度的一个数字指标,需要找到能量度相似关系的统计量,这是系统聚类法的关键。

相似性统计量一般使用距离系数和相似系数进行计算。

距离系数是把样品看成多维空间的点,用点间的距离来表示研究对象的紧密关系,距离越小,表明关系越密切。

相似系数值表明样本和变量间的相似程度。

(1)距离系数常采用欧几里得绝对距离,其中i样品与j样品距离d ij为区域地下水功能可持续性评价理论与方法研究d ij越小,表示i,j样品越相似。

(2)相似系数常见的相似系数有夹角余弦和相关系数,计算公式为1)夹角余弦区域地下水功能可持续性评价理论与方法研究在式(4-20)中:-1≤cosθij≤1。

2)相关系数区域地下水功能可持续性评价理论与方法研究式中:d ij为i样品与j样品的欧几里得距离;cosθij为i样品与j样品的相似系数;r ij为i样品与j样品的相关系数;x ik为i样品第k个因子的实测值或标准化值;x jk为j样品第k个因子的实测值或标准化值;为i样品第k个因子的均值,;为j样品第k个因子的均值,;n为样品的数目;k为因子(变量)数。

3.聚类在选定相似性统计量之后,根据计算结果构成距离或相似性系数矩阵(n×n),然后通过一定的方法把n个样品组合成不同等级的分类单位,对类进行并类,即将最相似的样品归为一组,然后,把次相似的样品归为分类级别较高的组。

聚类主要有直接聚类法、距离聚类法(最短距离聚类法、最远距离聚类法)。

(1)直接聚类法直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是一种简便的聚类方法。

它首先把各个分类对象单独视为一类,然后根据距离最小或相似系数最大的原则,依次选出一对分类对象,并成新类。

如果一对分类对象正好属于已归的两类,则把这两类并为一类。

每一次归并,都划去该对象所在的列与列序相同的行。

经过n-1次把全部分类对象归为一类,最后根据归并的先后顺序作出聚类分析谱系图。

(2)距离聚类法距离聚类法包括最短距离聚类法和最远距离聚类法。

最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性。

这两种聚类方法关于类之间的距离计算可以用一个统一的公式表示:区域地下水功能可持续性评价理论与方法研究当γ=-0.5时,式(4-22)计算类之间的距离最短;当γ=0.5时,式(4-22)计算类之间的距离最远。

最短、最远距离法,是在原来的n×n距离矩阵的非对角元素中找出d pq=min(d ij)或d pq=max(d ij),把分类对象G p和G q归并为一新类G r,然后按计算公式:d pq=min(d pk,d qk)(k≠p,q)(4-23)d pq=max(d pk,d qk)(k≠p,q)(4-24)计算原来各类与新类之间的距离,这样就得到一个新的(n-1)阶的距离矩阵;再从新的距离矩阵中选出最小或最大的d ij,把G i和G j 归并成新类;再计算各类与新类的距离,直至各分类对象被归为一类为止。

最后综合整个聚类过程,作出最短距离或最远距离聚类谱系图(图4-1)。

图4-1 地下水质量评价的聚类谱系图(二)模糊聚类法模糊聚类法是普通聚类方法的一种拓展,它是在聚类方法中引入模糊概念形成的。

该方法评价地下水质量的主要步骤,包括数据标准化、标定和聚类3个方面(付雁鹏等,1987)。

1.数据标准化在进行聚类过程中,由于所研究的各个变量绝对值不一样,所以直接使用原始数据进行计算就会突出绝对值大的变量,而降低绝对值小的变量作用,特别是在进行模糊聚类分析中,模糊运算要求必须将数据压缩在[0,1]之间。

因此,模糊聚类计算的首要工作是解决数据标准化问题。

数据标准化的方法见系统聚类分析法。

2.标定与聚类所谓标定就是计算出被分类对象间的相似系数r ij,从而确定论域集U上的模糊相似关系R ij。

相似系数的求取,与系统聚类分析法相同。

聚类就是在已建立的模糊关系矩阵R ij上,给出不同的置信水平λ(λ∈[0,1])进行截取,进而得到不同的分类。

聚类方法较多,主要有基于模糊等价关系基础上的聚类与基于最大树的聚类。

(1)模糊等价关系方法所谓模糊等价关系,是指具有自反性(r ii=1)、对称性(r ij=r ji)与传递性(R·R⊆R)的模糊关系。

基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关系R是论域集U与自己的直积U×U上的一个模糊子集,因此可以对R进行分解,当用λ-水平对R作截集时,截得的U×U的普通子集Rλ就是U上的一个普通等价关系,也就是得到了关于U中被分类对象元素的一种。

当λ由1下降到0时,所得的分类由细变粗,逐渐归并,从而形成一个动态聚类谱系图(徐建华,1994)。

此类分析方法的具体步骤如下。

第一步:模糊相似关系的建立,即计算各分类对象之间相似性统计量。

第二步:将模糊相似关系R改造为模糊等价关系R′。

模糊等价关系要求满足自反性、对称性与传递性。

一般而言,模糊相似关系满足自反性和对称性,但不满足传递性。

因此,需要采用传递闭合的性质将模糊相似关系改造为模糊等价关系。

改造的方法是将相似关系R自乘,即R2=R·RR4=R2·R2︙这样计算下去,直到:R2k=R k·R k=R k,则R′=R k便是一个模糊等价关系。

第三步:在不同的截集水平下进行聚类。

(2)最大树聚类方法基于最大树的模糊聚类分析方法的基本思路是:最大树是一个不包含回路的连通图(图4-2);选取λ水平对树枝进行截取,砍去权重低于λ的枝,形成几个孤立的子树,每一棵子树就是一个类的集合。

此类分析方法的具体步骤如下。

图4-2 最大聚类支撑树图第一步:计算分类对象之间的模糊相似性统计量r ij,构建最大树。

以所有被分类的对象为顶点,当两点间r ij不等于0时,两点间可以用树干连接,这种连接是按r ij从大到小的顺序依次进行的,从而构成最大树。

第二步:由最大树进行聚类分析。

选择某一λ值作截集,将树中小于λ值的树干砍断,使相连的结点构成一类,即子树,当λ由1到0时,所得到的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图。

在聚类方法中,模糊聚类法比普通聚类法有较大的突破,简化了运算过程,使聚类法更易于掌握。

(三)灰色聚类法灰色聚类是根据不同聚类指标所拥有的白化数,按几个灰类将聚类对象进行归纳,以判断该聚类对象属于哪一类。

灰色聚类应用于地下水水质评价中,是把所考虑的水质分析点作为聚类对象,用i表示(i=1,2,…,n);把影响水质的主要因素作为聚类指标,用j表示(j=1,2,…,m),把水质级别作为聚类灰数(灰类),用k表示(k=1,2,3)即一级、二级、三级3个灰类(罗定贵等,1995)。

灰色聚类的主要步骤:确定聚类白化数、确定各灰色白化函数f jk、求标定聚类权重ηjk、求聚类系数和按最大原则确定聚类对象分类。

1.确定聚类白化数当各灰类白化数在数量上相差悬殊时,为保证各指标间的可比性与等效性,必须进行白化数的无量纲化处理。

即给出第i个聚类对象中第j个聚类指标所拥有的白化数,i=1,2,…,n;j=1,2,…,m。

2.确定各灰色白化函数建立满足各指标、级别区间为最大白化函数值(等于1),偏离此区间愈远,白化函数愈小(趋于0)的功效函数f ij(x)。

根据监测值C ki,可在图上(图4-3)解析出相应的白化函数值f jk(C ik),j=1,2,…,m;k=1,2,3。

3.求标定聚类权重根据式(4-25),计算得出聚类权重ηjk的矩阵(n×m)。

区域地下水功能可持续性评价理论与方法研究式中:ηjk为第j个指标对第k个灰类的权重;λjk为白化函数的阈值(根据标准浓度而定)。

图4-3 白化函数图注:图4-3白化函数f(x)∈[0,1],具有下述特点:①平顶部分,表示该量的最佳程度。

这部分的值为最佳值,即系数(权)为1,f(x)=max=1(峰值),x∈[x2,x3]。

②白化函数是单调变化的,左边部分f(x)=L(x),单调增,x∈(x1,x2],称为白化的左支函数;右边部分f(x)=R(x),单调减,x∈[x3,x4),称为白化的右支函数。

③白化函数左右支函数对称。

④白化函数,为了简便,一般是直线。

⑤白化函数的起点和终点,一般来说是人为凭经验确定。

4.求聚类系数σik=∑f jk(d ij)ηjk(4-26)式中:σik为第i个聚类对象属于第k个灰类的系数,i=1,2,…,n;k=1,2,3。

5.按最大原则确定聚类对象分类由σik构造聚类向量矩阵,行向量最大者,确定k样品属于j级对应的级别。

用灰色聚类方法进行地下水水质评价,能最大限度地避免因人为因素而造成的“失真、失效”现象。

相关文档
最新文档