毕业设计_节理产状的动态聚类分析以及最大距离法统计方法的研究

合集下载

聚类分析实验报告

聚类分析实验报告

聚类分析实验报告一、实验目的:通过聚类分析方法,对给定的数据进行聚类,并分析聚类结果,探索数据之间的关系和规律。

二、实验原理:聚类分析是一种无监督学习方法,将具有相似特征的数据样本归为同一类别。

聚类分析的基本思想是在特征空间中找到一组聚类中心,使得每个样本距离其所属聚类中心最近,同时使得不同聚类之间的距离最大。

聚类分析的主要步骤有:数据预处理、选择聚类算法、确定聚类数目、聚类过程和聚类结果评价等。

三、实验步骤:1.数据预处理:将原始数据进行去噪、异常值处理、缺失值处理等,确保数据的准确性和一致性。

2.选择聚类算法:根据实际情况选择合适的聚类算法,常用的聚类算法有K均值算法、层次聚类算法、DBSCAN算法等。

3.确定聚类数目:根据数据的特征和实际需求,确定合适的聚类数目。

4.聚类过程:根据选定的聚类算法和聚类数目进行聚类过程,得到最终的聚类结果。

5. 聚类结果评价:通过评价指标(如轮廓系数、Davies-Bouldin指数等),对聚类结果进行评价,判断聚类效果的好坏。

四、实验结果:根据给定的数据集,我们选用K均值算法进行聚类分析。

首先,根据数据特点和需求,我们确定聚类数目为3、然后,进行数据预处理,包括去噪、异常值处理和缺失值处理。

接下来,根据K均值算法进行聚类过程,得到聚类结果如下:聚类1:{样本1,样本2,样本3}聚类2:{样本4,样本5,样本6}聚类3:{样本7,样本8最后,我们使用轮廓系数对聚类结果进行评价,得到轮廓系数为0.8,说明聚类效果较好。

五、实验分析和总结:通过本次实验,我们利用聚类分析方法对给定的数据进行了聚类,并进行了聚类结果的评价。

实验结果显示,选用K均值算法进行聚类分析,得到了较好的聚类效果。

实验中还发现,数据预处理对聚类分析结果具有重要影响,必要的数据清洗和处理工作是确保聚类结果准确性的关键。

此外,聚类数目的选择也是影响聚类结果的重要因素,过多或过少的聚类数目都会造成聚类效果的下降。

毕业论文研究方法与数据分析方案

毕业论文研究方法与数据分析方案

毕业论文研究方法与数据分析方案在撰写毕业论文时,选择合适的研究方法和数据分析方案是至关重要的。

本文将介绍几种常用的研究方法,并结合具体案例说明如何进行数据分析,帮助读者更好地完成毕业论文的写作。

一、研究方法1.定性研究方法定性研究方法适用于对主观现象进行深入理解和描述的情况。

研究者通过观察、访谈、文本分析等方式收集数据,然后进行归纳和总结。

定性研究方法常用于社会科学领域,如教育学、心理学等。

案例:以教育领域为例,研究者可以通过深度访谈教师和学生,了解他们对教育改革的看法和建议,从而揭示教育问题的本质和解决方案。

2.定量研究方法定量研究方法适用于对客观现象进行量化和统计分析的情况。

研究者通过问卷调查、实验设计等方式收集数据,然后利用统计软件进行数据分析,得出结论。

定量研究方法常用于经济学、管理学等领域。

案例:在市场营销领域,研究者可以设计问卷调查消费者对某一产品的购买意向和满意度,通过数据分析找出影响消费者购买行为的关键因素,为企业制定营销策略提供依据。

3.混合研究方法混合研究方法结合定性和定量研究方法的优势,既可以深入理解现象,又可以进行量化分析。

研究者可以先进行定性研究,再根据定性研究结果设计定量调查,从而全面地探究研究问题。

案例:在医学领域,研究者可以先通过病例分析和专家访谈了解某种疾病的病因和症状,然后设计问卷调查患者的治疗效果和生活质量,最终得出综合结论。

二、数据分析方案1.描述性统计分析描述性统计分析是对数据进行整理、汇总和描述的过程,通过频数分布、均值、标准差等指标展现数据的特征。

描述性统计分析可以帮助研究者快速了解数据的基本情况,为进一步分析提供参考。

2.相关性分析相关性分析用于研究两个或多个变量之间的关系,通过相关系数等指标衡量变量之间的相关程度。

相关性分析可以帮助研究者发现变量之间的内在联系,为后续的因果分析提供依据。

3.回归分析回归分析是研究自变量对因变量影响程度的统计方法,通过建立回归方程预测因变量的取值。

《2024年面向轨迹大数据的高效聚类算法设计与实现》范文

《2024年面向轨迹大数据的高效聚类算法设计与实现》范文

《面向轨迹大数据的高效聚类算法设计与实现》篇一一、引言随着科技的飞速发展,我们正处于一个大数据的时代,尤其是轨迹大数据的快速积累,如社交网络数据、交通流量数据、位置数据等。

对这些轨迹大数据进行有效的聚类分析,不仅可以提高数据处理的效率,还可以为决策提供有力的支持。

因此,面向轨迹大数据的高效聚类算法设计与实现显得尤为重要。

本文将详细介绍一种高效的轨迹大数据聚类算法的设计与实现过程。

二、算法设计1. 算法概述本算法基于密度和距离的双重标准进行聚类,通过分析轨迹数据的空间分布和时序特性,实现高效、准确的聚类。

算法主要分为数据预处理、初始聚类中心选取、密度划分和最终聚类四个步骤。

2. 数据预处理首先对原始的轨迹大数据进行清洗,去除噪声数据和异常值。

然后根据需要对数据进行标准化处理,如时间归一化、空间坐标转换等。

此外,还需对数据进行降维处理,以减少计算的复杂度。

3. 初始聚类中心选取采用基于密度的初始聚类中心选取方法,通过计算数据点的局部密度,选取具有较高密度的点作为初始聚类中心。

这样可以确保初始聚类中心具有较好的代表性,提高聚类的准确性。

4. 密度划分根据轨迹数据的空间分布和时序特性,将数据划分为不同的密度区域。

通过计算每个数据点的局部密度和与其它数据点的距离,确定其所属的密度区域。

这一步是聚类的关键步骤,直接影响到聚类的效果。

5. 最终聚类根据密度划分的结果,采用基于密度的聚类算法进行聚类。

在聚类过程中,考虑轨迹数据的时序特性和空间分布特性,确保聚类的准确性和有效性。

同时,通过优化算法的参数,提高聚类的效率。

三、算法实现1. 编程环境与工具本算法采用Python语言实现,利用NumPy、Pandas等库进行数据处理和计算,使用matplotlib等库进行可视化展示。

此外,还使用了一些优化库如scikit-learn等来加速计算过程。

2. 算法实现步骤(1)导入相关库和模块;(2)读取轨迹大数据并进行预处理;(3)选取初始聚类中心;(4)计算每个数据点的局部密度和与其它数据点的距离;(5)根据密度划分结果进行聚类;(6)输出聚类结果并进行可视化展示。

聚类分析算法实验报告(3篇)

聚类分析算法实验报告(3篇)

第1篇一、实验背景聚类分析是数据挖掘中的一种重要技术,它将数据集划分成若干个类或簇,使得同一簇内的数据点具有较高的相似度,而不同簇之间的数据点则具有较低相似度。

本实验旨在通过实际操作,了解并掌握聚类分析的基本原理,并对比分析不同聚类算法的性能。

二、实验环境1. 操作系统:Windows 102. 软件环境:Python3.8、NumPy 1.19、Matplotlib 3.3.4、Scikit-learn0.24.03. 数据集:Iris数据集三、实验内容本实验主要对比分析以下聚类算法:1. K-means算法2. 聚类层次算法(Agglomerative Clustering)3. DBSCAN算法四、实验步骤1. K-means算法(1)导入Iris数据集,提取特征数据。

(2)使用Scikit-learn库中的KMeans类进行聚类,设置聚类数为3。

(3)计算聚类中心,并计算每个样本到聚类中心的距离。

(4)绘制聚类结果图。

2. 聚类层次算法(1)导入Iris数据集,提取特征数据。

(2)使用Scikit-learn库中的AgglomerativeClustering类进行聚类,设置链接方法为'ward'。

(3)计算聚类结果,并绘制树状图。

3. DBSCAN算法(1)导入Iris数据集,提取特征数据。

(2)使用Scikit-learn库中的DBSCAN类进行聚类,设置邻域半径为0.5,最小样本数为5。

(3)计算聚类结果,并绘制聚类结果图。

五、实验结果与分析1. K-means算法实验结果显示,K-means算法将Iris数据集划分为3个簇,每个簇包含3个样本。

从聚类结果图可以看出,K-means算法能够较好地将Iris数据集划分为3个簇,但存在一些噪声点。

2. 聚类层次算法聚类层次算法将Iris数据集划分为3个簇,与K-means算法的结果相同。

从树状图可以看出,聚类层次算法在聚类过程中形成了多个分支,说明该算法能够较好地处理不同簇之间的相似度。

动态聚类分析实验报告(3篇)

动态聚类分析实验报告(3篇)

第1篇一、实验背景与目的随着大数据时代的到来,数据量呈爆炸式增长,如何有效地对海量数据进行聚类分析,提取有价值的信息,成为数据挖掘领域的重要课题。

动态聚类分析作为一种新兴的聚类方法,能够在数据不断变化的情况下,自动调整聚类结果,具有较强的适应性和实用性。

本次实验旨在通过动态聚类分析,对一组数据进行聚类,并验证其有效性和可靠性。

二、实验数据与工具1. 实验数据本次实验数据来源于某电商平台用户购买行为数据,包括用户ID、购买时间、商品类别、购买金额等字段。

数据量约为10万条,具有一定的代表性。

2. 实验工具本次实验采用Python编程语言,利用sklearn库中的KMeans、DBSCAN等动态聚类算法进行实验。

三、实验方法与步骤1. 数据预处理(1)数据清洗:删除缺失值、异常值等无效数据;(2)数据标准化:将不同量纲的数据进行标准化处理,消除数据之间的量纲差异;(3)特征选择:根据业务需求,选取对聚类结果影响较大的特征。

2. 动态聚类分析(1)KMeans聚类:设置聚类数量k,初始化聚类中心,计算每个样本与聚类中心的距离,将样本分配到最近的聚类中心所在的簇;迭代更新聚类中心和簇成员,直至满足停止条件;(2)DBSCAN聚类:设置邻域半径ε和最小样本数min_samples,遍历每个样本,计算其邻域内的样本数量,根据样本密度进行聚类;(3)动态聚类分析:设置时间窗口,以时间窗口内的数据为样本,重复上述聚类过程,观察聚类结果随时间的变化趋势。

四、实验结果与分析1. KMeans聚类结果通过KMeans聚类,将用户分为若干个簇,每个簇代表一组具有相似购买行为的用户。

从聚类结果来看,大部分簇的用户购买行为较为集中,具有一定的区分度。

2. DBSCAN聚类结果DBSCAN聚类结果与KMeans聚类结果相似,大部分簇的用户购买行为较为集中。

同时,DBSCAN聚类能够发现一些KMeans聚类无法发现的潜在簇,例如小众用户群体。

聚类分析(第4节_动态聚类法)

聚类分析(第4节_动态聚类法)

K- 均值法和系统聚类法一样,都是以距离的远近 或样品(或变量)的亲疏为标准进行聚类的,但是 两者的不同之处也是明显的:系统聚类对不同的类 数产生一系列的聚类结果,而 K- 均值法只能产生指 定类数的聚类结果。具体类数的确定,离不开实践 经验的积累;有时也可以借助系统聚类法以一部分 样品为对象进行聚类,其结果作为 K- 均值法确定类 数的参考。下面通过一个具体问题说明 K- 均值法的 计算过程。
第四节 动态聚类法


逐步聚类法(动态聚类法) 按批修改法 ⑴ 按批修改法的具体步骤:
step1 选择一批凝聚点(个数为k个),并选定所采 用的距离定义(通常采用欧氏距离情形较为普遍); step2 将所有的样品按与其距离最近的凝聚点归类 (“就近归类原则”);
第四节 动态聚类法
step3 计算每一类的重心(即平均值),将重心作为新 的凝聚点,然后转到步骤2 。如果某一步骤所有的新凝聚 点与前一次的老凝聚点重合,则过程终止。有时并不绝 对要求这个过程收敛,而可以人为地规定这个修正过程 重复若干次后停止计算即可(有时确实无法收敛)。 ⑵ 分类准则函数。分类准则函数的定义方法很多,这 里介绍最直观的形式:设 X (i ) (i 1,2,, n)为n个样品点, 初始分类为k类: G1 , G2 ,, Gk , 它们的重心记为
两个正数必须取得适当。然后以每个样品为中心,
第四节 动态聚类法
d1 为半径,想象成一个圆,凡距离≤ d1 的样品数称
为该样品的密度。把每个样品的密度都求出后,按密 度大小依次考察各样品是否可作为凝聚点。以密度最 大的样品作为第一凝聚点;考察密度次大的样品,如 果它与第一凝聚点的距离大于d 2 ,就可作为第二凝聚 点,否则考察下一个密度次大的样品,直到找到第二 凝聚点。在考察下一个密度次大的样品,如果它与第 一、第二凝聚点的距离都大于 d 2 ,就可作为第三凝聚 点,直至所有的样品都考察一遍为止。

聚类分析方法及其应用条件扩展研究

聚类分析方法及其应用条件扩展研究聚类分析是一种将数据根据其相似性进行自动分类的方法,具有广泛的应用领域,包括数据挖掘、模式识别、信息检索等。

本文将介绍聚类分析的基本概念和常用方法,并探讨其在不同应用场景下的扩展研究。

一、聚类分析基本概念和常用方法聚类分析是一种无监督学习的方法,它试图将数据集划分为若干个类别,使得同一类别内的数据相似性最大,不同类别之间的相似性最小。

聚类分析的基本概念包括距离度量和聚类准则。

1.1 距离度量距离度量是聚类分析的基础,常用的距离度量方法有欧氏距离、曼哈顿距离和闵可夫斯基距离等。

欧氏距离是最常用的距离度量方法,它基于向量空间中的欧氏距离定义。

曼哈顿距离是城市街区距离的度量方法,它在计算距离时只考虑了水平和垂直方向上的位移。

闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,当参数取不同的值时可以得到不同的距离度量。

1.2 聚类准则聚类准则用于评估数据集划分的好坏程度,常用的聚类准则有最小平方误差准则、最大间隔准则和最大密度准则等。

最小平方误差准则试图将同一类别内的数据点尽可能的靠近,不同类别之间的距离尽可能的大。

最大间隔准则则是通过最大化同一类别内部的相似度,同时最小化不同类别之间的相似度来进行数据集划分。

最大密度准则是通过计算数据点的密度来进行聚类分析,将密度较大的数据点划分到同一类别中。

二、经典聚类分析方法经典聚类分析方法包括层次聚类分析和划分聚类分析,它们使用不同的算法来进行数据集的划分。

2.1 层次聚类分析层次聚类分析是一种自底向上或自顶向下的聚类方法,它根据数据点之间的相似性建立一个层次结构,从而得到不同层次的聚类结果。

自底向上的层次聚类方法将每个数据点作为一个初始聚类,然后通过计算两个聚类之间的相似度来合并聚类,直到达到聚类的最终结果。

自顶向下的层次聚类方法则是从一个包含所有数据点的初始聚类开始,然后通过分裂聚类来得到最终的聚类结果。

2.2 划分聚类分析划分聚类分析是一种将数据集划分为不相交的子集的方法,最常用的划分聚类算法是k-means算法。

聚类分析实验报告结论(3篇)

第1篇本次聚类分析实验旨在深入理解和掌握聚类分析方法,包括基于划分、层次和密度的聚类技术,并运用SQL Server、Weka、SPSS等工具进行实际操作。

通过实验,我们不仅验证了不同聚类算法的有效性,而且对数据理解、特征选择与预处理、算法选择、结果解释和评估等方面有了更为全面的认知。

以下是对本次实验的结论总结:一、实验目的与意义1. 理解聚类分析的基本概念:实验使我们明确了聚类分析的定义、目的和应用场景,认识到其在数据挖掘、市场分析、图像处理等领域的重要性。

2. 掌握聚类分析方法:通过实验,我们学习了K-means聚类、层次聚类等常用聚类算法,并了解了它们的原理、步骤和特点。

3. 提高数据挖掘能力:实验过程中,我们学会了如何利用工具进行数据预处理、特征选择和聚类分析,为后续的数据挖掘工作打下了基础。

二、实验结果分析1. K-means聚类:- 实验效果:K-means聚类算法在本次实验中表现出较好的聚类效果,尤其在处理规模较小、结构较为清晰的数据时,能快速得到较为满意的聚类结果。

- 特点:K-means聚类算法具有简单、高效的特点,但需要事先指定聚类数目,且对噪声数据敏感。

2. 层次聚类:- 实验效果:层次聚类算法在处理规模较大、结构复杂的数据时,能较好地发现数据中的层次关系,但聚类结果受距离度量方法的影响较大。

- 特点:层次聚类算法具有自适应性和可解释性,但计算复杂度较高,且聚类结果不易预测。

3. 密度聚类:- 实验效果:密度聚类算法在处理噪声数据、非均匀分布数据时,能较好地发现聚类结构,但对参数选择较为敏感。

- 特点:密度聚类算法具有较好的鲁棒性和可解释性,但计算复杂度较高。

三、实验结论1. 聚类算法的选择:根据实验结果,K-means聚类算法在处理规模较小、结构较为清晰的数据时,具有较好的聚类效果;层次聚类算法在处理规模较大、结构复杂的数据时,能较好地发现数据中的层次关系;密度聚类算法在处理噪声数据、非均匀分布数据时,能较好地发现聚类结构。

聚类分析毕业论文

聚类分析毕业论文聚类分析毕业论文在当今信息爆炸的时代,数据分析已经成为了各个领域中不可或缺的一环。

无论是商业决策、医学研究还是社会调查,数据分析都扮演着重要的角色。

而聚类分析作为一种常用的数据分析方法,也在各个领域中得到了广泛的应用。

本篇文章将围绕聚类分析在毕业论文中的应用展开讨论。

聚类分析是一种无监督学习的方法,其目的是将数据集中的对象划分为不同的群组,使得同一群组内的对象相似度较高,不同群组之间的相似度较低。

在毕业论文中,聚类分析可以用来对研究对象进行分类,从而更好地理解和解释数据。

首先,在社会科学领域的毕业论文中,聚类分析可以帮助研究者对调查样本进行分类。

以教育领域为例,研究者可能对不同学校的学生进行调查,以了解他们的学习动机、学习成绩等因素。

通过聚类分析,可以将学生划分为不同的群组,比如高成绩组、低成绩组、高动机组、低动机组等。

这样,研究者可以更好地理解不同群组之间的差异,从而提出相应的教育政策建议。

其次,在商业领域的毕业论文中,聚类分析可以帮助研究者对市场进行细分。

以市场营销为例,研究者可能对某种产品的消费者进行调查,以了解他们的购买偏好、消费行为等因素。

通过聚类分析,可以将消费者划分为不同的群组,比如高价值客户、低价值客户、忠诚客户、潜在客户等。

这样,研究者可以有针对性地制定营销策略,提高市场竞争力。

此外,在医学领域的毕业论文中,聚类分析可以帮助研究者对疾病进行分类。

以癌症研究为例,研究者可能对患者的基因表达数据进行分析,以了解不同基因的表达模式与疾病的关系。

通过聚类分析,可以将患者划分为不同的群组,比如不同亚型的癌症患者。

这样,研究者可以更好地理解不同亚型之间的差异,从而为个性化治疗提供依据。

最后,在自然科学领域的毕业论文中,聚类分析可以帮助研究者对实验数据进行分类。

以生态学研究为例,研究者可能对不同地区的生物多样性进行调查,以了解不同物种的分布规律。

通过聚类分析,可以将不同地区划分为不同的群组,比如高物种多样性地区、低物种多样性地区等。

动态聚类法—实验报告

(a)Djmean>Dmean和即Sj中样本总数超过规定值一倍以上,
(b)Nc≤K/2,则将Zj分裂为两个新的聚类中心 ,且类别数加Nc+1。
分裂方法是在 加上k* σjmax,在 的相应分量减去k*σjmax,其中k=0.5;。如果本步完成了分裂运算,则跳回第二步;否则,继续。
第十一步:计算全部聚类中心的距离: ,其中i=1,2, …,Nc-1
类别数Nc
类别
第一类
第二类
第三类
总体正确率
3
正确分类个数
50
36
49
0.90
正确率
1
0.72
0.98
7、[Ktheta_Ntheta_Stheta_CLI]=[6 8 1 137]时,
类别数Nc
类别
第一类
第二类
第三类
总体正确率
3
正确分类个数
50
44
44
0.92
正确率
1
0.88
0.88
8、[Ktheta_Ntheta_Stheta_CLI]=[6 8 1 1310]时,
二、算法设计
第一步:将个模式样本{ ,i=1,2,3,…, }读入,确定C个初始聚类中心和6个初始参数(K,θN,θc,θs,L,I)。
第二步:将N个模式样本分给最近的聚类,假如
Dj=min(‖x-zj‖,i=1,2,…,),即‖x-zj‖的距离最小,则x∈Sj。
第三步:如果Sj中的样本数Nj<θN,取消样本子集。
总体正确率
3
正确分类个数
50
45
41
0.91
正确率
1
0.90
0.82
3、[Ktheta_Ntheta_Stheta_CLI]=[6 100.5138]时,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

成绩:
题目
节理产状的动态聚类分析以及最大距离法统计方法的研究
专业:构造地质学
姓名:
学号:
班级:
节理产状的动态聚类分析以及最大距离法
统计方法的研究
摘要:裂隙岩体内的节理往往是变化的,有时甚至变化很大。

测得大量节理产状以后,对其分组是一项基础性的工作,但是如何分组目前还没有很好的理论和方法。

采用动态聚类分析的方法,将节理产状的样本数据划分为不同的簇,通过不同簇的概率模型计算及其簇心的分布特性比较说明了簇数分类的适度性。

形成了解决这类问题的系统实用的方法。

又提出了一种合理、科学和简便的节理统计方法——最大距离法。

其主要思路是对野外采集的节理产状数据做最优分组,使组间距离最大,而组内距离最小。

该方法逻辑简单、明了,操作过程简便,而且能有效地剔除原始数据中误差较大的数据,结果精确。

通过应用,表明该统计方法正确、可靠。

关键词:节理产状;聚类分析;最大距离方法;地质统计。

1引言
岩体中的节理裂隙系统往往由几个产状不同的节理组合成的,在野外测得的节理的倾向和倾角一般而言都是变化的,有的甚至变化很大,在测得大量节理的产状后,对大量的数据进行分组或分类是一项基础性的工作。

在实际的工程中,有关学者用统计学的方法对岩石裂隙岩体围岩分类、岩体裂化程度、岩体裂隙分形技术及岩体裂隙的几何参数概率模型进行了研究,本文不考虑地理空间的相关性,将样本数据看作是相互独立的,用统计学中k均值聚类分析的方法对节理分组。

聚类分析是统计学上研究分类问题的一种方法,它的任务是把所有的样本数据分配到若干的簇,使得同一个簇的样本数据聚集在簇中心的周围,它们之间距离比较近,而不同簇样本数据之间的距离比较远。

但如何评判节理的分组是否合理?评判的依据又是如何?目前还没有很好的理论和方法。

本文的目的就是结合工程意义,用k均值聚类分析的方法,将节理产状的样本数据划分为不同的组。

用系统聚类法聚类,样品一旦划到某个类以后就不变了,这要求分类的方法比较准确,另一方面系统聚类法要存贮距离矩阵,尤其当研究的样品较多时,需占用很多的存贮单元,计算方法中的迭代法德思想给我们以启发,能否先给一个粗糙的初始分类,然后用某种原则进行修改,直至分类比较合理为止。

采用这种思想产生的聚类法叫做动态聚类法。

图1.1 动态聚类分析流程图
动态聚类分析的计算步骤
(1)首先随机指定k个簇中心,用欧氏距离计算每个样本数据距簇中心的距离;
(2)将每个样本数据分配到距它最近的簇中心,得到k个簇;
(3)分别计算各簇中所有样本数据的均值,把它们作为各簇新的簇中心;
(4)重复计算步骤(2)和步骤(3)直到k个簇中心的位置都固定,簇的分配也固定,簇中心是它的均值。

2 SAS软件编程
本文选取了,在野外选取的20组节理的产状作为实验的数据,运用sas软件,做了动态聚类分析,得出了一下的结果。

2.1 Sas软件程序
title;
goptions ftext="宋体";
data d20;
input group $ x1-x2;
cards;
1 127 9
2 240 12
3 50 9
4 306 10
5 192 11
6 149 9
7 237 13
8 19 12
9 330 8
10 16 12
11 199 10
12 99 7
13 264 10
14 232 26
15 15 12
16 89 7
17 333 8
18 176 10
19 344 7
20 99 7
;
proc print data=b20;
run;
proc standard mean=0 std=1 data=d20 out=sta20; var x1-x2;
run;
proc fastclus data= sta20 out=out20 maxc=4list; var x1-x2;
id group;
run;
proc sort data=out20;
by cluster;
run;
proc print data=out20;
var group cluster DISTANCE;
run;
proc candisc data=out20 out=can20;
var x1-x2;
class cluster;
run;
proc plot data=can20;
plot can2*can1=cluster;
run;
quit;
2.2 sas程序得出的部分图表
见附图
2.3 分析结果
通过动态聚类分析,将20组数据分别分为2类,3类,4类数据,得出分为4类是较合理的分类。

其中第14组数据单独为一类的分类较不合理,可能是野外数据采集时引起的观测数据的不合理,并不符合节理的发育特征受到区域性的应力场影响的原则。

所以将数据剔除。

最终得到的结果是分为三类。

进行了与前人所做的该地区的节理面产状等密度图分析。

分为三类符合当地的实际情况。

由于该地区早期受到了北-西向的应力场的作用,发育了较多北西向或者正北倾向的节理,即分类中有9个节理分到了一类当中。

图2.1 节理面产状等密度图
3 最大距离法统计方法
最大距离法的基本原则是使分组后的节理组间距离最大,而组内距离最小。

现以节理倾向为例,介绍最大距离法的数学模型:设有n个节理,按其倾向从0°~360°排列。

以X表示节理倾向,X i表示第i个节理的倾向。

用{i,…j}表示由第i个节理至第j个节理终止的节理组,其中1≤i≤j≤n。

组间距离以S e=(S j+1-X j)表示,即组间距离为相邻两组中前一组最小值与后一组最大值之差。

组内距离用组内极差d(i,j)=X j-X i表示。

n个节理倾向总极差S总=X n-X 1,为一常数。

设n个节理被分为k组,以X k,0和X k,1分别表第k组节理中第1个和最后一个节理的倾向。

则内距离差和为
S组内=(X n-X k,0)+(X k-1,1-X k-1,0)+…+(X 1,1-X 1) 组间距离和为
S组间=(X k,0-X k-1,1)+(X k-1,0-X k-2,1)+(X 2,0-X 1,1) S组内+S组间=(X k,0-X k-1,1)+(X k-1,0-X k-2,+…+(X 2,0-X 1,1)+(X n-X k,0)(X k-1,1-X k-1,0)+…+(X 1,1-X 1)=S总
因此当S组间最大时,S组内最小。

由于组间距离为相邻节理倾向之差,如
果把n1个(Xi+1-Xi)(1≤in≤-1)按从大到小排列,把
个节理分成k组只需找前k-1个(X i+1-X i)所对的X i作为分组点即可。

用最大距离法进行节理统计,整个过程可由电子表格Microsoft Excel,M icrsoft Access完成,操作非常简便。

也可选取不同的统计量,做成柱状图、饼状图等,使结果更加清晰。

现以某地一个测量点上得到的节理产状资料[3]为例(表1),用最大距离法对该节理根据其倾向分组。

操作过程如下
(1)对节理按倾向由小到大排序
(2)计算排序后相邻节理倾向之差
(3)对上一步计算出来的差按从小到大排序
(4)剔除误差较大的数据,并找出最大距离,对节理进行分组
(5)选择一定的统计量,计算并作图。

图3.1 节理数据
图3.2 第一分组点左右的节理产状柱状图
图3.3 第二分组点左右的节理产状柱状图
图3.3 第三分组点左右节理产状柱状图
可得2个最大距离(42°,39°),将该区节理根据其倾向分为3组。

取?值为25°,由于已分组的3组组内极差均在25°以内,故本区节理仅有3组。

计算每组节理倾向的平均方位,分别为64°,188°,300°。

其对应的频度百分比为30%,45%,25%。

比较符合前面所做的动态聚类的分析结果。

4结论
(1)本文聚类分成的四簇时,通过sas程序所做的检验,是比较好的分类方法。

在结果上结合实际,剔除了一组数据。

得到最终的分类。

(2)簇分得太多会使样本数据在簇内的分布不连续
(3)聚类的簇数据较少时,一般需要50个左右的数据,动态聚类分析得出的结果并不是十分的准确,用最大距离法得出的结果更贴合实际。

但是当样本数据较多时,动态聚类分类方案更为准确。

附图:
参考文献:
[1]章荣岫.节理等角度统计法[J].桂林冶金地质学院报,1989,9(2):219-222.
[2]王青.节理裂隙统计方法研究[J].勘察科学技术,1992,(2):27-31.
[3] 孙宪春等.节理产状分组的k值聚类分析及其分组结果的费歇尔分布验证法[J].岩土力学,2008,29,533-536.
[4] 范雷等.节理岩体结构面产状的动态聚类分析[J].岩土力学,2007,28(11):2406-2410.
[5] 徐云峰等.一种简便的节理统计方法[J].地质找矿丛论,2003(12):18(24):262-265.。

相关文档
最新文档