一种面向大数据的快速自动聚类算法
大数据分析中的聚类算法

大数据分析中的聚类算法随着互联网的普及和信息技术的快速发展,大数据成为了当前社会发展的重要资源和支撑,而对大数据的分析则成为了实现有效利用的关键。
在大数据分析中,聚类算法是一种重要的数据挖掘技术,可以将数据集划分为不同的群组,帮助分析人员发现数据中的特定模式和关联性。
本文将介绍大数据分析中的聚类算法的原理和常用方法。
一、聚类算法概述聚类算法是一种无监督学习方法,它通过将具有相似特征的样本归为一类,将不相似的样本分离开来。
聚类算法的基本思想是最大化类内相似度,最小化类间相似度。
聚类算法可以帮助我们对大规模数据进行整理和分类,从而提取出数据的潜在信息,发现数据的内在规律。
二、K-means聚类算法K-means聚类算法是一种经典的聚类算法,也是最常用的算法之一。
其基本思想是选取k个初始聚类中心,然后根据样本点与聚类中心之间的距离来迭代更新聚类中心,直到达到收敛条件为止。
K-means算法的优点是简单、快速,适用于大规模数据集,但其结果受初始聚类中心的选择影响较大。
三、层次聚类算法层次聚类算法是一种基于层次的聚类方法,可以根据样本间的相似度逐步建立聚类层次。
层次聚类算法有两种常见的实现方式:凝聚层次聚类和分裂层次聚类。
凝聚层次聚类从每个样本点作为一个初始簇开始,逐步迭代合并最相似的簇,直到达到指定的聚类数目。
分裂层次聚类则从所有样本点作为一个初始簇开始,逐步迭代将最不相似的簇进行分裂,直到达到指定的聚类数目。
四、密度聚类算法密度聚类算法是一种基于密度的聚类方法,可以根据样本点的密度来划分类别。
其中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是常用的密度聚类算法之一,其基本思想是通过计算每个样本点的邻域密度来确定核心对象,并将核心对象连接起来形成簇。
DBSCAN算法的优点是不受簇的形状和大小的限制,能够发现任意形状的簇,并可自动识别噪声点。
大数据分析的算法与应用

大数据分析的算法与应用随着互联网时代的到来,数据已经成为了我们日常生活中不可或缺的一部分,而在海量数据中如何挖掘出有价值的信息则成为了一个重要课题。
大数据分析算法就是在这一背景下应运而生的一种技术,它可以帮助我们将海量的数据转化为实际有用的信息。
本文将介绍一些大数据分析算法及其应用。
1. 聚类算法聚类算法是大数据分析中经常使用的一种无监督学习方法,其目标是根据数据实例之间的相似性,将相似的实例分为一组,不相似的实例分为不同组。
其中比较常见的聚类算法有K-means算法和层次聚类算法。
K-means算法是一种快速、简单的聚类算法,通过先选取k个中心点,然后不断计算每个点到中心的距离,并选择距离最近的中心点,将其分为一组。
接着重新计算新的中心点,并重复执行直到满足一定的停止条件为止。
该算法在图像分析、互联网广告推荐等领域有广泛应用。
层次聚类算法可以根据实例之间的距离或相似度来构造一个树状结构,从而实现自下而上或自上而下的聚类过程。
例如,在生物学领域中,层级聚类可以用于分析基因表达和DNA序列类似性等问题。
2. 分类算法分类算法属于监督学习方法的范畴,旨在将数据点归到事先定义好的类别中。
常见的分类算法有决策树、朴素贝叶斯、支持向量机等。
决策树算法是一种基于多个条件判断的树状结构的分类模型,它通过对每个决策点的选择进行判断,以确定每个数据点的分类结果。
决策树算法在金融、医疗等领域有广泛的应用。
朴素贝叶斯算法是一种基于贝叶斯定理的概率统计算法,其核心思想是利用已知的样本数据,估计各个特征之间的概率和,从而进行分类。
朴素贝叶斯算法在文本分类、垃圾邮件识别等领域有广泛应用。
支持向量机算法是一种基于边界的分类算法,其核心思想是找到数据点与各个分类之间的最优边界。
它在股票预测、图像分类等领域有广泛应用。
3. 关联规则挖掘算法关联规则挖掘算法是一种寻找数据集中各种属性之间关系的算法,例如冰淇淋和棒球比赛之间的相关性等。
大数据常用的算法

大数据常用的算法标题:大数据常用的算法引言概述:随着信息时代的到来,大数据已经成为了各行各业的重要组成部份。
在处理大数据时,算法起着至关重要的作用。
本文将介绍大数据常用的算法,匡助读者更好地了解大数据处理过程中常用的算法。
一、聚类算法1.1 K均值算法:K均值算法是一种常用的聚类算法,通过将数据点分配到K 个不同的簇中,使得每一个数据点与其所在簇的中心点的距离最小化。
1.2 DBSCAN算法:DBSCAN算法是一种基于密度的聚类算法,能够发现任意形状的簇。
该算法通过定义核心点、边界点和噪声点来进行聚类。
1.3 层次聚类算法:层次聚类算法是一种树状聚类方法,通过逐步合并最相似的簇来构建聚类树,从而得到不同层次的聚类结果。
二、分类算法2.1 决策树算法:决策树算法是一种常用的分类算法,通过构建树状结构来表示不同类别之间的关系。
该算法易于理解和解释,适合于各种类型的数据。
2.2 支持向量机算法:支持向量机算法是一种二分类模型,通过构建最大间隔超平面来实现分类。
该算法在处理高维数据和非线性数据方面表现出色。
2.3 朴素贝叶斯算法:朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,通过假设特征之间相互独立来简化计算。
该算法在文本分类等领域有着广泛的应用。
三、回归算法3.1 线性回归算法:线性回归算法是一种用于建立变量之间线性关系的回归分析方法。
该算法通过最小化残差平方和来找到最佳拟合直线。
3.2 逻辑回归算法:逻辑回归算法是一种用于处理二分类问题的回归算法,通过将线性回归结果映射到0和1之间来实现分类。
3.3 随机森林算法:随机森林算法是一种集成学习算法,通过构建多个决策树来实现回归和分类任务。
该算法在处理大数据和高维数据时表现出色。
四、关联规则算法4.1 Apriori算法:Apriori算法是一种用于发现频繁项集的关联规则算法,通过逐层搜索频繁项集来发现数据中的关联规则。
4.2 FP-growth算法:FP-growth算法是一种用于挖掘频繁项集的关联规则算法,通过构建FP树来高效地发现频繁项集。
大数据常用的算法

大数据常用的算法标题:大数据常用的算法引言概述:随着大数据时代的到来,大数据算法成为处理海量数据的重要工具。
本文将介绍大数据常用的算法,帮助读者更好地了解大数据处理的方法和技术。
一、聚类算法1.1 K均值算法:是一种常用的聚类算法,通过迭代计算数据点之间的距离,将数据点划分为K个簇。
1.2 DBSCAN算法:基于密度的聚类算法,能够发现任意形状的簇,并对噪声数据点进行过滤。
1.3 层次聚类算法:通过构建树状结构的聚类,将数据点逐层聚合,形成层次化的簇结构。
二、分类算法2.1 决策树算法:通过构建树状结构的决策规则,将数据点划分为不同的类别。
2.2 逻辑回归算法:用于处理二分类问题,通过逻辑函数对数据进行分类。
2.3 随机森林算法:基于多个决策树的集成学习算法,提高了分类准确度和泛化能力。
三、关联规则挖掘算法3.1 Apriori算法:用于发现频繁项集和关联规则,帮助分析数据中的关联性。
3.2 FP-growth算法:基于频繁模式树的挖掘算法,能够高效地挖掘大规模数据集中的频繁项集。
3.3 Eclat算法:基于垂直数据表示的关联规则挖掘算法,适用于稠密数据集。
四、回归算法4.1 线性回归算法:通过线性模型对数据进行拟合,预测连续性变量的取值。
4.2 支持向量机回归算法:基于支持向量机理论的回归算法,能够处理非线性回归问题。
4.3 岭回归算法:通过加入正则化项,解决多重共线性问题,提高回归模型的泛化能力。
五、降维算法5.1 主成分分析算法:通过线性变换将高维数据转化为低维数据,保留数据的主要信息。
5.2 t-SNE算法:用于可视化高维数据,通过保持数据点之间的相对距离,将数据映射到二维或三维空间。
5.3 自编码器算法:通过神经网络模型学习数据的压缩表示,实现高维数据的降维和重构。
结论:大数据算法在数据处理和分析中发挥着重要作用,不同的算法适用于不同的场景和问题。
通过了解和应用这些常用算法,可以更好地处理和利用大数据资源,实现数据驱动的决策和创新。
大数据常用的算法

大数据常用的算法引言概述:在当今信息时代,大数据已经成为各行各业的关键资源。
然而,处理大数据并从中提取有用的信息并不容易。
为了解决这个问题,大数据算法应运而生。
本文将介绍几种常用的大数据算法,包括分类算法、聚类算法、关联规则挖掘算法和推荐算法。
一、分类算法:1.1 决策树算法:决策树是一种基于树形结构的分类模型,通过对数据集进行分割,将数据划分为不同的类别。
决策树算法可以根据特征的重要性进行特征选择,从而提高分类的准确性。
1.2 朴素贝叶斯算法:朴素贝叶斯算法基于贝叶斯定理,假设特征之间相互独立,通过计算后验概率来进行分类。
朴素贝叶斯算法具有快速训练和分类速度快的优点,适用于处理大规模数据集。
1.3 支持向量机算法:支持向量机算法通过构建一个超平面来进行分类,使得不同类别的样本之间的间隔最大化。
支持向量机算法可以处理高维数据,并且对于噪声和异常点具有较好的鲁棒性。
二、聚类算法:2.1 K均值算法:K均值算法是一种基于距离的聚类算法,通过迭代计算样本与聚类中心之间的距离,并将样本分配到距离最近的聚类中心。
K均值算法可以自动发现数据中的簇,并且对于大规模数据集有较好的可扩展性。
2.2 DBSCAN算法:DBSCAN算法是一种基于密度的聚类算法,通过计算样本点的密度来划分簇。
DBSCAN算法可以处理不规则形状的簇,并且对于噪声和异常点具有较好的鲁棒性。
2.3 层次聚类算法:层次聚类算法通过计算样本之间的相似度来构建聚类层次,可以根据需要选择不同的相似度度量方法。
层次聚类算法可以自动发现数据中的层次结构,并且对于大规模数据集有较好的可扩展性。
三、关联规则挖掘算法:3.1 Apriori算法:Apriori算法是一种频繁项集挖掘算法,通过计算项集的支持度来发现频繁项集。
Apriori算法可以用于发现数据中的关联规则,并且对于大规模数据集有较好的可扩展性。
3.2 FP-Growth算法:FP-Growth算法是一种基于前缀树的频繁项集挖掘算法,通过构建频繁模式树来发现频繁项集。
聚类算法在大数据处理中的应用研究

聚类算法在大数据处理中的应用研究随着互联网时代的到来,数据的产生和积累速度呈现爆发式增长。
这些数据包含了海量的信息,如何有效地处理和利用这些数据成为了人们关注和研究的热点问题。
在这个背景下,聚类算法作为一种数据挖掘技术,使用广泛,并在大数据处理中扮演了不可替代的角色。
本文将探讨聚类算法在大数据处理中的应用研究。
一、聚类算法概述聚类算法是将数据样本分成若干个不同的类别的一种方法,通过此方法可以将数据分成相似的组别,以便于后续的分析和处理。
聚类算法按照不同的分类标准可以分为很多种类,常见的聚类算法有K-Means算法、层次聚类算法、密度聚类算法等。
K-Means算法是一种基于距离的聚类算法,它通过最小化数据点与质心之间的距离来实现聚类。
层次聚类算法则是将数据样本看成一个个簇,通过一些距离的度量方法建立起这些数据样本之间的关系,最后将这些数据样本聚成几个大类。
密度聚类算法则是依据密度连接原则对数据样本进行聚类,并根据密度值构建聚类簇。
二、聚类算法在大数据处理中的应用随着现代社会科技和网络技术的发展,数据已经成为一个核心资源,许多应用场景都需要处理海量数据,这时候聚类算法的应用显得尤为重要。
聚类算法在大数据处理中的应用非常广泛,主要体现在以下几个方面:1. 数据挖掘在大数据处理中,数据挖掘是必不可少的环节,聚类算法作为一种数据挖掘技术,可以快速帮助人们对数据进行分类和整理。
举个例子,当我们有大量的电商数据需要分析时,利用聚类算法可以将用户行为和偏好分成不同的类别,以便更好地为用户提供个性化的服务。
2. 物联网随着物联网的普及和发展,许多传感器和设备产生的数据量巨大,如何处理这些数据,提取有效信息成为了一种挑战。
聚类算法可以对传感器所产生的数据进行分类,提高数据的利用率,并为后续的数据分析提供帮助。
3. 生物信息学聚类算法在生物信息学领域也发挥了重要的作用。
以基因芯片数据分析为例,一次实验可能产生40000~50000个基因表达数据,利用聚类算法可以将这些数据分成不同的类别,使分析工作更加高效、准确。
大数据常用的算法
大数据常用的算法一、概述在大数据时代,随着数据量的快速增长,人们需要更高效、准确地处理和分析海量数据。
大数据算法是指为了解决大数据量、高维度、高速度的数据处理和分析问题而设计的算法。
本文将介绍几种常用的大数据算法,包括聚类算法、分类算法、关联规则算法和推荐算法。
二、聚类算法1. K-means算法K-means算法是一种常用的聚类算法,它将数据集分成K个不同的簇,每一个簇中的数据点与该簇的质心最为相似。
K-means算法的步骤如下:a. 随机选择K个初始质心。
b. 将每一个数据点分配到最近的质心。
c. 更新质心位置,计算每一个簇的平均值。
d. 重复步骤b和c,直到质心再也不改变或者达到最大迭代次数。
2. DBSCAN算法DBSCAN算法是一种基于密度的聚类算法,它将数据点分为核心点、边界点和噪声点。
DBSCAN算法的步骤如下:a. 随机选择一个未访问的数据点。
b. 如果该点的邻域内有足够数量的数据点,则形成一个新的簇,将该点及其邻域内的点加入簇中。
c. 重复步骤b,直到所有数据点都被访问。
三、分类算法1. 决策树算法决策树算法是一种常用的分类算法,它通过构建树形结构来对数据进行分类。
决策树算法的步骤如下:a. 选择一个属性作为根节点。
b. 根据该属性的取值将数据集划分为不同的子集。
c. 对每一个子集递归地应用步骤a和b,直到满足住手条件。
d. 为每一个叶节点分配一个类别。
2. 支持向量机算法支持向量机算法是一种常用的二分类算法,它通过找到一个最优超平面来将数据点分开。
支持向量机算法的步骤如下:a. 将数据映射到高维空间。
b. 在高维空间中找到一个最优超平面,使得两个类别的数据点距离超平面最远。
c. 根据超平面将数据点分为不同的类别。
四、关联规则算法1. Apriori算法Apriori算法是一种常用的关联规则挖掘算法,它通过计算频繁项集和关联规则来发现数据集中的关联关系。
Apriori算法的步骤如下:a. 找出数据集中的所有频繁项集。
聚类算法及其在数据分析中的应用
聚类算法及其在数据分析中的应用近年来,随着技术的不断进步,数据分析的应用越来越广泛。
在大数据时代下,人们面对的不仅仅是海量数据,更是数据的“概括”。
如何在数据中获取有用的信息,这是必须掌握的一项技能。
而聚类算法就是其中的一种。
什么是聚类算法?聚类算法是一种用于将数据对象分为相似组或类的机器学习方法,其目的是将彼此相似的数据对象集合在一起,彼此不相似的数据对象则分开。
聚类算法的本质是通过学习和计算相似性来完成数据的自动分类,这种分类能够帮助我们更高效地理解和分析数据。
聚类算法的分类聚类算法的分类很重要,因为不同的聚类算法方法适用于不同的数据情况。
根据聚类算法的方法和特点,我们可以将聚类算法分为以下几种:1. 层次聚类算法:是一种自下而上的方法,可以找到数据的层次结构,在数据对象之间建立完全二叉树结构。
2. 划分聚类算法:是一种自上而下的方法,将母集合分为若干个不相交的子集合,因此也称之为“分类”。
3. 密度聚类算法:基于数据集的局部密度来对数据对象进行聚类。
4. 分布密度聚类算法:基于数据的概率分布来进行聚类。
5. 原型聚类算法:需要定义一个具有代表性的样本来描述一个组的特点,例如 k 均值算法。
聚类算法的应用聚类算法的应用非常广泛,以下是聚类算法在数据分析中具体应用的几个方面。
1. 客户细分:利用聚类算法,可以将客户分为不同的群体,从而更好地进行营销工作。
例如,我们可以通过分析客户的购买记录、行为偏好、地理位置等来划分客户群体,以便测定不同营销策略。
2. 图像分析:利用聚类算法,可以将关闭的区域放在一起形成边,从而理解和分析图像中的边缘。
图像分析是聚类算法的重要应用之一。
3. 生物分类:利用聚类算法,可以对生物类群进行分类,例如将动物、树木和真菌分别归为不同的物种。
聚类算法还可以帮助生物学家更好地理解物种之间的关系和共同点。
4. 垃圾邮件过滤:利用聚类算法,可以将垃圾邮件与正常邮件分离开来。
通过聚类算法将相似的邮件归为同一类别,然后进行分类。
聚类分析的算法及应用共3篇
聚类分析的算法及应用共3篇聚类分析的算法及应用1聚类分析的算法及应用聚类分析(Cluster Analysis)是一种数据分析方法,它根据数据的相似度和差异性,将数据分为若干个组或簇。
聚类分析广泛应用于数据挖掘、文本挖掘、图像分析、生物学、社会科学等领域。
本文将介绍聚类分析的算法及应用。
聚类分析的算法1. 基于距离的聚类分析基于距离的聚类分析是一种将数据点归类到最近的中心点的方法。
该方法的具体实现有单链接聚类(Single-Linkage Clustering)、完全链接聚类(Complete-Linkage Clustering)、平均链接聚类(Average-Linkage Clustering)等。
其中,单链接聚类是将每个点最近的邻居作为一个簇,完全链接聚类是将所有点的最小距离作为簇间距离,平均链接聚类是将每个点和其他点的平均距离作为簇间距离。
2. 基于密度的聚类分析基于密度的聚类分析是一种将数据点聚集在高密度区域的方法。
该方法的主要算法有密度峰(Density Peak)、基于DBSCAN的算法(Density-Based Spatial Clustering of Applications with Noise)等。
其中,密度峰算法是通过计算每个点在距离空间中的密度,找出具有局部最大密度的点作为聚类中心,然后将其余点分配到聚类中心所在的簇中。
而基于DBSCAN的算法则是将高密度点作为聚类中心,低密度点作为噪声,并将边界点分配到不同的聚类簇中。
3. 基于层次的聚类分析基于层次的聚类分析是通过不断将相似的点合并为一个组或将簇一分为二的方法。
该方法的主要算法有自顶向下层次聚类(Top-Down Hierarchical Clustering)和自底向上层次聚类(Bottom-Up Hierarchical Clustering)。
其中,自顶向下层次聚类从所有数据点开始,将数据点分为几个组,并不断通过将组合并为更大的组的方式,直到所有的数据点都被合并。
聚类算法在大数据分析中的应用案例
聚类算法在大数据分析中的应用案例随着互联网的不断发展和普及,数据量也在不断增加。
随着数据量的增加,传统的数据处理和分析方法已经不能满足我们的需求。
于是,聚类算法作为一种有效的大数据分析方法,应运而生。
本文将着重探讨聚类算法在大数据分析中的应用案例。
一、什么是聚类算法聚类算法是一种分类算法,用来将数据点分为几个类别,每个类别包含一组具有相似特征的数据点。
聚类算法的目标是让每个类别尽可能地相似,而且不同类别之间尽可能不同。
聚类算法的应用十分广泛,如医学诊断、商业推荐、模式识别等。
二、聚类算法的应用案例1. 电商推荐随着电商业务的不断发展,如何为用户提供精准、个性化的推荐成为了各大电商平台的重要任务。
聚类算法正是为此提供了一个很好的解决方案。
以淘宝为例,淘宝的推荐策略主要是基于聚类算法实现。
淘宝首先根据用户行为数据,如浏览、购买、评价、收藏等进行数据预处理,然后利用聚类算法对用户进行分组,将相似的用户聚类在一起,最后根据不同用户群体的喜好和行为给用户推荐相应的商品。
2. 医学诊断在医学领域,聚类算法可以用于研究疾病的发病机理、预测病情发展趋势、分析医疗资源分布等。
例如,在乳腺癌的临床医学中,利用聚类算法可以将患者分为不同的亚型,根据患者的基因表达数据、临床表现数据以及治疗方案数据等特征,建立一个乳腺癌分类模型,从而指导医生制定针对性更强的治疗方案,提高患者的治愈率和生存率。
3. 金融领域在金融领域,聚类算法可以用于确定用户行为的类型、预测用户的金融需求、识别欺诈交易等。
举个例子,聚类算法可以用于分析用户的消费行为,将用户分为不同的消费群体,分析用户消费行为的变化趋势以及每个群体的特点,从而制定更为精准的市场营销策略。
4. 传感器数据分析在一些工业生产和工程领域,会使用传感器等设备进行数据采集和分析。
这些设备产生的数据量庞大,且具有高维的特性,如何高效地分析这些数据是一个重要的问题。
聚类算法可以用于分析传感器数据,确定数据的分布情况和异常点,从而为生产和工程管理提供实时监控和决策支持。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第29卷第2期2017年6月河南工程学院学报(自然科学版)JOURNAL OF HENAN UNIVERSITY OF ENGINEERINGVol.29,No.2Jun.2017一种面向大数据的快速自动聚类算法于海鹏\李宜晨2(1.河南工程学院计算机学院,河南郑州451191;2.山东大学软件学院,山东济南250101)摘要:为了提高大数据的快速处理和识别能力,需要进行数据快速聚类分析.针对传统的模糊C均值聚类算法对初始值敏感且容易陷入局部优化解的问题,提出了一种基于Logistics混沌映射聚类中心小扰动抑制的大数据快速聚类算法.采用非线性时间序列分析方法构建大数据信息流模型,提取大数据信息流的时延尺度特征值,以提取的该特征值为聚类搜索目标函数,用模糊C均值聚类算法计算大数据聚类的最优聚类中心,采用Logistics混沌映射差分进化方法进行聚类中心的小扰动抑制,实现了优化聚类,可避免陷入局部最优解.仿真结果表明,采用该方法进行大数据聚类,能有效提高数据召回率,计算速 度较快,实现了大数据的快速自动聚类.关键词:大数据;聚类;模糊C均值;混沌;Logistics映射中图分类号:TP391 文献标志码:A文章编号=1674 -330X(2017)02 -0062 -05大数据信息处理的关键环节就是进行数据聚类,即通过挖掘大数据中具有同类属性的数据特征参量,对数据进行分门别类的分析.在数据聚类的基础上建立专家系统和大数据库,以进行相关的模式识别和诊 断分析服务.大数据的优化聚类技术研究在故障诊断、目标识别、云存储数据库模型的构建及情报检索等领 域具有较高的应用价值,研究面向大数据的优化聚类方法已受到了人们的重视.当前,数据聚类算法主要有基于网格技术的数据聚类方法[1]、模糊C均值聚类方法[2]、模糊K均值聚类方 法和基于自适应波束形成的聚类算法等[3_5],上述方法均是通过求取大数据信息流属性特征之间的相似度进 行分类的.其中,模糊C均值和模糊K均值聚类算法需要反复调整聚类结果来进行聚类优化.随着数据规模的 扩大对初始聚类中心有较大敏感性;网格聚类算法没有考虑数据密度和类别距离给聚类中心搜索带来的影响,导致聚类的精度受到了限制;自适应波束形成聚类算法通过波束聚类性进行自动聚类,该方法对数据直接进行 处理,计算开销较小,但该方法在受到较大的干扰影响时容易出现误分和漏分[6].对此,相关文献进行了算法的 改进设计.文献[7]提出了一种基于全邻模糊聚类的联合概率数据互联挖掘方法,提高了数据块索引的效率,从 而提高了聚类的时效性,但该方法在对特征敏感性较强的数据进行聚类处理时,容易出现聚类中心的扰动,导 致分类出错;文献[8 ]提出了一种基于面板数据的接近性和相似性关联度分析的大数据自动聚类方法,把数据 的分割转化为对空间的分割,采用模糊C均值聚类算法实现数据聚类,但该方法的缺陷是对初始值聚类中心和 噪声数据敏感,容易陷入局部优化解的问题.为了解决上述问题,本课题提出了一种基于Logistics混沌映射聚 类中心小扰动抑制的大数据快速聚类算法.基于模糊C均值聚类算法计算大数据聚类的最优聚类中心,采用 Logistics混沛映射差分进化方法进行聚类中心的小扰动抑制,以实现大数据的优化.改进的算法利用Logistics 混沌映射的均匀遍历特性和高效的全局搜索能力,使数据聚类中心能有效克服小扰动的影响导致的计算偏差,避免陷人聚类中心的局部收敛,实现聚类中心解向量的全局寻优,弥补了模糊C均值算法的缺陷.1大数据非线性时间序列分析模型及特征参量的提取1.1大数据非线性时间序列分析模型通过对大数据信息流的前期统计和采样,构建了大数据时间序列的单变量时间序列!丨,数据样本长 度为1在数据的采样时间段内,数据分布是标量时间序列,设X和F为数据流的聚类特征属性类别,采用相收稿日期:2017-01 -04基金项目:河南省高等学校重点科研项目(16幻2〇〇〇4)作者简介:于海鹏(1979 -),男,河南鲁山人,副教授,主要研究方向为图像处理与计算机应用.第2期于海鹏,等:一种面向大数据的快速自动聚类算法• 63 •空间重构分析方法进行大数据的非线性映射处理,选择最小嵌入维数m 与最佳时延T ,当数据特征的平均测 度^满足2^ < s(A > 0)时,大数据时间序列的信息流模型如下:x n = x (h + «A 〇 = h [z (t 0 + n A t ) ] + (〇n, (1)式中•)为大数据时间序列的每个样本中包含的相似性特征量.通过计算关联度来表达大数据非线性时 间序列的高维几何属性[9],通过相空间重构,可得到大数据非线性时间序列的特征空间分布轨迹表达式:^ ~ [-*-(^〇 )>-*-( "I " ,x{t0 + (X — 1) A 〇 ]—" x(t0) x(t0 + A 〇x(t0 + JAt) x(t0 + (/ + 1) A 〇+ (Til — 1)/A 〇 尤(^) + (1 + (771 — 1)/) A 〇 … 尤(+ (_/V — 1) A 〇 -式中J (0表示面板数据的采样时间序列;■/是相似性关联系数;m 是嵌入维数;At 是抽样时间间隔;K = W - (m - 1)/为了最大限度地反映前期统计测量的大数据时间序列的分类属性,采用指标数据投射方法得到大 数据的特征非线性时间序列标量模型为+込〇丨,i = 0,1,…,W - 1,其特征空间高维映射矢量为X = [^! = (x n ,X n_T ,--- ,X n_lrn_l )T) , (3)式中^ W - (m - 1)T ,表示大数据时间序列的接近性关联系数;T 为对大数据时间序列采样的时间延迟. 12 大数据信息流时延尺度特征参量的提取以上述构建的大数据信息流为输入进行时延尺度特征的提取,以提取的特征值为基础建立聚类搜索目 标函数,用表示大数据属性集的模糊集合自相关量,为数据特征向量之间的互相关函数,则大数据属性 集的交叉分布模型可表示为m a r m m ax n = a 0 + Y , a ^n -i + X b ^n -i , (4)i=l j =0式中。
为初始大数据时间序列的采样幅值为具有相同均值和方差的大数据标量时间序列七为大数 据的最优分裂属性.对于大数据的标量时间序列为*(0,《 = 〇,1,…,《 - 1,采用非线性自回归滑动时间窗口 构建多层空间模糊聚类中心[1°],采用模糊C 均值聚类算法进行初始聚类中心搜索,假设有限数据集向量X = 1*1,*2,…,\丨 c(5)通过属性集分类,可得到数据集合中含有《个样本.其中,样本i = 1,2,…,《)的信息增益矢量为A = (%,*a ,••,%)' (6)在数据集中选择K 个实例,求得聚类目标函数的极值:l^ik = 一^ ^1T _ ■) (7)s (r兔(〜)"%V , = --------■(8)J A細rk = 1在上述构建了大数据聚类目标函数的基础上,通过对大数据最优聚类中心的搜索,进行数据聚类算法 的改进设计.2数据快速自动聚类算法的改进2.1聚类中心的小扰动抑制采用Logistics 混沌映射差分进化方法进行聚类中心的小扰动抑制,避免聚类中心对初始值敏感而陷入 局部优化解.根据混沌理论,定义Logistic 混沌映射表达式[11]为x(t0 + (K — l )A i )x (^t Q + (^K — 1)(2)• 64 •河南工程学院学报(自然科学版)2017 年^11+1 = ^,(1 - x…),(9)式中:欠 e [0,1] ; y t t e [0,4] ;n = 1,2,3,….以此为训练函数进行大数据模糊聚类中心的尺度调整,在聚类中心检索f 和f + T 时刻的时延尺度:I i 1,2,.",c J 1,2,…,s },(10)式中A 为邻近数据点对聚类中心的扰动权重.对于大数据时间序列的第f 个聚类中心矢量,采用Logistics 混 沌映射进行差分扰动,将每个数据点作为一个可能的聚类中心,得到聚类中心稳定的周期解:u = l ^a : I ^= l ,2,---,n \ ,(11)c Y f H 二 1,^ 二 I ,2,…,n • (⑵i = l结合大数据聚类目标函数,在聚类中心初始值已经给定的情况下进行聚类中心的小扰动抑制,抑制过 程如下:(1) 当式(9)中的0各1时,大数据聚类中心的最优解只有0这样一个稳定的周期点;(2) 当1 $ 3时,大数据聚类中心最优解存在不稳定的1个扰动点x = 0,通过移动滑动时间窗口,得到一个稳定的周期点% = 1 -X ;f J i (3)当3.000$|^3.449时,大数据聚类中心最优解存在两个不稳定的1周期点尤=0和% = 1-丄,此/X时2/u l2/ul (1 + /X + y (y U , + 1)(/X — 3)),(1 + /X _ V (y U , + 1)(/X — 3)(13)(14)通过Logistics 混沌映射进行周期解的差分进化,排除邻近数据点的扰动,得到两个稳定的2周期点;(4)当3.糾9各^ $ 3. 544时,2周期点变得不稳定,此时出现了 4个稳定的4周期点;当参数^继续变大,g > 3. 544,Logistics 混纯映射采用差分进化方法,通过倍周期分岔通向最优值[12],实现了对大数据快速聚类中心的小扰动抑制,如图1所示,2.2聚类算法构建实现的具体步骤通过上述分析,基于模糊C 均值聚类算法计算大数据聚类的最优聚类中心,采用Logistics 混沌映射差分进化方法进行聚类中心的小扰动抑制,实现了面向图 1 L 〇gis tic s 混沌映射差分进化的聚类中心小扰动抑制 大数据的快速自动聚类算法的改进设计,步骤描述Fi§.1 LoSistics chaotic maPPing differential evo 丨ution 下 o f c lu ste r centers w ith sm all distu rb a n ce re je c tio n(1)定义模糊聚类中心矩阵;首先选择一个c 值,确定大数据分类属性的总数.若数据集为m ,令'(L ) 为聚类中心,y = i ,2,…,I 构建数据聚类園标函数.(2) 提取数据信息流的时延尺度特征,在数据集中选择k 个实例,采用替代数据法进行大数据时间序列 的归一化幅值的随机化处理,初始化数据聚类中心為(I )),i = 1,2,…,m,y = 1,2,…,k(3) 使用Logistics 混滩差分进化方法进行聚类中心的扰动抑制,如满足D ( %i ,A j (L )) = min | D (x . ,A j (L ) ) [ , (15)那么A E 叫,此时的聚类中心取得最优解.(4)把混沌扰动董引人进化分类簇的实例中,计算初始隶属度矩阵,以平均值作为新的聚类属性特征向 量的平均值:X X第2期于海鹏,等:一种面向大数据的快速自动聚类算法• 65 •C(D= i i(IK- -M L">I)2-(16)j=i k=i(5)采用特征压缩器进行数据特征降维处理,降低运算囊在迭代计算中,如果平均仉等于上次迭代的 平均值,即||C(〇 -C(/-l) ||<$,则中止程序,否则,返國到第(3)步,令/ = /+ 1,在扰动范围内计算新的聚类中心今“ + 1)=丄土龙,由此实现大数据的ft动聚类并输出聚类结果-nj ^=13仿真实验与结果分析为了验证本算法在实现大数据快速S动聚类中的性能,进行仿真实验.实验建立在Matlab仿真软件的 ._础上,使用的计算机主频为3 G、内存为2 G.思Microsoft .KET Framework4. 0开发工具建立数据聚类分析 软件,实验数据来自:2个大数据棠:KDDP201大型网络数据库模拟数据集(包括2个规模为22.4 M B的分 区)和CSLOGS实际数据集(含规模为6.45 M B的分区).在测试数据集中进行大数据样本选取,大数据采集 的时间间隔为0.43 S,采样频率=4/。