基于数据挖掘的符号序列聚类相似度量模型

合集下载

完整版数据挖掘中的聚类分析方法

完整版数据挖掘中的聚类分析方法聚类分析方法是数据挖掘领域中常用的一种数据分析方法，它通过将数据样本分组成具有相似特征的子集，并将相似的样本归为一类，从而揭示数据中隐藏的模式和结构信息。

下面将从聚类分析的基本原理、常用算法以及应用领域等方面进行详细介绍。

聚类分析的基本原理聚类分析的基本原理是将数据样本分为多个类别或群组，使得同一类别内的样本具有相似的特征，而不同类别之间的样本具有较大的差异性。

基本原理可以总结为以下三个步骤：1.相似性度量：通过定义距离度量或相似性度量来计算数据样本之间的距离或相似度。

2.类别划分：根据相似性度量，将样本分组成不同的类别，使得同一类别内的样本之间的距离较小，不同类别之间的距离较大。

3.聚类评估：评估聚类结果的好坏，常用的评估指标包括紧密度、分离度和一致性等。

常用的聚类算法聚类算法有很多种，下面将介绍常用的几种聚类算法：1. K-means算法：是一种基于划分的聚类算法，首先通过用户指定的k值确定聚类的类别数，然后随机选择k个样本作为初始聚类中心，通过迭代计算样本到各个聚类中心的距离，然后将样本划分到距离最近的聚类中心对应的类别中，最后更新聚类中心，直至达到收敛条件。

2.层次聚类算法：是一种基于树状结构的聚类算法，将样本逐步合并到一个大的类别中，直至所有样本都属于同一个类别。

层次聚类算法可分为凝聚式（自底向上）和分裂式（自顶向下）两种。

凝聚式算法首先将每个样本作为一个初始的类别，然后通过计算样本之间的距离来逐步合并最近的两个类别，直至达到停止准则。

分裂式算法则是从一个包含所有样本的初始类别开始，然后逐步将类别分裂成更小的子类别，直至达到停止准则。

3. 密度聚类算法：是一种基于样本密度的聚类算法，通过在数据空间中寻找具有足够高密度的区域，并将其作为一个聚类。

DBSCAN （Density-Based Spatial Clustering of Applications with Noise）算法是密度聚类算法的代表，它通过定义距离和邻域半径来确定样本的核心点、边界点和噪声点，并通过将核心点连接起来形成聚类。

聚类分析中描述相似度的函数

聚类分析中描述相似度的函数聚类分析是数据挖掘领域最常使用的分析方法之一，它可以将大量数据进行聚类，有效地挖掘出数据之间的关系。

聚类分析中描述相似度的函数是决定聚类分析结果的重要指标，本文将对常用的几种相似度函数进行讨论。

首先，常用的相似度函数有曼哈顿距离、欧几里得距离、余弦相似度、杰卡德相似系数等。

曼哈顿距离是相对较为简单的一种距离度量方式，它使用的是每个分量的距离的绝对值之和作为距离的度量，其公式为：D =|x_i - y_i|，其中x_i和y_i分别是每个维度的值。

欧几里得距离是一种比较经典的度量方式，它使用的是每个分量的距离的平方和作为距离的度量，其公式为：D=∑(x_i-y_i)^2。

余弦相似度是一种使用向量乘积计算两个向量之间相似度的量化方法，其公式为：cos (X, Y)=A*B/|A|*|B|。

其中，A和B分别为两个向量，|A|和|B|分别表示向量A和B的模长。

此外，杰卡德相似系数是一种用于衡量两组不同元素之间的相似度的度量方式，它主要用于评估文本之间的相似性，其公式为：J(X,Y)=|X∩Y|/|X∪Y|。

其中，X和Y分别表示两个集合，|X∩Y|表示两个集合的交集，|X∪Y|表示两个集合的并集。

聚类分析中描述相似度的函数已成为一种重要的工具，它可以帮助我们准确地描述不同的实体之间的距离，并获得聚类分析的更好结果。

在实际应用中，对于不同的任务，可以根据实际需要选择不同的相似度函数。

例如，当需要计算两个不同年份的价格之间的距离时，欧几里得距离和曼哈顿距离可能是比较实用的；当需要计算两个字符串之间的相似性时，杰卡德相似系数可能是比较实用的；当需要计算两个向量之间的相似性时，余弦相似度可能是比较实用的。

此外，由于聚类分析中描述相似度的函数是由计算机实现的，因此可以有效地节约人力，提高数据挖掘的效率。

例如，在实际应用中，可以采用不同的距离函数来比较不同的样本，从而发现数据之间的相关性。

综上所述，聚类分析中描述相似度的函数是一种重要的工具，它在数据挖掘中具有重要的意义。

《2024年聚类分析中的相似性度量及其应用研究》范文

《聚类分析中的相似性度量及其应用研究》篇一一、引言聚类分析是一种无监督学习方法，旨在将数据集划分为几个不同的组或“簇”，使得同一簇内的数据对象尽可能相似，而不同簇间的数据对象尽可能不相似。

相似性度量是聚类分析中的关键环节，它决定了数据点如何进行比较和分组。

本文将详细探讨聚类分析中的相似性度量方法及其应用研究。

二、聚类分析中的相似性度量相似性度量是聚类分析的基础，常用的相似性度量方法包括欧氏距离、曼哈顿距离、余弦相似度、皮尔逊相关系数等。

这些方法在不同的数据类型和聚类场景中有着不同的适用性。

1. 欧氏距离欧氏距离是最常用的相似性度量方法之一，它计算数据点在空间中的直线距离。

在聚类分析中，欧氏距离常用于数值型数据的相似性度量。

2. 曼哈顿距离曼哈顿距离又称街区距离，它计算数据点在空间中沿坐标轴移动的距离。

与欧氏距离相比，曼哈顿距离对数据的排列顺序更为敏感。

3. 余弦相似度余弦相似度是一种基于向量空间模型的相似性度量方法，它计算两个向量之间的夹角余弦值。

余弦相似度常用于文本数据或向量型数据的聚类分析。

4. 皮尔逊相关系数皮尔逊相关系数是一种衡量两个变量之间相关程度的统计量，其值介于-1和1之间。

在聚类分析中，皮尔逊相关系数可用于衡量数据点之间的线性关系强度。

三、相似性度量的应用研究相似性度量在聚类分析中具有广泛的应用，包括数据预处理、特征选择、异常检测等方面。

1. 数据预处理在聚类分析前，通常需要对数据进行预处理，包括数据清洗、标准化、归一化等操作。

相似性度量可以帮助我们确定合适的预处理方法，以及评估预处理效果。

例如，对于数值型数据，我们可以使用欧氏距离或曼哈顿距离来衡量数据点之间的差异，从而确定是否需要进行标准化或归一化处理。

2. 特征选择特征选择是聚类分析中的重要环节，旨在从原始特征中选择出对聚类任务有用的特征。

相似性度量可以用于评估特征与聚类结果的相关性，从而帮助我们选择出重要的特征。

例如，我们可以计算每个特征与聚类结果之间的皮尔逊相关系数，以确定哪些特征对聚类任务具有较大的影响。

数据挖掘中聚类算法研究综述

数据挖掘中聚类算法研究综述随着数据量的不断增加，数据挖掘成为了探索数据背后规律的一种重要方法。

而聚类算法作为数据挖掘中的一种基本技术，其在数据分析、模式识别、生物信息学、社交网络分析等领域都有着广泛的应用。

本文就对数据挖掘中的聚类算法进行了研究和总结，旨在对聚类算法的原理、特点、应用等方面进行探讨。

一、聚类算法的基本原理聚类算法是指将一组对象划分为若干个组或类，使得组内对象之间的相似度尽可能大，组间对象之间的相似度尽可能小，从而达到数据分类和分析的目的。

聚类算法的基本原理包括以下三个方面：1. 相似度度量：聚类算法的基础在于相似度度量，即将每个对象之间的相似度进行计算。

相似度度量可以采用欧几里得距离、曼哈顿距离、余弦相似度等多种方法。

2. 聚类分配：聚类分配是指将每个对象划分到合适的聚类中。

聚类分配可以通过最近邻法、k-means算法等实现。

3. 聚类更新：聚类更新是指对各个聚类进行调整，使得聚类内对象之间的相似度尽可能大，聚类间对象之间的相似度尽可能小。

聚类更新可以采用层次聚类法、DBSCAN算法等。

二、聚类算法的分类根据聚类算法的不同特点和应用场景，可以将聚类算法分为以下几种类型：1. 基于距离的聚类算法：包括最近邻法、k-means算法、k-medoid 算法等。

2. 基于密度的聚类算法：包括DBSCAN算法、OPTICS算法等。

3. 基于层次的聚类算法：包括凝聚层次聚类法、分裂层次聚类法等。

4. 基于模型的聚类算法：包括高斯混合模型聚类、EM算法等。

三、聚类算法的应用聚类算法在各种领域中都有着广泛的应用，包括数据分析、模式识别、社交网络分析、生物信息学等。

下面简单介绍一下聚类算法在这些领域中的应用：1. 数据分析：聚类算法可以对数据进行分类和分组，从而提取出数据中的规律和趋势，帮助人们更好地理解和利用数据。

2. 模式识别：聚类算法可以对图像、声音、文本等数据进行分类和分组，从而实现对数据的自动识别和分类。

序列数据相似度计算

序列数据相似度计算
摘要：
1.序列数据相似度计算的定义与重要性
2.常用的序列数据相似度计算方法
3.实例分析
4.总结
正文：
序列数据相似度计算是研究序列数据之间相似性的一种方法，它在生物学、语言学、信息检索等领域有着广泛的应用。

对于序列数据，我们通常关心的是它们之间的相似程度，而序列数据相似度计算就是用来量化这种相似程度的。

常用的序列数据相似度计算方法有动态规划法、最长公共子序列法、最小编辑距离法等。

动态规划法是一种基于数学模型的算法，它通过计算两个序列之间的最长递增子序列来确定它们的相似度。

最长公共子序列法则是通过寻找两个序列中最长的公共子序列来计算它们的相似度。

最小编辑距离法则是通过计算将一个序列转换成另一个序列所需的最小操作次数来计算它们的相似度。

以蛋白质序列比对为例，科学家们可以通过比较两个蛋白质序列的相似度，来推测它们的功能和结构是否相似。

这种方法在生物信息学领域被广泛应用，有助于我们理解基因和蛋白质之间的关系。

总的来说，序列数据相似度计算是一种重要的数据分析方法，它在许多领域都有着广泛的应用。

基于模型的时间序列数据挖掘——聚类和预测相关问题研究

基于模型的时间序列数据挖掘——聚类和预测相关问题研究引言：随着信息技术和数据收集能力的不断发展，我们面临着前所未有的数据挖掘机遇与挑战。

时间序列数据是一种按照时间顺序排列的数据，在金融领域、天气预测、交通流量等领域有广泛的应用。

时间序列数据挖掘是指对这些时间序列数据进行模式发现、预测分析等，以提供决策支持和业务预测。

本文将重点探讨基于模型的时间序列数据挖掘中的聚类和预测相关问题，并探索其研究现状和未来发展趋势。

一、时间序列聚类问题时间序列聚类是将相似的时间序列数据分组的过程。

其目的是找出数据集中的相似模式，并将其归为一类，以便进行进一步的分析和决策。

常用的时间序列聚类算法有基于距离的方法（如K-means算法）、基于密度的方法（如DBSCAN算法）和基于模型的方法（如GMM模型）。

这些算法可以在不同的应用场景下得到满意的聚类结果。

在基于距离的时间序列聚类中，K-means算法是最常用的方法之一。

该算法通过将时间序列样本分为k个簇，使得簇内的差异最小化，而簇间的差异最大化。

然而，K-means算法的聚类结果受到初始中心点选择的影响，并且对异常值敏感。

因此，对于不同的时间序列数据集，需要选择合适的距离度量和改进的K-means算法以获得更好的聚类效果。

基于密度的时间序列聚类算法中，DBSCAN算法是一种常用的方法。

该算法通过定义邻域半径和邻域内样本数量的阈值，将具有足够邻居的样本划为核心对象，并将其密度可达的样本划为一类。

然而，DBSCAN算法对密度变化较大的时间序列数据集不够适用，因为临近性的定义基于欧氏距离。

基于模型的时间序列聚类算法则是将时间序列数据建模为概率模型或其他模型，并通过模型的参数推断和比较来进行聚类。

GMM模型是常用的基于模型的聚类方法之一。

该算法假设各个簇的时间序列数据是由混合高斯分布生成的，并通过最大似然估计得到模型参数。

然后，通过计算样本对每个簇的后验概率，将样本分为不同的簇。

常见数据挖掘分析方法介绍

常见数据挖掘分析方法介绍在数据分析领域，数据挖掘是一种重要的技术，它可以帮助我们从大量的数据中提取有价值的信息和知识。

在实际应用中，有许多常见的数据挖掘分析方法，本文将对其中一些方法进行介绍。

一、聚类分析聚类分析是一种将数据集合划分为不同群组的方法，以使得同一群组内的数据对象相似度高，不同群组之间的相似度低。

其中，K均值算法是一种常用的聚类分析方法。

它首先将数据集合划分为K个初始聚类中心，然后迭代地将数据对象分配到最近的聚类中心，再更新聚类中心的位置，直到达到收敛条件。

二、分类分析分类分析是一种通过对已有数据进行学习，来预测新数据所属类别的方法。

其中，决策树算法是一种常用的分类分析方法。

决策树通过构建一棵树状结构，每个节点代表一个属性，每个分支代表属性的取值，从根节点到叶节点的路径表示一个分类规则。

通过遍历决策树，我们可以将新数据进行分类。

三、关联规则挖掘关联规则挖掘是一种寻找数据集中项集之间相关性的方法。

其中，Apriori算法是一种常用的关联规则挖掘方法。

Apriori算法基于一个重要的原则：如果一个项集是频繁的，那么它的所有子集也是频繁的。

Apriori算法通过迭代地生成候选项集，并计算其支持度来寻找频繁项集，然后通过计算置信度来生成关联规则。

四、回归分析回归分析是一种通过对数据的学习来预测数值型输出的方法。

其中，线性回归是一种常用的回归分析方法。

线性回归通过拟合一条直线或者超平面来表示输入与输出之间的关系。

它通过最小化实际输出值与预测输出值之间的差距来求解模型参数。

五、异常检测异常检测是一种发现与正常模式不符的数据对象的方法。

其中，基于密度的离群点检测算法是一种常用的异常检测方法。

该算法通过计算数据对象与其邻域之间的密度来确定是否为离群点。

六、时序分析时序分析是一种对时间序列数据进行建模和预测的方法。

其中，ARIMA模型是一种常用的时序分析方法。

ARIMA模型通过将时间序列数据转化为平稳时间序列，然后通过自回归与滑动平均的组合进行建模与预测。

数据挖掘方法

数据挖掘方法数据挖掘是一种通过从大量数据中发现模式和关联规律来提取有用信息的技术。

数据挖掘方法通过使用各种算法和技术，可以帮助我们在海量的数据集中找到隐藏的知识和洞察力，以支持业务决策和问题解决。

本文将介绍几种常用的数据挖掘方法。

一、关联规则挖掘关联规则挖掘是一种常用的数据挖掘方法，它用于发现数据集中的关联关系。

关联规则挖掘可以帮助我们找到数据中的相关性，并从中发现隐藏的知识。

在关联规则挖掘中，我们首先需要定义一个支持度和置信度的阈值，然后使用Apriori算法或FP-Growth算法等来发现频繁项集和关联规则。

二、分类和预测分类和预测是数据挖掘中的另一种常见方法。

它用于根据已经标记好的数据集来预测未知数据的类别或属性。

常见的分类和预测算法包括决策树、朴素贝叶斯、支持向量机等。

这些算法可以根据已知的特征和标签来构建模型，并将未知数据映射到特定的类别或属性。

三、聚类分析聚类分析是一种将数据集中的对象按照其相似性进行分组的方法。

聚类分析可以帮助我们在没有先验信息的情况下对数据进行探索性分析。

常见的聚类算法包括K均值、层次聚类和密度聚类等。

这些算法可以根据数据之间的相似性将其划分成不同的簇。

四、异常检测异常检测是数据挖掘中的另一个重要方法。

它用于识别数据集中的异常或离群值。

异常检测可以帮助我们发现潜在的问题或异常情况，并采取相应的措施。

常见的异常检测算法包括基于统计学的方法、基于距离的方法和基于聚类的方法等。

五、序列模式挖掘序列模式挖掘是一种挖掘序列数据中频繁模式或关联规则的方法。

序列数据包含了一系列按照时间顺序排列的事件或项。

序列模式挖掘可以帮助我们发现序列数据中的规律和趋势，以支持业务决策和行为分析。

常见的序列模式挖掘算法包括GSP算法和PrefixSpan算法等。

六、回归分析回归分析是一种用于建立和分析变量之间关系的方法。

它可以帮助我们预测一个或多个连续变量的值。

常见的回归分析算法包括线性回归、多项式回归和逻辑回归等。

数据挖掘中的聚类分析方法

数据挖掘中的聚类分析方法数据挖掘是一项数据分析过程，通过使用复杂算法和技术来发现隐藏在数据中的模式和关系。

聚类分析方法是数据挖掘中应用广泛的一种方法，它可以将一组数据分为不同组，每组中的对象具有相似的属性，并且不同组之间的对象有明显的差异。

本文将介绍聚类分析的一些基本概念、聚类算法和聚类分析的应用领域。

一、聚类分析的一些基本概念聚类分析是将一组对象按照它们之间的相似度分成多个组的过程。

相似度可以用多种方式进行衡量，比如欧几里得距离、曼哈顿距离、闵可夫斯基距离等。

在聚类分析中，一个重要的概念是簇，它是指一组具有相似属性的对象。

聚类分析的目标是将数据集合分为多个簇，并使得不同簇之间的相似度越小越好，而同一簇内的相似度越大越好。

二、聚类算法聚类算法可以分为层次聚类算法和非层次聚类算法两种。

层次聚类算法将数据集中的对象分为一系列越来越小的簇，并形成一个树形结构，即所谓的聚类树。

非层次聚类算法则直接把数据分成簇，并不会形成树形结构，它们的算法主要有K均值聚类、DBSCAN聚类、层次聚类、EM聚类等。

K均值聚类K均值聚类是一种基于距离的聚类算法。

该算法的基本思想是，将数据集中的对象分为k个簇，每个簇都有一个中心点，称为簇的质心。

首先随机选取k个质心，然后计算每个对象离这k个质心的距离，将其划分到距离最近的质心所在的簇。

接着重新计算每个簇的质心，再次对每个对象进行重新的簇分配，直到簇不再发生变化或达到一定的迭代次数。

DBSCAN聚类DBSCAN聚类是一种基于密度的聚类算法。

该算法的基本思想是，在不同密度的区域中划分不同的簇。

算法需要指定两个参数：邻域半径Eps和最小点数MinPts。

如果一个点的邻域内点的个数大于等于MinPts，则该点为核心点。

如果一个点的邻域内存在核心点，则该点为边界点。

如果一个点既不是核心点也不是边界点，则为噪声点。

聚簇的算法步骤是：随机选择一个点，将该点的邻域内的点加入到该簇中，并继续扫描邻域内其他点，将与该点密度可达的点加入到该簇中。

规范化相似度的符号序列层次聚类

ｇｏｒｉｃａｌｓｅｑｕｅｎｃｅｓ，ｓｕｃｈａｓｇｅｎｅｓｅｑｕｅｎｃｅｓ，ｐｒｏｔｅｉｎｓｅｑｕｅｎｃｅｓ，ａｎｄｓｐｅｅｃｈｓｅｑｕｅｎｃｅｓ，ｅｔｃ．，ｗｉｄｅｌｙｅｘｉｓｔｉｎｍａｎｙａｐｐｌｉｃａ —
第４２卷
第５期
计算Biblioteka 机科学Ｖｏ１．４２Ｎｏ．５
Ｍａｙ２０１５
２０１５年５月
ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ
规范化相似度的符号序列层次聚类
张豪陈黎飞郭躬德（福建师范大学数学与计算机科学学院福建省网络安全与密码技术重点实验室福州３５０００７）
ｌｅｎｇｔｈ－ｎｏｒｍａｌｉｚａｔｉｏｎｆａｃｔｏｒｔｏａｄｄｒｅｓｓｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓａｒｅｓｅｎｓｉｔｉｖｅｔｏｔｈｅｓｅｑｕｅｎｃｅｓｌｅｎｇｔｈ，ａｎｄｔｏｉｍｐｒｏｖｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｍｅａｓｕｒｉｎｇｓｅｑｕｅｎｃｅｓｓｉｍｉｌａｒｉｔｙ．Ｂａｓｅｄｏｎｔｈｅｎｅｗｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅ，ａｎｅｗｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｗａｓｐｒｏｐｏｓｅｄ，ｗｈｅｒｅｄｉｒｅｃｔｅｄａｃｙｃｌｉｅｇｒａｐｈｓａｒｅｃｏｎｓｔｒｕｃｔｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｓａｍｐｌｅｓａｎｄａｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇｏｆｃａｔｅｇｏｒｉｃａｌｓｅｑｕｅｎｃｅｓｉｓｐｅｒｆｏｍｅｒｄｂｙｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｒｅａｌ－ｗｏｒｌｄ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

—178—基于数据挖掘的符号序列聚类相似度量模型郑宏珍，初佃辉，战德臣，徐晓飞(哈尔滨工业大学智能计算中心，264209)摘要：为了从消费者偏好序列中发现市场细分结构，采用数据挖掘领域中的符号序列聚类方法，提出一种符号序列聚类的研究方法和框架，给出RSM 相似性度量模型。

调整RSM 模型参数，使得RSM 可以变为与编辑距离、海明距离等价的相似性度量。

通过RSM 与其他序列相似性度量的比较，表明RSM 具有更强的表达相似性概念的能力。

由于RSM 能够表达不同的相似性概念，从而使之能适用于不同的应用环境，并在其基础上提出自组织特征映射退火符号聚类模型，使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。

关键词：符号序列聚类；数据挖掘；相似性模型Symbolic Sequence Clustering Regular Similarity ModelBased on Data MiningZHENG Hong-zhen, CHU Dian-hui, ZHAN De-chen, XU Xiao-fei(Intelligent Computing Center, Harbin Institute of Technology, Harbin 264209)【Abstract 】From a consumer point of the sequence of preference, data mining is used in the field of symbolic sequence clustering methods to detect market segmentation structure. This paper proposes a symbolic sequence clustering methodology and framework, gives the similarity metric RSM model. By adjusting RSM model, parameters can be changed into RSM and edit distance, Hamming distance equivalent to the similarity metric. RSM is compared with other sequence similarity metric, and is more similar to the expression of the concept of capacity. As to express different similarity, the concept of RSM can be applied to different applications environment. Based on the SOM annealing symbol clustering model, the consumer preference for market segmentation can be studied in the structure, which means it is realized in practical application. 【Key words 】symbolic sequence clustering; data mining; similarity model计算机工程Computer Engineering 第35卷第1期V ol.35 No.1 2009年1月January 2009·人工智能及识别技术·文章编号：1000—3428(2009)01—0178—02文献标识码：A中图分类号：TP3911 概述在经济全球化的环境下，面对瞬息万变的市场和技术发展，企业要想在国内外市场竞争中立于不败之地，必须对客户和市场需求做出快速响应。

目前，通过市场调研公司或企业自身的信息系统，收集来自市场和消费者的数据相对容易，而如何理解数据反映的市场细分结构和需求规律却是相当困难的。

为解决这一问题，许多研究者选择消费者的职业、收入、年龄、性别等特征数据作为细分变量，利用统计学传统聚类方法得到市场细分结构[1-2]。

在实际应用中，不同的细分变量会导致不同的市场细分结果[3]。

为此，本文从用户偏好序列数据对市场进行细分。

通过对符号序列数据相似性的研究，给出一个可形式化的RSM 相似性度量模型和算法概要。

该度量模型考虑了2对象之间相似与相异2个方面的因素，通过参数的调整，可以根据问题的具体性质表达不同的相似性概念。

并在此基础上，将在数值型数据领域表现良好的SOM 神经网络引入到符号序列数据的聚类问题上，给特征符号序列的机器自动识别提供了可能性。

2 符号序列聚类问题序列聚类问题作为发现知识的一种重要的探索性技术，受到数据挖掘与知识发现研究领域的极大重视。

企业决策者在进行市场和产品相关战略时，迫切需要某些技术手段来理解序列数据，这也正是本文研究的序列聚类问题的工程背景。

下面给出符号序列的相关定义。

定义1 设12{,,,}n A a a a ="为有限符号表，A 中的l 个符号12,,,l a a a "构成的有序集称为符号序列，记为s =12{,,,}l a a a "，并称l 是s 的长度，记为s 。

A 上所有有限长度符号序列集合记为A *。

例如：符号表{a , b , c , d , e , f , g }，则<abf >, <cdbg >是符号序列。

定义2 设12{,,,,,}t n P S S S S =""，S t 是A *上的某个符号序列。

符号序列聚类是指寻找P 上的划分P 1, P 2,…, P k ，使属于同一划分的符号序列间的相似性尽量大，而属于不同划分的符号序列间相似性尽量小。

3 符号序列的正则相似度量模型相似性度量往往与问题的应用背景具有紧密联系，并影响符号序列聚类结果。

为此建立符号序列形式化的相似性度量模型，并在此基础上研究符号序列的聚类问题。

3.1 正则相似度量模型下面给出形式化的相似度量模型——正则相似度量模型基金项目：国家“863”计划基金资助项目“CIMS 模型驱动的智能化软构件与软件生成技术”(2006AA01Z167)作者简介：郑宏珍(1967－)，女，副教授，主研方向：数据挖掘，智能计算；初佃辉，副教授、硕士；战德臣、徐晓飞，教授、博士收稿日期：2008-06-24 E-mail ：hithongzhen@—179—(Regular Similarity Mode, RSM)的形式化描述。

定义3 给定相似变换集合T =12{,,,}m τττ"，符号序列集12{,,,}n S s s s ="，变换代价函数定义为:c f T S ×→ [0,1]。

定义4 1212,,s s S S ∈ 是s 1, s 2子序列集合，设z s 12S ∈ ，若12s S ∀∈ 满足z s s≥，称z s 是s 1, s 2的最大公共子序列，记为LCS (s 1, s 2)。

定义5 正则相似模型记为RSM =,,,c S T f Sim <>。

其中，符号序列集 S =12{,,,}n s s s "；相似变换集T =12{,,,}m τττ"；代价函数:c f T S ×→[0,1]；相似性度量1212(,)(,)Sim s s s s α=+ 12(,)s s β。

式中，112(,)12(,)1LCS s s s s C δα−⋅=−称为同构相似性；212min(()())12(,)c c f t f t s s C δβ−+=称为异构相似性，12,T ττ∈,12,δδ为常数，(1,)C ∈∞,1122()()s s ττ=。

RSM 的相似变换集与代价函数可根据具体问题而定。

3.2 正则相似度量模型性质在给出RSM 模型定义后，需对长度有限的任意两符号序列进行有效性分析，并根据相似性变换和代价函数定义，对RSM 模型输出两序列间相似性度量的值的影响进行分析。

下面给出RSM 有效性前提。

具体如下：定理 12,,m s s S T ∈∃ ，使1122()()s s ττ=，其中12,m T ττ∈∃。

(1)对称性。

满足有效性前提的RSM ，121(){|()}min(())c c s s f f τττττ=′′∈=,212(){|()}min(())c c s s f f τττττ=′′∈=，则12()()c c f f ττ=。

(2)传递性。

满足有效性前提的RSM ，对于12,s s S ∀∈,T τ′∈∃，使()c f τ=12min(()())c c f f ττ+。

(3)排列不变性。

对于任意符号序列s 1, s 2，按任意方式对齐，式22n m ++12k s s =+成立，n 是s 1, s 2中不匹配符号的数量，m 是匹配符号的数量，k 是未找到对应符号的数量。

3.3 符号序列相似性变换两符号序列的RSM 相似度量相似性计算问题实际是求RSM 同构相似性12(,)s s α和异构相似性12(,)s s β。

由于其与最大公共子序列问题本质的类似，因此可以用动态规划的办法求解。

设符号序列12m s s s s <>",12n t t t t <>"的最大公共子序列LCS (s , t )记为12k z z z z <>"。

并且：1121k k z z z z z −−=<>",1121m m s s s s s −−=<>", 112n n t t t t t −=<>"如果m n s t =，则m n k s t z ==，并且1k z −是1m s −和1n t −的最大公共子序列。

否则：如果k m z s ≠，则k z 是1m s −最大公共子序列；如果k n z t ≠，则k z 是1n t−和s 的最大公共子序列。

根据以上递归规律，可以设计算法计算出2个符号序列的最大公共子序列，并进而得出从s 到t 的相似变换序列。

3.4 RSM 与其他序列相似性度量的比较海明距离和编辑距离是目前较常用的符号序列相似性度量[4]。

对于两等长符号序列，它们之间有越多的对应位置符号不同，则海明距离越大。

编辑距离是将一个符号序列经插入、删除、替换等编辑操作变为另一个序列所需的操作次数。