集对分析聚类预测法及其应用_高洁done

合集下载

聚类算法在客户流失预测中的应用

聚类算法在客户流失预测中的应用随着市场竞争的日益激烈和客户需求的多样化，企业需要更加积极主动地了解客户的需求和反馈，以便更好地满足客户的需要和提升企业的市场竞争力。

而在客户管理中，客户流失预测是一个非常重要的问题，因为客户的流失不仅会损失现有客户的收入，还会导致未来潜在客户的丧失和品牌声誉的下降。

因此，企业需要采用一系列有效的方法来预测和管理客户流失的问题，其中聚类算法就是一个非常有效的方法之一。

一、聚类算法的原理和应用聚类算法是数据挖掘中的一种常见方法，主要用于将未标记的数据集分成不同的类别。

其主要目标是在保持类内数据点的相似性的同时，使不同类别之间的差异最大化。

聚类算法可用于不同领域，例如市场细分、客户分类、银行诈骗检测、医学诊断和基因组分析等领域。

在客户流失预测中，聚类算法可以帮助企业更好地分析和理解客户的行为方式和消费习惯，从而预测客户的流失风险，并采取相应的措施避免客户流失。

二、常用的聚类算法在客户流失预测中，常用的聚类算法包括K-means算法、层次聚类算法和DBSCAN算法等。

1. K-means算法K-means算法是一种常用的聚类算法，其主要思想是在数据样本中选择k个初始聚类中心，然后将每个数据点分配给离其最近的聚类中心。

接着计算每个聚类中心的新位置，并重复该过程，直到达到预定的结束条件，如达到最大迭代次数或聚类中心不再变化。

K-means算法对于大规模数据集具有较高的效率，但缺点是聚类结果可能会受到初始聚类中心的影响。

2. 层次聚类算法层次聚类算法是一种基于树形结构的聚类方法，其主要思想是首先将每个数据点看作一个初始簇，然后重复合并最近的两个簇，直到所有数据点都被合并成一个簇为止。

层次聚类算法可以用于发现数据的分层结构，但其计算复杂度较高，尤其对于较大的数据集来说，运行时间很可能过长。

3. DBSCAN算法DBSCAN算法是一种基于密度的聚类方法，其主要思想是将密度相连的数据点归为同一簇。

聚类分析定义及其应用

2. 生物信息学
在生物信息学中，聚类分析被广泛用于基因组、蛋白质组和代谢组学的研究。例如，可以将基因表达数据聚类为不同的模式，以发现潜在的生物过程；或者将蛋白质相互作用网络中的节点聚类为不同的模块，以发现潜在的功能单元
聚类分析的应用
3. 市场细分
在商业中，聚类分析被用来进行市场细分。通过分析消费者的购买行为、人口统计信息和其他特征，可以将消费者分为不同的群体，并针对每个群体制定不同的营销策略
20XX
聚类分析定义及其应用
演讲者：xxx
-
聚类分析的定义
目录
聚类分析的应用
聚类分析定义及其应用
聚类分析是一种无监督学习方法，它在统计学、机器学习、生物信息学等领域有着广泛的应用。聚类分析的主要目的是将数据集中的对象分组，使得同一组 (即，一个聚类)内的对象相互之间更相似(根据所选的相似性度量)，而不同组的对象尽可能不同
聚类分析的定义
评估和解释聚类结果
评估聚类结果的常见度量包括轮廓系数(Silhouette Coefficient)、DaviesBouldin Index、CalinskiHarabasz Index等。此外，为了解释聚类结果，我们通常需要使用某种可视化工具 (如散点图、树状图、热力图等)来展示聚类结果
聚类分析的定义
聚类算法
聚类算法是用于发现聚类的算法。这些算法可以大致分为以下几类划分方法：这种方法首先将数据集随机划分为K个聚类，然后逐步改进聚类以更好地匹配数据。代表性的算法有K-Means和K-Medoids
聚类分析的定义
层次方法：这种方法通过反复合并最相似的聚类来形成一棵聚类树。用户可以选择合并的次数，或者通过剪切树来获得不同的聚类数目。代表性的算法有BIRCH 和Agglomerative Hierarchical

聚类算法的使用方法及其在市场分析中的应用

聚类算法的使用方法及其在市场分析中的应用聚类算法是一种常见的数据分析方法，它可将数据集中的样本根据相似性进行分组，使得同一组内的样本具有较高的相似性，而不同组的样本之间相似性较低。

在市场分析中，聚类算法可应用于多个领域，例如市场细分、目标市场定位以及市场调研等。

本文将介绍聚类算法的使用方法，并说明其在市场分析中的具体应用。

聚类算法的使用方法分为以下几个步骤：数据预处理、选择合适的聚类算法、确定距离度量和聚类数目、执行聚类和结果分析。

第一步：数据预处理数据预处理是聚类分析的重要步骤，它包括数据清洗、数据变换和数据归一化等。

首先，需要对原始数据进行清洗工作，删除缺失值和异常值。

然后，根据实际需求对数据进行变换，例如对数据进行对数变换或标准化处理，以消除数据之间的差异性。

最后，为了保证不同属性之间的权重一致，需要对数据进行归一化处理。

第二步：选择合适的聚类算法选择合适的聚类算法取决于数据的特点和实际需求。

常用的聚类算法包括K均值聚类、层次聚类、DBSCAN等。

K均值聚类是一种划分聚类算法，它将样本划分到预先指定的聚类数目中。

层次聚类通过自底向上或自顶向下的方式递归地组合样本，形成聚类层次结构。

DBSCAN是一种基于密度的聚类算法，它根据样本点周围的密度将它们划分为核心点、边界点和噪声点。

第三步：确定距离度量和聚类数目选择合适的距离度量方法是聚类算法的关键之一。

常用的距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。

在确定聚类数目时，可以使用肘部法则、轮廓系数等方法进行评估和选择。

第四步：执行聚类和结果分析当确定了聚类算法、距离度量和聚类数目后，便可以执行聚类算法进行分析。

根据选定的算法，将样本进行分组，并生成聚类结果。

然后，通过可视化和统计分析等方法对聚类结果进行解读和分析。

最后，根据分析结果进行市场细分、目标市场定位和市场调研等相关工作。

聚类算法在市场分析中具有广泛的应用，以下是几个典型的应用案例：1. 市场细分聚类算法可根据不同的市场特征将潜在消费者分为若干个独立的群体，从而实现市场细分。

聚类算法在数据分析中的应用

聚类算法在数据分析中的应用随着信息时代的到来，数据的积累和应用愈加重要，聚类算法在数据分析中的应用也愈发广泛。

本文将简单介绍聚类算法的原理和应用，并结合具体案例阐释其优势和局限性。

一、聚类算法的原理聚类算法是一种机器学习和数据挖掘的算法，其主要目的是将n个数据对象划分成k个类别，使得同一类别中的对象相似度高，不同类别中的对象相似度低。

对于不同类型数据，聚类算法的实现方式有所不同，其中比较典型的有层次聚类、K均值聚类和密度聚类等。

1.层次聚类算法层次聚类是一种自底向上的聚类方法，该方法将每个数据对象视为一个单独的簇，然后根据对象之间的距离逐渐合并相邻簇使得数据点逐渐聚集，直到形成一棵树形结构。

这个树形结构称为聚类树或者树状图。

在层次聚类中，聚类的实现方式可以是基于距离的聚类或基于相似度的聚类，其中最常见的是基于距离的聚类方法。

在实际操作中，我们需要确定合并簇的距离度量方式，一般可以选择欧几里得距离、曼哈顿距离和余弦距离等。

2. K均值聚类算法K均值聚类算法是一种迭代算法，其主要原理是将n个数据对象分为k个簇，每个簇包含最接近的k个数据对象。

算法的流程如下：步骤1：先从n个对象中任选k个对象作为初始簇中心步骤2：计算每个对象到k个簇心的距离，然后将其归为距离最近的那个簇步骤3：对每个簇内所有对象进行均值计算，将其作为新的簇心步骤4：再次计算每个对象到k个新簇心的距离，归为距离最近的那个簇步骤5：重复执行步骤3和4，直到簇心变化小于某一阈值或达到最大迭代次数。

3. 密度聚类算法密度聚类算法是一种基于密度的聚类方法，该算法将同一区域内的数据对象划分到相同的类中，并将不同区域内的对象划分到不同的类中。

其中，密度聚类中的关键概念是核心对象、密度直达和密度可达性。

二、聚类算法的应用聚类算法在数据分析中的应用非常广泛，比如有效的市场分割和客户分析、垃圾邮件过滤和欺诈检测等，以下是聚类算法的一些具体案例。

1. 市场分割与客户分析客户评论是人们购买产品的重要指南之一，利用聚类算法可以将评论中的信息抽取并进行聚类分析。

聚类分析及应用

聚类分析及应用聚类分析是一种常用的数据分析方法，它的目标是将具有相似特征的样本归为一类，不同类别的样本之间存在一定的差异。

聚类分析可以应用于各个领域，如市场分析、社交网络分析、医学疾病诊断等。

以下将从聚类分析的基本原理、常用算法和应用领域三个方面来进行阐述。

聚类分析的基本原理是将数据集中的样本划分为若干个不相交的子集，使得同一子集中的样本具有较高的相似性，而不同子集中的样本具有较大的差异性。

相似性度量可以采用欧氏距离、余弦相似度等方法进行计算。

聚类分析的步骤主要包括选择合适的相似性度量方法、确定聚类数目、选择合适的聚类算法、生成聚类结果和进行聚类结果的评估。

在聚类分析中，常用的算法包括K-means算法和层次聚类算法。

K-means算法首先随机选择K个样本作为聚类中心，然后根据样本和聚类中心之间的相似性度量，将每个样本分配至最近的聚类中心。

接着，重新计算每个聚类中心的均值，并将样本重新分配至新的聚类中心，直到聚类中心不再更新，即达到收敛。

层次聚类算法将样本逐步划分为不同的层次，依次生成聚类簇。

该算法可分为自顶向下和自底向上两种方式。

聚类分析在市场分析中被广泛应用。

通过对消费者的行为偏好、购买记录等数据进行聚类分析，可以将消费者划分为不同的群体，针对不同的群体采取差异化的市场营销策略，提高市场竞争力。

例如，在电商平台中，通过聚类分析可以将用户划分为不同的购物偏好群体，为他们提供个性化的商品推荐。

另外，聚类分析在社交网络分析中也发挥着重要的作用。

通过分析社交网络中用户之间的相似性，可以将用户划分为不同的社交圈子。

这种分析可以帮助企业更好地了解用户的需求和兴趣，进而制定精准的社交媒体营销策略。

同时，在社交网络中发现用户之间的连接模式，可以提供个性化的好友推荐。

聚类分析还被广泛应用于医学疾病诊断中。

通过对患者的病历数据进行聚类分析，可以将患者划分为不同的疾病类型，帮助医生更准确地诊断病情，并制定个性化的治疗方案。

聚类算法及其在数据分析中的应用

聚类算法及其在数据分析中的应用近年来，随着技术的不断进步，数据分析的应用越来越广泛。

在大数据时代下，人们面对的不仅仅是海量数据，更是数据的“概括”。

如何在数据中获取有用的信息，这是必须掌握的一项技能。

而聚类算法就是其中的一种。

什么是聚类算法？聚类算法是一种用于将数据对象分为相似组或类的机器学习方法，其目的是将彼此相似的数据对象集合在一起，彼此不相似的数据对象则分开。

聚类算法的本质是通过学习和计算相似性来完成数据的自动分类，这种分类能够帮助我们更高效地理解和分析数据。

聚类算法的分类聚类算法的分类很重要，因为不同的聚类算法方法适用于不同的数据情况。

根据聚类算法的方法和特点，我们可以将聚类算法分为以下几种：1. 层次聚类算法：是一种自下而上的方法，可以找到数据的层次结构，在数据对象之间建立完全二叉树结构。

2. 划分聚类算法：是一种自上而下的方法，将母集合分为若干个不相交的子集合，因此也称之为“分类”。

3. 密度聚类算法：基于数据集的局部密度来对数据对象进行聚类。

4. 分布密度聚类算法：基于数据的概率分布来进行聚类。

5. 原型聚类算法：需要定义一个具有代表性的样本来描述一个组的特点，例如 k 均值算法。

聚类算法的应用聚类算法的应用非常广泛，以下是聚类算法在数据分析中具体应用的几个方面。

1. 客户细分：利用聚类算法，可以将客户分为不同的群体，从而更好地进行营销工作。

例如，我们可以通过分析客户的购买记录、行为偏好、地理位置等来划分客户群体，以便测定不同营销策略。

2. 图像分析：利用聚类算法，可以将关闭的区域放在一起形成边，从而理解和分析图像中的边缘。

图像分析是聚类算法的重要应用之一。

3. 生物分类：利用聚类算法，可以对生物类群进行分类，例如将动物、树木和真菌分别归为不同的物种。

聚类算法还可以帮助生物学家更好地理解物种之间的关系和共同点。

4. 垃圾邮件过滤：利用聚类算法，可以将垃圾邮件与正常邮件分离开来。

通过聚类算法将相似的邮件归为同一类别，然后进行分类。

聚类分析及其应用案例

聚类分析及其应用案例聚类分析是一种常见的数据分析方法，它能将一组数据根据相似性进行分组。

通过聚类分析，我们可以发现数据集中的隐藏模式、结构和关系，从而为决策提供有力支持。

本文将介绍聚类分析的基本原理，并通过一个应用案例来说明其在实际问题中的应用。

一、聚类分析的基本原理聚类分析的目标是将数据集中的对象（如样本、观测值）分成不同的组，使得组内的对象相似度较高，而组间的对象相似度较低。

聚类分析的基本原理有两种方法：基于原型的聚类和基于密度的聚类。

1. 基于原型的聚类基于原型的聚类方法假设数据集中的每个组都有一个原型，这个原型可以是一个样本或一个向量。

常见的基于原型的聚类方法有K均值聚类和K中心点聚类。

K均值聚类是一种常用的聚类方法，它将数据集中的对象分成K个组，每个组都有一个中心点，使得组内对象到中心点的距离最小。

K均值聚类的过程包括初始化K个中心点、计算每个对象与中心点的距离、更新中心点的位置，直到达到收敛条件。

K中心点聚类是K均值聚类的变种，它将中心点定义为每个组中对象到其他组的最小距离。

K中心点聚类的优点是对异常值不敏感，但计算复杂度较高。

2. 基于密度的聚类基于密度的聚类方法通过计算对象之间的密度来确定聚类结果。

常见的基于密度的聚类方法有DBSCAN和OPTICS。

DBSCAN是一种基于密度的聚类方法，它通过定义一个对象的邻域半径和最小邻居数来确定核心点、边界点和噪声点。

DBSCAN的聚类结果不受数据集中对象的顺序影响，并且能够发现任意形状的聚类。

OPTICS是DBSCAN的改进算法，它通过计算对象之间的可达距离来确定聚类结果。

OPTICS能够发现不同密度的聚类，并且不需要预先指定邻域半径和最小邻居数。

二、聚类分析的应用案例聚类分析在实际问题中有广泛的应用，例如市场细分、社交网络分析和生物信息学等领域。

以下是一个以市场细分为例的应用案例。

假设某公司想要将其客户分成不同的市场细分，以便更好地进行定向营销。

集对分析聚类预测法在区域用水量中的应用

集对分析聚类预测法在区域用水量中的应用
袁朝阳;吴成国;张礼兵;潘争伟
【期刊名称】《华北水利水电学院学报》
【年(卷),期】2015(036)004
【摘要】精确预测用水量有利于水资源的规划和管理.本文利用集对分析联系度及聚类思想建立了集对分析聚类预测模型,并应用于山东省用水量预测中.结果表明,山东省2010年用水总量预测的计算值与实际值相对误差为0.67％,采用灰色
GM(1,1)模型预测的相对误差为4.95％,采用BP神经网络预测的误差为4.77％.进一步对山东省2011-2013年用水量的年增长率进行预测,相对误差较小.可见,集对分析聚类预测模型精度较高,可用于区域产业用水量的预测研究中.
【总页数】4页(P32-35)
【作者】袁朝阳;吴成国;张礼兵;潘争伟
【作者单位】合肥工业大学土木与水利工程学院,安徽合肥230009;合肥工业大学土木与水利工程学院,安徽合肥230009;合肥工业大学土木与水利工程学院,安徽合肥230009;安徽新华学院土木与环境工程学院,安徽合肥230088
【正文语种】中文
【中图分类】TV213.4
【相关文献】
1.集对分析聚类预测法在城市生活需水量预测中的应用 [J], 和蕊;原晨阳;杨思波;吕明捷
2.集对分析聚类预测法在区域用水量中的应用 [J], 袁朝阳;吴成国;张礼兵;潘争伟;
3.基于集对分析聚类法对中国未来生活用水量的预测 [J], 张云云;朱家明
4.集对分析聚类预测法及其应用 [J], 高洁;盛昭瀚
5.集对分析聚类预测方法在区域生态足迹趋势预测中的应用 [J], 吴开亚;金菊良;王玲杰;王文圣
因版权原因，仅展示原文概要，查看原文内容请购买。

聚类分析在大数据预测中的应用研究

聚类分析在大数据预测中的应用研究摘要：随着大数据时代的到来，如何高效地利用海量数据进行准确的预测成为了重要的研究方向。

聚类分析作为一种常见的数据挖掘技术，广泛应用于大数据预测中。

本文将就聚类分析在大数据预测中的应用进行研究，包括聚类分析的基本原理、聚类算法的选择以及其在大数据预测中的具体应用案例。

一、引言随着互联网的迅速发展和技术的进步，大数据已经成为人们生活和工作中难以忽视的一部分。

大数据的到来给我们提供了更多的机会，同时也面临着更多的挑战，如何高效地利用大数据进行准确的预测成为了重要的研究方向。

聚类分析作为一种常见的数据挖掘技术，在大数据预测中发挥着重要的作用。

二、聚类分析的基本原理聚类分析是一种无监督学习方法，通过对数据集中的样本进行分组，使得同一组内的样本相似度较高，不同组之间的样本相似度较低。

其基本原理是寻找数据集中的相似性，将相似的数据进行聚集，从而形成具有某种特点的组别。

聚类分析的主要步骤包括选择合适的相似性度量方法、确定合适的聚类算法和评估聚类结果的有效性。

三、聚类算法的选择在大数据预测中，选择合适的聚类算法对结果的准确性和效率有着至关重要的影响。

常用的聚类算法包括K-means、DBSCAN、层次聚类等。

K-means算法是一种较简单且广泛应用的聚类算法，其基本思想是通过迭代寻找一组聚类中心，使得样本与其所属聚类中心的距离最小。

DBSCAN算法则是一种基于密度的聚类算法，通过定义样本在空间中的领域密度来进行聚类划分。

层次聚类算法则是一种将数据集从上到下进行划分的方法，通过聚类树的形式表示数据的层次结构。

四、聚类分析在大数据预测中的应用案例4.1 客户细分在市场营销中，了解和把握客户的需求是非常重要的。

通过聚类分析技术，可以将客户按照不同的特征进行分组，从而实现客户细分。

例如，在电商平台中可以将用户按照购买习惯、消费水平等特征进行聚类，从而为不同的聚类提供个性化的推荐服务，提高用户的满意度和转化率。

聚类分析在行业趋势预测中的应用研究

聚类分析在行业趋势预测中的应用研究随着社会经济的快速发展，越来越多的企业开始注重行业趋势预测，以便更好地制定经营策略。

聚类分析是一种有效的数据挖掘方法，被广泛应用于行业趋势预测中。

本文将重点探讨聚类分析在行业趋势预测中的应用研究。

一、聚类分析的基本原理聚类分析是将数据样本根据一定的统计方法进行分类和分组的过程。

其基本目的是通过对相似性和相异性的度量，将不同的样本划分成若干个簇。

在聚类分析中，主要采用欧氏距离、曼哈顿距离、余弦相似度等方法进行相似性度量。

聚类分析的主要应用领域包括企业管理、市场分析、生物学、心理学等，其中在行业趋势预测中应用最为广泛。

二、聚类分析在行业趋势预测中的优势1. 提高准确度聚类分析的目的是将相似的样本划分到同一类中，并将不同的样本归入不同的簇。

这样一来，在行业趋势预测中，企业可以将同类别的数据信息进行汇总总结，提高预测结果的准确性。

2. 挖掘潜在规律聚类分析可以帮助企业发现数据中存在的某种规律或潜在因素，从而进一步做出适当的调整。

通过分析数据之间的相似性和差异性，企业可以更好地进行行业研究和分析，提升对市场规律的透彻认识。

3. 降低风险聚类分析可以预测市场趋势和潜在风险，从而为企业决策提供有力支持。

企业可以通过对数据进行聚类，分析市场行情和竞争态势，提高规避风险的能力，增强企业的竞争力。

三、聚类分析在行业趋势预测中的应用实践聚类分析在行业趋势预测中有着广泛的应用，下面将以网络游戏行业为例，阐述聚类分析的应用实践。

首先，通过数据采集和整理，获取网络游戏市场的相关信息，包括用户画像、营销数据、竞品分析等。

其次，通过聚类分析方法，对数据进行分析和分类，得到不同类别的数据信息。

最后，将聚类结果反馈给企业决策层和研发人员，以便更好地制定和调整实施策略，以适应市场趋势和用户需求。

四、聚类分析的局限性和不足聚类分析虽然在行业趋势预测中应用广泛且有效，但其局限性和不足也是不可忽视的。

1. 聚类结果具有一定的主观性聚类分析的结果通常需要进行人工评估和修正，因为聚类算法本身存在一定的主观性和随机性，易受到数据质量和特征选择的影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

短　文集对分析聚类预测法及其应用¹高　洁,盛昭瀚(南京大学管理科学与工程研究院,南京210093)摘要:提出一种新的预测方法—集对分析聚类预测法.该方法融合了集对分析中的同异反模式识别的“择近原则”和聚类分析的基本思想进行分类预测.文中将该方法应用于邮电业务总量预测的研究,考虑了邮电业务总量和第一、二、三产业的国内生产总值之间的关系,利用邮电业务总量和三个产业的生产总值的历史数据,建立了邮电业务量水平聚类预测的模型,从而得到邮电业务总量预测结果.利用我国某地区的实际数据进行分析计算,并与其它预测方法比较,结果表明该预测方法是有效的.关键词:集对分析;联系度;聚类预测;邮电业务总量中图分类号:O144 文献标识码:A 文章编号:1000-5781(2002)05-0458-05Method and application of set pair analysis classified predictionGAO Jie,SHENG Zhao-han(Graduate School of M anag ement Science and Engineering,Nanjing University,Nanjing210093,China)Abstract:A new forecasting m ethod,the SPA classified prediction,is proposed in this paper. T he model is used to forecast the business total of posts and telecommunications.T he history da-ta are adopted to set up the connection degrees betw een the classified systems and the reference sy stem.The result of the business total of posts and telecommunications forecast is obtained by applying the classified analysis methods.A set of real data is used,and the result is satisfied. Key words:set pair analy sis;connection deg ree;classified prediction;business total of posts and telecomm unications0　引　言科学的预测是建立在事物发展规律基础上的科学推断,是正确决策的前提和依据.随着科学技术的不断进步,最近20多年来,预测方法和技术有了很大发展.仅就邮电业务总量的预测问题来说,已有许多预测方法[1-5].文[2]利用灰色模型预测邮电业务总量.文[3]提出了利用多元模糊推理方法预测邮电业务总量.文[5]将物元模型与聚类分析方法结合起来,用可拓聚类预测方法预测邮电业务总量.但到目前为止,集对分析理论[6]在邮电业务预测问题上尚无应用.本文提出基于集对联系度的聚类预测方法并应用于邮电业务总量的预测.该方法将邮电业务量与影响业务量变化的社会经济(如第一、二、三产业的国内生产总值)等环境因素联系起来考虑,但同以往的第17卷第5期2002年10月系　统　工　程　学　报JOU RN A L OF SY STE M S EN GIN EER IN G V ol.17N o.5O ct.,2002¹收稿日期:20010219;修订日期:20020123.基金项目:国家自然科学基金资助项目(70171028).预测方法不同,它并不试图建立邮电业务量与环境因素之间关系的数学表达式,而是将邮电业务量与环境因素作为一个整体进行数据加工.该方法首先应用聚类分析的基本思想对邮电业务量和第一、二、三产业的国内生产总值的历史数据进行样本提炼分类,将业务量与其环境因素的历史样本分成若干典型类别,然后建立这些类别与参照系统所组成集对的同异反联系度。

当给定未来环境因素状态时,建立待预测样本与参照系统之间的联系度,从而判定出未来邮电业务量变化的类型,进而预测出来邮电业务总量。

本文通过对我国某地区有关历史数据的分析和计算,验证了邮电业务总量集对分析聚类预测方法的有效性和实用性。

1　集对分析基本概念集对分析(set pair analysis,SPA)[6]是赵克勤在1989年包头召开的全国系统理论会议上提出的一种新的系统分析方法.它从同、异、反3个方面研究2个事物的确定性与不确定性,全面刻画了2个不同事物的联系.集对分析的实质是一种新的不确定性理论,其核心思想是将确定不确定视为一个确定不确定系统.这个系统中,确定性和不确定性相互联系、相互影响、相互制约,并在一定条件下相互转化,并用一个能充分体现上述思想的联系度L=a+bi+cj来统一地描述模糊、随机、中介和信息不完全所致的各种不确定性,从而把对不确定性的辨证认识转换成一个具体的数学工具.集对分析的基本概念是集对及其联系度.所谓集对,就是具有一定联系的两个集合所组成的对子.按照集对的某一特性展开分析,对集对在该特性上的联系进行分类定量刻划,得到集对在某一问题背景下的联系度表达式:L=a+bi+cj其中,a表示两个集合的同一程度,称为同一度;b 表示两个集合的差异不确定程度,称为差异度;c 表示两个集合的对立程度,称为对立度.i为差异标记符号或相应系数,取值于[-1,1];j为对立标记符号或相应系数,规定取值为- 1.根据定义,a,b,c满足归一化条件a+b+c=1这种刻划是对确定性与不确定性的定量描述,其中:a,c是相对确定的,而b是相对不确定的.这种相对性是由于客观对象的复杂性和可变性,以及对客观对象认识与刻划的主观性和模糊性造成的不确定性.因而(1)式是一种确定不确定结构函数.它体现了确定不确定系统的对立统一关系,具有较深刻的方法论意义.2　基于联系度的集对分析聚类预测法将SPA理论与实际领域的专业知识相结合,使人们按一定的程序或规律去识别待预测事物所属类别从而达到预测目的的方法,称为SPA聚类预测法.具体步骤如下:设待预测的事物为N,相应的待预测系统为B.2.1　确定事物N的分类模式系统设N的可能分类集合为A={A1,A2,…,A n}.2.2　建立描述事物N的分类模式系统与参照系统的同异反联系向量L→k=(a k,b k,c k)表示第k个分类模式系统A k 与参照系统组成集对后得到的同异反联系向量,也可记成联系度L k=a k+b k i+c k j,(k=1,2,…,n).若各分类模式系统A k与m个因素有关,记第k个分类模式系统A k(k=1,2,3)与参照系统组成集对后关于第t个因素(t=1,2,…,m)的同异反联系度为Løk,则相应地有m个联系度L1k,L2k,…, L m k.则联系度L k=a k+b k i+c k j可从这m个联系度得到.若分类系统与参照系统的联系度对各个因素的依赖程度不同,或者说各个因素对分类的重要性有大小之分,以权系数来表示各个因素的重要程度.权系数的大小对于联系度具有举足轻重的作用,不同的权系数会得出不同的结论.因此应尽量合理地确定权系数.权系数记为A=(A1,A2,…,A m),其中: ∑mk=1A k=1此时,联系度L k=a k+b k i+c k j可视为这m—459—2002年10月高　洁等:集对分析聚类预测法及其应用个联系度L 1k ,L 2k ,…,L mk 的加权平均联系度,其中:a k ,b k ,c k 分别为m 个同一度、差异度、对立度的加权平均值.L k =A 1L 1k +A 2L 2k +…+A m L mk = ∑mi =1Ai L ik (2)2.3　建立描述事物N 的待预测系统B 与参照系统的同异反联系向量L →=(a ,b ,c )对待预测系统B 与参照系统组成集对后得到的同异反联系向量,或记为联系度L =a +bi +cj .2.4　计算同异反距离设Q k (k =1,2,…,n )为同异反联系向量L →k 与L →的距离,称为同异反距离:　Q k =(a k -a )2+(b k -b )2+(c k -c )2(3) k =1,2,…,n 2.5　确定待预测系统B 所属的类别比较各个同异反距离Q k (k =1,2,…,n )的大小,若Q k 0=m in(Q 1,Q 2,…,Q n ),则认为待预测系统B 与分类模式系统A k 0最接近,因而可以把B 归入模式A k 0.此即同异反模式识别的择近原则.若记x 0k 为各个分类系统的中心,则B 的预测值可以由下式计算:x =∑n k =1x 0k Q k ∑n k =11Qk (4)3　邮电业务总量的集对分析预测模型3.1　资料处理邮电通信业务的发生、发展和周围的许多因素有关.由于邮电通信在国民经济中的作用,邮电业务发展与第一、二、三产业的国内生产总值有密切联系.考察我国某地区的一、二、三产业的生产总值和邮电业务总量的历史数据(见表1),对一、二、三产业的生产总值进行扣除通货膨胀处理(历年通货膨胀率见表2),再得到一、二、三产业的生产总值和邮电业务总量的年增长率(这里的年增长率定义为该年的值与上年的值之比)见表3.表1　我国某地区一、二、三产业的生产总值和邮电业务总量的历史数据(亿元)年　份19901991199219931994199519961997199819992000第一产业355.17345.14393.82490.59671.94848.35965.291008.411016.271014.461028第二产业692.59793.921119.261598.052186.772715.263074.123411.863640.103906.404439.0第三产业368.74462.32622.94909.521198.681591.641964.802260.072543.582779.703117.7邮电业务量9.8813.1619.8834.5151.7872.2496.03132.52167.78227.18323注:3个产业的国内生产总值按当年价格计算,邮电业务总量以1990年不变价格计算.表2　历年的通货膨胀率年　份1991199219931994199519961997199819992000通货膨胀率104.8105.1115.9123.6114.3106.899.398.296.998.6注:通货膨胀率以上年为100.表3　该地区一、二、三产业的年增长率及邮电业务的年增长率年份1991199219931994199519961997199819992000第一产业年增长率0.927 1.086 1.075 1.108 1.102 1.065 1.052 1.026 1.030 1.028第二产业年增长率 1.094 1.341 1.232 1.107 1.083 1.060 1.118 1.086 1.107 1.152第三产业年增长率 1.196 1.282 1.260 1.066 1.159 1.156 1.158 1.146 1.128 1.138邮电业务年增长率1.3321.5111.7361.5001.3951.3291.3801.2661.3541.422 根据上述1991～1999年的历史资料为分类样本,该地区邮电业务总量的年增长率在1.20～1.75之间.将样本按邮电业务总量的年增长率分为3类(即n =3).表4给出各类样本的邮电业务增长率范围和3个因子(即3个产业的增长率,m =3)的平均值(x 1、x 2和x 3).—460—系　统　工　程　学　报第17卷　第5期表4　邮电业务总量年增长率的各分类样本数据类　别增长率取值范　围各类样本数因子均值x1x2x3A1[1.20,1.35)3 1.0061.0801.166 A2[1.35,1.50)3 1.0611.1031.148 A3[1.50,1.75)3 1.0901.2271.203 3.2　建立各类样本与参照系统的联系度记第k个分类样本A k(k=1,2,3)与参照系统(取3个产业的年增长率均为1)组成集对后关于第t个因素(t=1,2,3)的同异反联系度为L t k= a t k+c t k j,其中经过分析,同一度取为a t k=x t/2,对立度采用倒数型对立:c t k=a2/x t.根据表4数据可得如下联系度:L11=0.503+0.199j;L21=0.540+0.185j; L31=0.583+0.172jL12=0.531+0.189j;L22=0.552+0.181j; L32=0.574+0.174jL13=0.545+0.183j;L23=0.614+0.163j; L33=0.602+0.166j(5)这里简化了联系度的表达式L=a+cj,因为b=1-a-c,就可把联系度还原成 L=a+bj+cj根据式(2)、(5)并对3个产业分配相同权重,计算可得分类样本A k(k=1,2,3)与参照系统组成集对后的同异反联系度为L1=0.542+0.273i+0.185jL2=0.552+0.267i+0.181j(6)L3=0.587+0.242i+0.171j3.3　计算待测样本B与参照系统的联系度为了分析集对分析聚类预测法的预测精度,以2000年的一、二、三产业的国内生产总值年增长率之值(1.028,1.152,1.138)为待测样本B的观测值,预测该年的邮电业务总量年增长率之值,并与实际值比较.根据观测值(1.028,1.152,1.138),确定待测样本B与参照系统组成集对后关于第t个因素(t=1,2,3)的同异反联系度为:L1B=0.514+0.195j;L2B=0.576+0.174j; L3B=0.569+0.176j从而可得待测样本B与参照系统组成集对后的同异反联系度为L B=0.553+0.265i+0.182j(7) 3.4　计算同异反距离根据式(3)、(6)、(7)计算待测样本B与各类别样本的同异反距离,见表5.根据同异反模式识别的“择近原则”,预测该地区未来的邮电业务总量年增长率为A2类.表5　同异反距离及预测结果Q1Q2Q3判定类别0.0140.0020.042A23.5　结果分析表5给出该地区2000年的邮电业务总量年增长率的预测结果属于A2类,即年增长率在1.35～1.50之间.根据表5及式(4)计算可得,该地区2000年的邮电业务总量年增长率为1. 415,与当年实际增长率1.422比较,相对误差为0.49%,预测精度较高.若以1991～2000年的一、二、三产业的生产总值年增长率的平均值(1.050,1.138,1.169)为待测样本B的观测值,预测该地区未来几年的邮电业务年增长率,可得Q1=0.022,Q2=0.009, Q3=0.034.由式(4)计算得到邮电业务年增长率为1.419,因而预测该地区2001年的邮电业务总量将达到458亿元.(以1990年不变价格计算).上述分析计算中,对各个环境因素(三个产业)的影响分配了相等的权重.若结合邮电行业的实际情况分配更合理的权重,并对分类样本进一步细分,可使预测的精度更高.3.6　方法比较为与其它预测方法进行比较,本文还对该地区相同的历史数据和资料,分别用多元模糊推理预测法[3]和可拓聚类预测法[5]进行邮电业务总量年增长率预测.表6给出上面3种预测方法的预测结果及与实际值1.422比较的相对误差.表6　几种预测方法的预测结果比较集对分析聚类预测多元模糊推理预测可拓聚类预测聚类结果A2-A2预测值 1.415 1.419 1.395相对误差0.49%0.21% 1.90%—461—2002年10月高　洁等:集对分析聚类预测法及其应用4　结束语邮电业务总量预测是一项复杂而重要的工作.由于未来邮电业务量的变化要受到诸多因素的影响,而这种影响往往又不能准确、定量地加以描述.传统方法,如线性回归、时间序列以及灰色系统模型,一般不考虑或简化考虑这些影响,所以预测效果往往并不理想.本文根据我国某地区第一、二、三产业的国内生产总值年增长率的历史数据,用集对分析聚数预测方法预测邮电业务总量.该方法弥补了传统方法预测时在计入影响邮电业务量变化因素方面的不足,从而使预测更为科学合理.就这一点来说,该方法可与多元模糊推理预测方法[3]及可拓聚类预测方法[5]媲美.3种方法比较而言,多元模糊推理预测方法可以不断地通过新的数据对模型进行改进,从而使模型具有自学习功能[3],预测结果精度较高.对相同的数据资料用可拓聚类预测法和集对分析聚类预测法预测可得完全相同的结果:A 2类.从预测精度来看,集对分析聚类预测法优于可拓聚类预测法,预测结果的相对误差与多元模糊推理预测法有相同的数量级.另一方面,由于联系度的计算比较简单,用于预测十分简便,具有实用性,而且在构造各类样本与参照系统的集对时,联系度的i ,j 的取值可以根据实际问题的需要加以调整.因此,该方法又具有灵活性.只要通过分析确定出合理的联系度表达式,就可以用集对分析方法对待测样本进行预测.因此,它对建模样本数目的多少没有限制,且预测结果也不会受建模样本数目的影响.文中的实际算例也表明了集对分析聚类预测法的可行性和实用性.参考文献:[1]　张曼军.通信建设工程技术经济分析基础[M ].北京:人民邮电出版社,1992.70-91[2]　吴惠荣.应用灰色模型预测邮电业务总量[J].南京邮电学院学报,1990,10(2):91-94[3]　高　洁.应用多元模糊推理预测方法进行邮电业务总量预测[J].南京邮电学院学报自然科学版,2000,20(1):58-62[4]　高　洁,孙海斌,唐国庆.基于模糊综合评判的电力负荷最优组合预测[J].系统工程学报,2001,16(2):106-110[5]　高　洁.可拓聚类预测方法及其在邮电业务总量预测中的应用[J].系统工程,2000,18(3):73-77[6]　赵克勤.集对分析及其初步应用[M ].杭州:浙江科学技术出版社,2000作者简介:高　洁(1968-),女,辽宁沈阳人,博士生,副教授.研究方向:模糊数学、物元分析、集对分析以及预测理论与方法等.—462—系　统　工　程　学　报第17卷　第5期。