基于时间衰减的分布式数据流聚类算法

合集下载

基于MapReduce的分布式网络数据聚类算法

Ｂａｓｅｄ０ｎＭａｏＲｅｄｕｃｅ
ＣＨＥＮＤｏｎｇ－ｍｉｎｇ，ＬＩＵＪｉａｎ，ＷＡＮＧＤｏｎｇ－ｑｉ，ＸＵＸｉａｏ－ｗｅｉ
（１．ＳｃｈｏｏｌｏｆＳｏｔｆｗａｒｅ，ＮｏｒｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ１１０８１９，Ｃｈｉｎａ；
文献标识码：Ａ
中图分类号：ＴＰ３０１．６
基于ＭａｐＲｅｄｕｃｅ的分布式网络数据聚类算法
陈东明，刘健，王冬琦，徐晓伟
（１．东北大学软件学院，沈阳１１０８１９；２．阿肯色大学小石城分校信息科学系，美国小石城７２２０４）摘要：时空复杂度较高以及物理机器内存不足，会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题，在
ｎｏｔｅｆｆｅｃｔｉｖｅｌｙａｎａｌｙｚｅａｎｄｄｅａｌｗｉｔｈｌａｒｇｅｄａｔａｎｅｔｗｏｒｋ．Ｔｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒ
存开销。使用模拟生成的数据在集群中进行实验，结果表明，当数据规模和集群规模增大时，该算法具有较好的加速比和扩展性。关健词：聚类算法；分布式聚类；ＭａｐＲｅｄｕｃｅ编程模型；数据挖掘；社团结构

基于时间序列的聚类算法研究

基于时间序列的聚类算法研究第一章引言1.1 研究背景随着数据的不断积累和应用场景的不断增加，时间序列数据的重要性逐渐凸显。

时间序列数据具有时间关联性，包含了丰富的信息，因此在很多领域中都具有广泛的应用，如金融领域的股票价格预测、传感器数据的分析、交通流量的预测等。

而时间序列数据的聚类分析是探索和发现时间序列数据的特征、规律和模式的一种重要方法。

因此，时间序列的聚类算法研究具有重要的理论意义和实际应用价值。

1.2 研究目的本文的研究目的在于探索和研究基于时间序列的聚类算法，提高时间序列数据的分析能力和模式识别能力。

通过对时间序列数据的聚类分析，可以帮助人们更好地理解数据的规律和特征，为各个领域的决策提供科学依据。

第二章相关工作综述2.1 时间序列聚类算法概述时间序列聚类算法是指将具有相似特征的时间序列数据归为一类的算法。

常见的时间序列聚类算法包括基于距离的聚类算法、基于密度的聚类算法和基于模型的聚类算法等。

这些算法都有各自的优势和适用场景。

2.2 基于距离的聚类算法基于距离的聚类算法是一种常见的时间序列聚类算法。

该算法通过计算时间序列数据之间的距离来确定数据的相似性，然后将相似性较高的数据归为一类。

其中，欧氏距离、曼哈顿距离和动态时间规整等距离度量方式常被应用于时间序列聚类算法中。

2.3 基于密度的聚类算法基于密度的聚类算法是另一类常见的时间序列聚类算法。

该算法通过计算时间序列数据点的密度来确定数据的相似性和离群点。

DBSCAN （Density-Based Spatial Clustering of Applications with Noise）算法是一种基于密度的聚类算法，通过设定一定的密度阈值，将具有足够高密度的数据归为一类，从而实现聚类分析。

第三章基于距离的时间序列聚类算法3.1 欧氏距离和曼哈顿距离的应用欧氏距离和曼哈顿距离是常用的距离度量方式，广泛应用于时间序列聚类算法中。

本章将介绍欧氏距离和曼哈顿距离的计算方法和应用，并探讨其在时间序列聚类中的优缺点。

流数据聚类研究综述

指定的观察时段及聚类数量，快速生成聚类结果的过程。ＣｕｔｅｍｌＳｒａ不足之处在于需要用户指定聚类簇数ｋ，要求强行输入固定的聚类簇数必然影响真实的聚类形态分布。同
定义４考虑演化数据流，定义时间衰减函数：
ｆｔ＝。＜＜１（）ｃ（ｃ）Ｏ
迹，定义操作ＴａｓｏｍＭＮ，返回值为变换后轨迹对ｒｎｆｒ（，）其
（，）ＭＮ的真实差异。
ｗｉｅ数据窗口新到Ｂｈｌ（个数据）
｛Ｕｄｔ（）ｐａｅｓ；
Ｓ＝ｒｎｆｒ（，，） ’Ｔａｓｏｍｓｎｄ；
用Ｔａｓｏｍｓ表示对集合Ｓ的转换操作，回一个ｒｎｆｒ（）返ｎｎ × 集合为Ｓ，素为对应轨迹对的最小差异，为轨迹的 ’元ｎ
第一个以流数据为分析对象的聚类算法是由ＳｄｐｏｕｉｔＧｈ等提出的ＳＲＡｕａＴＥＮ算法。这种算法根据分治原理，用使
一
，
ｘ，ｄ）ｄ（＞１。）
统一流模型：表示为流集合｛Ｏ（＝，，ｎ和维数为ｓｄｌ２ …，）
ｄ的公共属性维集，Ｓ为定义２的单流。其中，＞ｌｄ。ｎ，＞１ｎｌｄＩ一维数据单流模型；＝，＝：ｎｌｄｌ多维数据单流模型；＝，＞：
，
ｗｌｔｅｃｕｓｒｉｒｅｈｉｅｈｌｔｅｎｇｅｓａｒｃｉｓｉｉｐｏａｎｃｏｅｎｈｔｓｍｒｔｔｎｔｔ．Ｔｈｉａｉｃｅｄｃｂｔｇｅｒｆａｔｕｅｓｏｓｒｔｌｅｓｒｉｅｓｈｅｅｎａｌｅｒｆ

一种基于时态密度的倾斜分布数据流聚类算法

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.21, No.5, May 2010, pp.1031−1041 doi: 10.3724/SP.J.1001.2010.03470 Tel/Fax: +86-10-62562563© by Institute of Software, the Chinese Academy of Sciences. All rights reserved.∗一种基于时态密度的倾斜分布数据流聚类算法杨宁+, 唐常杰, 王悦, 陈瑜, 郑皎凌(四川大学计算机学院,四川成都 610065)Clustering Algorithm on Data Stream with Skew Distribution Based on Temporal DensityYANG Ning+, TANG Chang-Jie, WANG Yue, CHEN Yu, ZHENG Jiao-Ling(College of Computer Science, Sichuan University, Chengdu 610065, China)+ Corresponding author: E-mail: yneversky@, /~yangningYang N, Tang CJ, Wang Y, Chen Y, Zheng JL. Clustering algorithm on data stream with skew distributionbased on temporal density. Journal of Software, 2010,21(5):1031−1041. /1000-9825/3470.htmAbstract: To solve the problem of clustering this paper proposes a concept of temporal density, which reveals aset of mathematical properties, especially the incremental computation. A clustering algorithm named TDCA(temporal density based clustering algorithm) with time complexity of O(c×m×lg m) is created with a tree structureimplemented for both storage and retrieve efficiency. TDCA is capable of capturing the temporal features of a datastream with skew data distribution either in real time or on demand. The experimental results show that TDCA isfunctionable and scalable.Key words: data stream clustering; temporal density; skew distribution摘要: 为解决倾斜分布的数据流聚类这一难题,提出了时态密度概念,给出其度量,揭示了其包括可增量计算在内的一系列数学性质;设计了时态密度树结构,提高了聚类时的存储和检索效率;设计了能够以实时或异步方式捕捉数据倾斜分布的数据流时态特征的聚类算法TDCA(temporal density based clustering algorithm),其时间复杂度为O(c×m×lg m).实验结果表明,该算法不仅有较强的功能,而且具有较好的规模可伸缩性.关键词: 数据流聚类;时态密度;倾斜分布中图法分类号: TP311文献标识码: A数据流日益广泛地出现在传感器网络、网络监测、电话通话记录、Web点击事件以及股票交易数据处理中.面向数据流的知识发现已经成为数据挖掘领域的重要研究内容[1−6].社会热点监测和Web Usage挖掘是数据流聚类的两个典型应用.在社会热点监测中,不同时期人群关心的热点事件会随时间而演变,同一时期不同人群关心的事件也是不同的,有些事件可能是潜在的热点事件(人群密度还比较稀疏,但是已经具备聚集的特点).在Web Usage挖掘中,用户群对不同Web页面的兴趣也会随时间而发生变化,离当前时刻越近的访问数据越有意义,而且不同用户群有不同的兴趣,用户群数量是不同的,在分布上∗Supported by the National Natural Science Foundation of China under Grant No.600773169 (国家自然科学基金); the National KeyTechnology R&D Program in the 11th Five-Year Plan of China under Grant No.2006BAI05A01 (国家“十一五”科技支撑计划)Received 2008-02-25; Accepted 2008-10-07; Published online 2009-04-101032 Journal of Software软件学报 V ol.21, No.5, May 2010是倾斜的.上述应用对数据流聚类算法提出了挑战,集中表现为:(1) 难以获取关于簇个数和形状的先验知识;(2) 要求较高的灵活性:要能同时处理数据流聚类的时态特征和倾斜分布特征,即要求能够实时捕捉空间中局部密度不同的簇,以及簇的个数、密度、形状等性质随时间的变化情况;(3) 需要时态权重,即数据对于聚类的贡献随时间衰减,离现在越近的数据,对聚类贡献越大;(4) 要求较高的时空效率:无法保存数据流全局的和历史的数据,只能访问一个特定窗口内的数据,而且只能进行单遍扫描,所以要尽可能地节省存储空间和处理时间.本文提出了一种数据流聚类算法TDCA(temporal density based clustering algorithm).该算法不需要关于簇个数和形状的先验知识,既能捕捉数据流时态特征,又能同时处理数据倾斜分布的问题.主要贡献包括:(1) 提出了时态密度(temporal density)概念,定义了具有时间和空间自适应特性的时态密度阈值函数,证明了它们的重要数学性质.时态密度和阈值函数既能体现数据的时态特征,又能反映空间倾斜分布;(2) 提出了基于时态密度的聚类概念;(3) 设计了时态密度树(temporal density tree)来压缩存储密度图,提高了数据流聚类时的存储效率和搜索效率;(4) 提出了基于时态密度的数据流聚类算法TDCA.1 相关工作文献[7,8]提出了基于聚类数k的STREAM算法;文献[9]提出了数据流聚类的CluStream算法.这些文献虽然对传统聚类算法进行了扩展,但仍然有以下不足:(a) 其基本思想是基于距离的,难以发现任意形状的聚类;(b) 需要关于簇个数等先验知识,不能动态识别数据流聚类的变化.文献[10−13]提出了基于密度的算法,克服了一般算法无法发现任意形状的聚类的缺点,但仅局限于处理静态数据,无法直接应用于数据流聚类.文献[14]将基于密度的方法引入CluStream算法,提出了ACluStream算法,能够识别任意形状的聚类.但是无法实时处理分布倾斜的数据.文献[15]研究了基于密度和格(cell)的数据流聚类算法,提出了CDS-Tree算法.这些算法的主要不足是:(a) 密度阈值是空间上全局一致的,因此不能处理空间分布倾斜的情况,无法区分局部密度不同的聚类.以图1为例,当阈值较小时,它们会把c2和c3识别为同一个聚类;当阈值较大时,它们只能识别c2,不能识别c3;(b) 密度阈值是时间上固定不变的,无法捕捉因为密度随时间变化而造成的聚类变化.因此在图1中,这些算法将无法意识到c3的出现;(c) 数据没有时间权重,难以发现聚类结构的时间特征.体现在图1中,这些算法将无法识别由于部分数据的老化而引起的c1到c2的变化.Fig.1 Temporal feature of clusters in data stream图1 数据流聚类的时态特征已有算法不能实时处理倾斜数据的主要原因是,算法中的密度阈值是一个完全依赖于先验知识且事先设定的常量.与已有算法不同,本文在定义了时态密度以记录数据时间权重的基础上,定义密度阈值为一个时间的函数,同时考虑了不同局部区域密度的历史状态,历史上较为稀疏(稠密)的区域,现在的密度阈值就比较小(大),即密度阈值是空间和时间自适应的,因此能够区分数据空间不同区域的密度,并能识别各个局部密度随时间的变化情况.2 时态密度的基本概念k维数据空间D=D1×D2×…×D k,D i为第i维的定义域,i=1,…,k.设D i被划分成s i个区间,则空间D被划分成M=s1×s2×…×s k个单元格(cell).一个单元格记为c(c1,c2,…,c k),其中,c i是单元格c在第i维上的区间号坐标.一个k杨宁等:一种基于时态密度的倾斜分布数据流聚类算法 1033 维D 点记为r (x 1,x 2,…,x k ),其中,x i 为点r 在第i 维上的坐标.如果一个点r 落入某个单元格c ,则称点r 属于单元格c ,记为r ∈c .称k 维数据流中的一个记录r 为一个数据点,它对应于k 维数据空间D 中的一个点,其到达时间记为t r . 例1:考察图1中所示流数据与时俱进的分布情况.在t 1时刻,数据流只有一个聚类c 1.在t 2时刻,出现了两个聚类c 2和c 3,其中,c 3的密度明显小于c 2.此外,部分数据虽然继续存在,但其对于聚类的作用随着时间的流逝发生了不同程度的退化(如图中灰度不同的点所示),有些单元格因数据退化程度较大而失去参与聚类的意义.在这个过程中,不仅聚类的个数发生了改变,而且聚类的形状和密度都发生了改变.同时,数据的分布是倾斜的,表现为不同区域的簇的局部密度不同.例1表明:(1) 数据点对于聚类的贡献随着时间变化,离当前时刻越近的数据点贡献程度越大;(2) 个体对于聚类的贡献,既与个体本身有关,也与簇中其他个体(尤其是新个体)有关;(3) 不同区域的簇的密度不同,而且也随时间而变化,在一大批应用中,这一过程近似于热体自然降温,即近似于指数衰减规律.把上述观察形式化,我们得到:定义1(时态权重和时态密度). 设r 是数据流中的一个数据点,c 是空间中的单元格.(1) r 在t 时刻的时态权重是一个函数()(,)2r t t W r t λ−−=,其中,λ≥1是权重衰减速度,t r 为数据点r 到达的时刻;(2) c 中数据点在时刻t 的时态权重之和(,)(,)r c D c t W r t ∈=∑称为c 在时刻t 的时态密度.直观上,时态权重描述了数据点r 在t 时刻对聚类的贡献程度.新数据点的初始时态权重为1,然后随时间呈指数衰减.如果一个单元格总有新的数据点到达,则单元格的时态密度将逐步增大;否则,将逐步减小.由此可以反映数据空间不同区域的密度随时间的变化情况.命题1. 给定时刻t 0和t 1,t 0>t 1,如果∆n 是从t 0到t 1时刻之间到达单元格c 的数据点数,则有c 在t 1时刻的时态密度10()10(,)2(,)t t D c t D c t n λ∆−−=+.证明:设在t 0时刻c 中有n 0个数据点.由定义1(2)可知,在t 0时刻,0001(,)(,)ni i D c t W r t ==∑.由定义1(1)可知,对于任意数据点r i ∈c 在t 1时刻的时态权重1()1(,)2r i t t i W r t λ−−=,i ∈[1,n 0],则有 101010()()()()10(,)2222(,)r r i i t t t t t t t t i i W r t W r t λλλλ−−−−−−−−=== (1)又t 1时刻到达的新数据点数量为∆n ,则由定义1(2)和式(1)可得:00001001000010110010101111111()()011()()011()01()(,)(,)(,)(,)[2(,)]22(,)22(,)2r j n n i i n n n i j i j n t t n n n t t i i j n n n n t t t t i i j n n t t i i t t D c t W r t W r t W r t W r t W r t W r t n D ∆∆λ∆λ∆λλλλ∆+=+==+−−+−−==++−−−−==+−−=−−==+=+=+=+=∑∑∑∑∑∑∑∑0(,).c t n ∆+ 结论成立. □ 命题1表明,任意时刻单元格的时态密度由两部分构成:一部分是原有数据点衰减后的密度;另一部分是新到达的数据点的密度.命题1同时表明,单元格时态密度的更新可以按照增量的方式进行计算,避免每次计算单元格中所有点的时态密度,提高了计算效率.命题2. 设R t 是t 时刻数据空间中所有点的集合,v 是数据流的平均速率,记S 为R t 中所有点的时态权重之和,(,)tr R S W r t ∈=∑,则S ≤v /(1−2−λ). 证明:由定义1可知,1034Journal of Software 软件学报 V ol.21, No.5, May 2010()(0)(1)()()0(1)(,)222...22[(12)/(12)][1/(12)].t r tr R t t r R t t t t t t t S W r t v v v v v v λλλλτλττλλλ∈−−∈−−−−−−=−−=−+−−===+++==−−≤−∑∑∑结论成立.□ 由命题1和命题2易知,任何时刻数据空间中的所有单元格的时态密度之和不大于v /(1−2−λ),全部单元格的时态密度平均值不超过v /[M (1−2−λ)]. 定义2(时态密度阈值). 设单元格c 的时态密度最近一次被更新的时刻为t u ,则单元格c 在时刻t 的时态密度阈值规定为(1)0(,,)[(,)/]2(,)[12]/[(12)]u u t tt t i u u u i c t t D c t M D c t M λλλσ−−−+−−===−−∑.注意,定义2规定的密度阈值函数具有时间和空间的自适应性.首先,定义2考虑了密度随时间变化的因素,体现了数据流聚类的时态特征;其次,通过因子D (c ,t u )反映了不同空间区域密度稀疏不同对阈值的影响,越稀疏的区域阈值越小,从而能够处理具有倾斜分布特征的聚类.命题3. 如果t ≥t a ≥t b ,则时态密度阈值满足不等式σ(c ,t ,t b )≥σ(c ,t ,t a ).证明:由定义2可得: 0()001()00(,,)[(,)/]2[(,)/]2[(,)/]2[(,)/]2[2(,)/]2[(,)/]2(,,).b aa b a b a a a b a t t ib b i t t t t i b i t t t ti i b b i i t tt t t t ia i t t ia i a c t t D c t M D c t M D c t M D c t M D c t M D c t M c t t λλλλλλλσσ−−=−+−−=−−−−==−+−−−=−−====+≥≥=∑∑∑∑∑∑结论成立.□命题3表明,同一单元格在不同的时间起点t u 对应的时态密度阈值函数是不同的. 3 基于时态密度的聚类k 维数据空间可以看作是一张无向图,一个单元格就是图中的一个结点.称这个图为时态密度图,简称为密度图,其中每个结点存储了对应单元格的时态密度.定义3(密度图). k 维数据空间的密度图是一个二元组〈V ,E 〉,其中:(1) V 是结点的集合,每个结点记录了对应数据空间中的对应单元格的坐标和时态密度;(2) E 是边的集合,当且仅当两个结点c a (c a 1,c a 2,…,c ak )和c b (c b 1, c b 2,…,c bk )满足D (c a ,t )>0,D (c b ,t )>0,且存在j (1≤j ≤k ),使(a) c ai =c bi ,i =1,…,j −1,j +1,…,k ;(b) |c aj −c bj |=1同时成立,则结点c a 和c b 之间存在边〈c a ,c b 〉,此时称这两个结点是相邻的.密度图中的连通性遵循图论中连通性的一般理论.下面,我们在图论中连通分量的概念基础上给出密度连通分量的定义.定义4(密度连通分量). (1) 如果一个结点c 在时刻t 的时态密度D (c ,t )≥σ(c ,t ,t u ),则称该结点是稠密结点.(2) 如果两个结点c a 和c b 是稠密结点且是相邻的,则称它们是稠密相邻的.(3) 如果一个连通分量中的任意两个相邻结点都是稠密相邻的,则称该连通分量为密度连通分量.定义5(时态密度簇). 一个时态密度簇就是密度图中的一个密度连通分量.命题4. 密度图中的任何一个结点只属于一个时态密度簇.杨宁等:一种基于时态密度的倾斜分布数据流聚类算法1035证明:用反证法.图论中连通分量定义为图中的最大连通子图.假设某结点属于多个聚类,由定义5可知,这些簇都是连通分量,则这些连通分量通过该结点相邻,这与连通分量的定义矛盾.原命题成立. □定义5表明,查找聚类得到的簇,就是找出密度图的各个密度连通分量.由于密度图的稀疏特性,为了高效完成密度连通分量的查找,需要设计一个既能保存拓扑信息和时态密度信息,又能紧凑存储稀疏密度图的数据结构.本文在文献[15]提出的索引树结构基础上加以扩展,设计了时态密度树,使其能够存储单元格的时态密度和时间戳,并加入额外的链接指针以便灵活地遍历叶子结点.定义6(时态密度树). k维数据空间D=D1×D2×…×D k的时态密度树是一个三元组〈DimNodes,DenNodes, Edges〉,其中:(1) Edges是时态密度树中边的集合;(2) DimNodes是维结点集合.维结点的结构为〈i1,p i1,i2,p i2,…,i n,p in,s〉,其中,i m(1≤m≤k)是第i维中数据不为空的区间的编号,且i1<i2<…<i k;p im是指向下一维关联区间的指针;s是指向兄弟结点的指针;(3) DenNodes是稠密结点集合.稠密结点的结构为〈c,e,cN,tU,s〉,其中,c是该结点对应单元格的坐标,e为其时态密度,cN是该单元格所属簇的编号,tU是该结点所对应的单元格的时态密度最近一次被更新的时间,s是指向下一个兄弟或者堂兄弟结点的指针.维结点分布在0~k层.第i层的维结点代表第i维D i中有数据的分区.稠密结点位于时态密度树的叶子层,即第k+1层.一个稠密结点存储一个单元格的时态密度值.所有的稠密结点通过s指针链接成一个单链表,并用根结点的s指针指向第一个稠密结点.由于叶子结点都出现在同一层,所以时态密度树是一棵平衡树.图2是一个2维数据空间的时态密度树.在图2(a)中,单元格c(1,4),c(2,3),c(2,4),c(4,3),c(4,4)的时态密度大于0,图2(b)是其对应的时态密度树.第1层根结点是对D1维的非空数据区间的索引,第2层结点是对D2维的非空区间的索引.k维数据空间的时态密度树高度为k+1.从图2可以看出:(1) 时态密度树只存储时态密度不等于0的单元格;(2) 时态密度树保存了单元格间的位置关系.由于稠密结点保存了单元格的坐标,因此可以迅速判断两个单元格是否相邻,从而加速查找密度连通分量.一个稠密结点对应一个单元格,为方便描述,下文的叙述中认为二者是等价的.E E E E E1234512345D1D2(a) (b)Fig.2 Examples of temporal density tree图2 时态密度树示例4 基于时态密度的聚类算法TDCA基于时态密度的数据流聚类算法TDCA借鉴了CluStream算法[9]的处理方式,分为在线维护和离线聚类两个部分.在线维护部分周期性地更新时态密度树,离线聚类部分完成聚类任务.TDCA算法采用时态密度树结构,实现密度图的高效存储和结点的检索.算法1描述了TDCA算法的主要步骤.1036 Journal of Software软件学报 V ol.21, No.5, May 2010算法1.TDCA(Period,k,v,M).输入:处理周期Period,维数k,数据流平均速率v,单元格数M.输出:基于时态密度的聚类.(1) initialize the root of temporal density tree; //初始化时态密度树根结点Root(2) initialize array Stream[]; //初始化数据流记录数组Stream[](3) while (1) {(5) delay the main thread Period seconds; //延迟Period秒(6) read the new data records into Stream[];(7) Size=the number of new data;(8) if (Size==0) goto (10);(9) update the temporal density tree; //更新时态密度树(10) if (demand of cluster){(11) clustering in a new thread;}} //在新的线程中完成聚类注意,在每个处理周期,如果有新的数据到达,则在线更新时态密度树(语句(9)).当收到用户聚类请求时,算法在新的线程中完成聚类处理(语句(11)),这个处理过程和算法的其余部分之间是异步执行的,实现了离线的聚类处理.算法2描述了更新密度树的过程.算法2.UpdateDenTree(Root,Stream[],Size,k).输入:时态密度树根结点Root,数据Stream[],数据数量Size,维数k.输出:更新后的时态密度树Root.(1) t=current time;(2) for each point in Stream[]{(3) C[]=the coordinates of Stream[i]; //数据点Stream[i]的k维坐标(4) for (int j=0;j<k;j++){ //处理0~k−1维坐标(5) if (at level j, no nodes containing C[j]){ //第j层中还没有包含C[j]的结点(6) generate a new DimNode or DenNode to index C[j];}} //生成相应的DimNode或DenNode(7) save the old value of temporal density of the density node; //保存稠密结点中的旧密度值(8) update the temporal density of the density node; //根据命题1更新时态密度(9) if (the node is non-density) delete the node;} //根据定义4(1)删除非稠密结点当新的数据到达时,如果此时还没有对应的稠密结点,则算法2最终将包含该数据的稠密结点;如果已经有对应的稠密结点,则算法2在命题1的指导下(语句(8))更新该稠密结点记录的时态密度.易知,算法2的时间复杂度为O(vk),其中,v是在一个处理周期内到达的数据点的数量,k是维数.算法3给出了离线聚类算法.算法3.GetEvolDenCluster(Root,v,M).输入:时态密度树根结点Root,数据流平均速率v,单元格数M.输出:更新后的时态密度树,各个稠密结点所属簇的编号ClusterNo被标记.(1) D=Root→sibling;(2) while (D!=NULL){(3) if (D→clusterNo!=0) continue;(4) SearchDenConnSubgraph(D);(5) D=D→sibling;}算法3对时态密度树中的所有稠密结点所属簇的编号进行标记.命题4保证了运行算法3以后,所有稠密杨宁等:一种基于时态密度的倾斜分布数据流聚类算法 1037 结点属于而且只属于一个簇,且所有簇都被找到.算法3中语句(4)调用SearchDenConnSubgraph 函数,实现从一个稠密结点出发,标记同一个簇中的所有结点,其过程由算法4给出.算法4. SearchDenConnSubgraph (D ,v ,M ,k ).输入:稠密结点D ,数据流平均速率v ,单元格数M ,维数k .输出:包含结点D 的密度连通分量中的结点的ClusterNo 被标记.(1) static int ClusterNo =1; //未用的聚类编号(2) t =CurrentTime (); //取得当前时间(3) if (D →clusterNo ==0)(4) D →clusterNo =ClusterNo ++;(5) C [][]=the coordinates of all the neighbours of D ; //D 的所有邻接点的坐标(6) for (int i =0;i <2×k ;i ++){ //最多2×k 个邻接点(7) N =SearchDenTree (C [i ]); //查找邻结点(9) if (N →clusterNo ==0){ //标记簇编号(10) N →clusterNo =D →clusterNo ;}}算法4从输入结点D 出发查找D 的密度相邻结点(语句(7)),并做相同的簇标记(语句(10)).算法3和算法4是TDCA 算法的核心算法,它们的时间复杂度决定着TDCA 的运行效率.命题5和命题6给出了理论上的分析.命题5. 设维数为常数k ,单元格数最多为m ,常量c =2k 2,则算法4的时间复杂度为O (c ×lg(m )).证明:算法4的基本操作是查找密度树(语句(7)),则最坏情况下共要执行2k 次,而密度树中的结点(包括维结点和稠密结点)不超过m k 个,所以执行语句(7)的时间复杂度为O (k ×lg(m )),因此算法4的时间复杂度为O (2k ×k lg(m ))=O (c ×lg(m )),常量c =2k 2. □命题6. 设常量c =2k 2,单元格数最多为m ,则算法3的时间复杂度为O (c ×m ×lg(m )).证明:算法3的基本操作为调用算法4(语句(4)),若密度树中的稠密结点最多m 个,则由命题5可知,算法3的时间复杂度为O (c ×m ×lg(m )),常量c =2k 2. □如果单元格没有新的数据到达,则其时态密度将逐步衰减,对聚类的贡献也越来越小.当稠密结点衰减成为非稠密结点时,应当删除它,以尽可能地节约存储空间(算法2语句(9)).这里的关键是必须保证删除是安全的,即当以后该单元格有新的数据到达时,被删除时的单元格密度对以后的聚类也是没有影响的.下面给出的命题7和定理1保证了这一点.首先给出累积时态密度的定义.定义8(累积时态密度). 如果单元格c 每次被删除时都保存了当时的时态密度值和数据点,则这些时态密度值在时刻t 的累积之和称为单元格c 在时刻t 的累积时态密度,记为D α(c ,t ).命题7. 设D α(c ,t )是单元格c 的累积时态密度,并设历史上c 被删除了m 次,每次被删除的时刻为t i ,1≤i ≤m , 则有()1(,)(,)2(,)i m t t i i D c t D c t D c t λα−−==+∑.证明:设c 被删除的历史为(0,t 1),(t 1+1,t 2),…,(t m −1+1,t m ).由于每次删除后,新建立的单元格的密度从0开始计算,所以D (c ,t 1),D (c ,t 2),…,D (c ,t m )与D (c ,t )等彼此之间互不影响.因此,根据定义1和定理1,在当前时刻t ,各部分密度已经衰减为()2(,)i t t i D c t λ−−,所以()1(,)(,)2(,)i m t t i i D c t D c t D c t λα−−==+∑.□ 定理1. 设D α(c ,t )是单元格c 的累积时态密度,并设c 最近一次被删除的时间是t d ,最近有数据到达的时间是t u ,当前时间是t ,t d +1<t u <t ,σ(c ,t ,t u )是当前的阈值.如果D (c ,t )<σ(c ,t ,t u ),则D α(c ,t )<σ(c ,t ,0).证明:设单元格c 被删除的历史为(0,t 1),(t 1+1,t 2),…,(t d −1+1,t d ),由命题7可知,()1(,)(,)2(,)i d t t a i i D c t D c t D c t λ−−==+∑ (2)又由算法2语句(9)可知,D (c ,t i )<σ(c ,t i ,t i −1+1).所以由式(2)和已知可得:()11(,)(,,1)2(,,)i mt t a i i u i D c t c t t c t t λσσ−−−=<++∑.1038 Journal of Software 软件学报 V ol.21, No.5, May 2010 又已知t d +1<t u ,由命题3可知,σ(c ,t ,t u )<σ(c ,t ,t d +1),所以有()111()1112()121(,)(,,1)2(,,1)(,,1)2(,,1)(,,1)2(,,1)...(,,0).i i i m t t a i i d i m t t i i d i m t t i i d i D c t c t t c t t c t t c t t c t t c t t c t λλλσσσσσσσ−−−=−−−−−=−−−−−=<+++=+++=+++=∑∑∑结论成立.□ 定理1表明,即使一个单元格c 在其时态密度小于阈值时未被删除,它也不可能再次成为稠密结点.因此,算法2对非稠密结点的删除是安全的. 5 实验和分析实验平台:Intel Core 2双核CPU,主频2.0GHz,2级缓存4MByte,内存2GByte,Linux 操作系统,GCC 编译器.实验程序用C 语言编制.实验在仿真数据集上进行.在仿真环境下随机产生1000KB 具有稀疏、倾斜特性的数据.当不考虑数据随时间的衰减时,其数据分布如图3所示.实验包括4个部分,分别考察了衰减速度不同时TDCA 算法的聚类结果,验证了TDCA 算法能否有效捕捉聚类的时态特征,比较了TDCA 算法和其他典型的数据流聚类算法的功能,最后测试了TDCA 算法在数据集规模变化时的性能.Fig.3 Distribution of test data without decay图3 不考虑衰减时的测试数据的分布5.1 实验1:不同衰减速度时TDCA 算法的有效性图4是算法在速率v =100Kbit/s,衰减参数λ=3,2,1,0时的聚类结果,图中的一个点代表图3中按10等分的一个单元格.(a) v =100Kbit/s, λ=0 (b) v =100Kbit/s, λ=1(c) v =100Kbit/s, λ=2 (d) v =100Kbit/s, λ=3Fig.4 Result clusters with varying speed of decay图4 不同衰减速度时的聚类结果1201008060402001086420Cluster 1Cluster 2Cluster 3Cluster 4Cluster 5杨宁等:一种基于时态密度的倾斜分布数据流聚类算法1039图4显示了不同的衰减速度对聚类结果的影响.当衰减速度λ为0时,数据不衰减,所有的数据都参与最终的聚类.当衰减速度逐步增大时,较稀疏的聚类中时态密度衰减的效果更加明显,聚类2和聚类3中参与聚类的单元格数逐渐减少.当λ等于2时,聚类发生了分裂,出现了聚类4和聚类5.当λ达到3时,在λ等于2时出现过的聚类7因为没有新的数据到达而衰减后消失.所有衰减速度下,聚类1中的单元格数量保持不变,这是因为新数据引起的密度增加,超过了密度衰减的速度.5.2 实验2:聚类的时态特征图5显示了当数据速率为100Kbit/s,衰减速度为3时,t 1,t 3,t 5,t 7时刻的聚类结果.(a) Clustering at t 1 (b) Clustering at t 3(a) t 1时刻的聚类 (b) t 3时刻的聚类(c) Clustering at t 5 (d) Clustering at t 7(c) t 5时刻的聚类 (d) t 7时刻的聚类Fig.5 Clustering results of TDCA on different time图5 TDCA 算法在不同时刻的聚类结果图5表明,不同时刻的聚类结构发生了变化.这些变化包括:(1) 聚类的消失和出现.例如,聚类3在t 3时刻消失;聚类6在t 5时刻出现.(2) 聚类的合并与分裂.例如,在t 3时刻聚类3和聚类2合并;在t 7时刻聚类2分裂出聚类7和聚类8.(3) 聚类内部单元格的增减.例如,在t 1时刻单元格c (9,6)出现在聚类3中,在t 3时刻消失;单元格c (7,7)在t 3时刻出现在聚类3中.5.3 实验3:功能比较实验3在TDCA 算法和ACluStream 算法[14]之间进行功能比较.图6显示了ACluStream 算法的最终聚类结果.Fig.6 Clustering results of algorithm AcluStream图6 ACluStream 算法的聚类结果将图6和图5(d)比较之后可以发现,AcluStream 算法无法识别聚类2、聚类7和聚类8.这是因为ACluStream1040 Journal of Software软件学报 V ol.21, No.5, May 2010算法采用了全局的、固定的密度阈值,既无法区分同一时刻不同局部密度不同的聚类,又无法捕捉因为不同时刻同一局部的密度变化而造成的聚类变化.当密度阈值较大时,AcluStream算法无法识别局部密度较为稀疏的聚类2;同时由于密度阈值是固定的,不随时间而改变,因此无法识别在历史上曾经出现过、而后又因为衰减而逐渐消失的聚类7和聚类8.与之相反,TDCA算法因为所使用的密度阈值是一个不同区域历史密度和时间的函数,具有自适应的特性,因此能够识别在不同时间出现的较为稀疏的聚类(聚类2、聚类7、聚类8).5.4 实验4:性能测试图7显示了TDCA算法处理不同大小的数据集的运行时间.由图7可知,TDCA的运行时间和数据集规模呈现近似的线性关系,当数据规模增大时,TDCA表现出了良好的规模可伸缩性.其主要原因是TDCA算法采用增量的方式计算单元格的密度.根据命题1的结论,TDCA算法在更新单元格时态密度时,可以按照增量的方式进行计算,避免每次访问单元格中所有点,显著地提高了计算效率.根据命题5和命题6的结论,TDCA的时间复杂度为O(c×m×lg(m)),因此,当数据规模增大时,TDCA的性能保持了较好的适应性.Fig.7 Performance of TDCA图7 TDCA的性能6 结论和展望针对数据流聚类的难点问题,本文提出了一种新的数据流聚类算法——TDCA算法.与传统的数据流聚类算法相比,TDCA算法具有以下特点:(1) 具有坚实的数学基础;(2) 不需要关于簇个数的先验知识;(3) 能够同时处理数据流的时态特征和倾斜分布特征;(4) 具有较高的时间和空间效率.实验结果表明,由于考虑了数据空间不同局部的时态密度差异,TDCA算法不仅能够捕捉数据流时态特征,还能有效地处理数据倾斜分布的情况,同时识别稀疏程度不同的聚类.此外,理论和实验证明,TDCA算法具有较高的性能,时间复杂度不超过O(c×m×lg(m)).目前的算法只能处理欧氏空间的单数据流.在实际应用中,分布式环境下多数据流相互影响,相互作用,情况更为复杂;另一方面,越来越多的数据流存在于非欧氏空间.如何有效地将TDCA算法应用于非欧空间数据流和分布式环境下的多数据流中的聚类分析,则是我们进一步的研究方向.References:[1] Golab L, TamerOzsu M. Issues in data stream management. ACM SIGMOD Record, 2003,32(2):5−14.[2] Muthukrishnan S. Data streams: Algorithms and Applications. Boston: Now Publisher Inc., 2005.[3] Henzinger MR, Raghavan P, Rajagopalan S. Computing on data streams. Technical Report, SRC Technical Note l998-011, PaloAlto: Digital Systems Research Center, 1998.[4] Papadimitriou S, Sun J, Faloutsos C. Streaming pattern discovery in multiple time-series. In: Klemens B, Christian SJ, Laura MH,Martin LK, Per-Ake L, Beng CO, eds. Proc. of the 3lst Int’l Conf. on Very Large Data Bases. New York: VLDB Endowment, 2005.697−708.[5] Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data stream systems. In: Proc. of the 21st ACM Symp.on Principles of Database Systems (PODS 2002). New York: ACM, 2002. 1−16.。

基于时间倾斜的数据流聚集压缩算法

基于时间倾斜的数据流聚集压缩算法摘要：对于许多应用领域不断产生的数据流,面向数据流聚集查询的应用最为广泛。

本文在构造压缩桶的基础上，提出了基于时间维度压缩数据流的算法，来动态地形成压缩数据流,并进一步给出了使用压缩桶获得数据流聚集查询的数学方法。

关键词：数据流；压缩桶；聚集查询；时间维度abstract： in many fields, data stream continues to grow in terms of generation speed. aggregate query for data stream was most widely used. by constructing compression buckets, the authors provides in this paper a compression algorithm for data stream based on time dimension, in order to dynamically form compression data stream, and give mathematical method of aggregate query for data stream, by use of compression buckets.key words： data stream； compression buckets； aggregate query； time dimension0 引言数据流是随着网络的广泛应用而出现的一种新的数据形式。

数据流聚集查询是数据流管理与知识发现系统中一种重要的数据知识发现模型，但快速流动的流数据与有限的处理能力之间的矛盾使得流数据的聚集查询分析比关系数据库的聚集分析更困难。

目前国内外已经对数据流聚集查询模式展开了研究。

dobra a等人研究利用随机草图技术，提取数据流的轮廓，减少数据的处理量来加快数据处理速度，并提出了一种草图分割技术来提高算法的性能[1]。

基于衰减模型的混合属性数据流离群检测

第３７卷第５期　２０１０年５月　计算机科学　

Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　Ｖｏ１．３７　Ｎｏ．５　

Ｍａｙ　２０１０　

基于衰减模型的混合属性数据流离群检测　

苏晓珂　兰洋　秦玉明　程耀东。　（东华大学信息科学与技术学院　上海２０１６２０）　（信阳师范学院计算机与信息技术学院　信阳４６４０００）　（中国科学院高能物理研究所计算中心　北京１０００４９）。　

摘要数据流离群检测因内存容量限制和实时检测需求而成为离群检测的一个难点。介绍了一种快速混合属性数　据流离群检测算法。在衰减模型下增量聚类数据流，生成代表数据分布的聚类特征集合，半径阈值动态变化；当接收　到检测请求时，计算满足条件的每个簇的离群因子，具有高离群因子的簇作为结果输出。同时提出了一种可有效区分　离群簇与数据进化初始阶段的方法。算法的时间与空间复杂度同数据流规模近似成线性关系，在真实数据集上的实　验结果显示，该算法可有效检测混合属性数据流中的离群点。　关键词混合属性，数据流，增量聚类，离群检测，衰减模型　中图法分类号ＴＰ３９１　文献标识码Ａ　

Ｏｕｔｌｉｅｒ　Ｄｅｔｅｃｔｉｏｎ　Ｂａｓｅｄ　Ｏｉｌ　ｔｈｅ　Ｄａｍｐｅｄ　Ｍｏｄｅｌ　ｉｎ　Ｍｉｘｅｄ　Ｄａｔａ　Ｓｔｒｅａｍｓ　ＳＵ　Ｘｉａｏ－ｋｅ　ＬＡＮ　Ｙａｎ　ＱＩＮ　Ｙｕ－ｍｉｎｇ　ＣＨＥＮＧ　Ｙａｏ－ｄｏｎｇｓ　（Ｃｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｄｏｎｇｈｕａ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ　２０１６２０，Ｃｈｉｎａ）　（Ｓｃｈ￣Ｉ　ｏｆ　Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，Ｘｉｎｙａｎｇ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｘｉｎｙａｎｇ　４６４０００，Ｃｈｉｎａ）０　（Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｈｉｇｈ　Ｅｎｅｒｇｙ　Ｐｈｙｓｉｃｓ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１０００４９，Ｃｈｉｎａ）。　

聚类算法在时间序列数据处理中的应用研究

聚类算法在时间序列数据处理中的应用研究时间序列数据是许多实际问题中经常遇到的数据类型，如气象数据、股票价格、心电图等。

分析和挖掘时间序列数据中的规律和趋势是科学研究和商业决策中的重要问题。

聚类算法作为一种常用的数据挖掘方法，在时间序列数据处理中也具有广泛的应用。

本文将介绍聚类算法在时间序列数据处理中的应用研究。

一、时间序列数据的基本特征时间序列数据是指按照一定时间顺序采样得到的一系列数据点，其中每个数据点表示了某一变量在特定时间点的取值。

时间序列数据的基本特征包括趋势、季节性和随机性。

趋势是指时间序列数据中长期的变化趋势，可以是上升、下降或平稳的。

季节性是指时间序列数据中周期性出现的变化趋势，如一年四季的变化、一周七天的变化等。

随机性是指时间序列数据中不规律的波动或噪声，它在一定程度上反映了时间序列数据的不确定性。

二、聚类算法的基本原理聚类算法是一种将数据点组织成类别的无监督学习方法。

它通过计算数据点之间的相似度或距离，将数据点划分为若干个簇（cluster），使得同一簇内的数据点彼此相似，不同簇之间的数据点差异较大。

聚类算法的基本思路是将相似的数据点归为一类，不相似的数据点归为不同的类，从而得到数据的分类结果。

聚合层次聚类（Hierarchical Clustering）是一种常用的聚类算法，它基于一个层级结构将数据点进行分组，并且不要求在算法开始执行时指定聚类的数目。

聚合层次聚类有两种方法：凝聚聚类（Agglomerative Clustering）和分裂聚类（Divisive Clustering）。

凝聚聚类方法从单个数据点开始，按照相似度逐步合并为更大的簇；分裂聚类方法从所有数据点开始，按照相似度逐步分裂为更小的簇。

K均值聚类（K-Means Clustering）是另一种常用的聚类算法，它假设待聚类的数据点可以分为K个簇，并通过迭代的方式不断调整每个簇的中心点和簇成员，使得每个簇内的数据点彼此相似，不同簇之间的数据点差异较大。

数据科学中的时间序列聚类算法

数据科学中的时间序列聚类算法时间序列聚类算法是数据科学中一种重要的技术，它可以帮助我们发现时间序列数据中的模式和趋势。

在本文中，我们将探讨时间序列聚类算法的原理、应用和挑战。

首先，让我们来了解时间序列聚类算法的原理。

时间序列是按照时间顺序排列的一系列数据点的集合。

聚类算法的目标是将相似的时间序列数据分组，使得同一组内的时间序列数据相似度较高，而不同组之间的时间序列数据相似度较低。

时间序列聚类算法主要分为基于距离的方法和基于模型的方法。

基于距离的时间序列聚类算法使用距离度量来衡量时间序列数据之间的相似度。

常用的距离度量方法包括欧氏距离、曼哈顿距离和动态时间规整（DTW）等。

欧氏距离是最常用的距离度量方法，它计算两个时间序列数据点之间的欧氏距离。

曼哈顿距离是计算两个时间序列数据点之间的绝对值之和。

动态时间规整是一种比较灵活的距离度量方法，它允许对时间序列数据进行拉伸和压缩，以便更好地匹配。

基于模型的时间序列聚类算法使用数学模型来描述时间序列数据的特征。

常用的模型包括自回归模型（AR）、移动平均模型（MA）和自回归移动平均模型（ARMA）等。

自回归模型是一种线性模型，它使用过去的观测值来预测未来的观测值。

移动平均模型是一种平滑模型，它使用过去观测值的加权平均来预测未来的观测值。

自回归移动平均模型是自回归模型和移动平均模型的组合，它可以更好地描述时间序列数据的特征。

时间序列聚类算法在许多领域都有广泛的应用。

在金融领域，时间序列聚类算法可以帮助分析股票价格的波动模式，从而指导投资决策。

在医疗领域，时间序列聚类算法可以帮助识别疾病的发展趋势，从而提前采取预防措施。

在交通领域，时间序列聚类算法可以帮助分析交通流量的变化规律，从而优化交通管理。

然而，时间序列聚类算法也面临一些挑战。

首先，时间序列数据通常具有高维度和大规模的特点，这导致计算复杂度较高。

其次，时间序列数据通常具有噪声和缺失值，这会影响聚类算法的准确性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｒ一
而
（２）
２．１．１时间衰减模型
在实际的应用领域中，新数据往往比旧数据所包含的有价值的信息更多，根据数据流的遗忘特性来对数据流进行逐步衰减．遗忘特性是指数据流应用中对数据流中的近期数据比久远的数据更关注，对近期的数据会更多地关注其细节，而对较远的过去的数据，需要的主要是其大略的概况．因此采用时问衰减模型逐步衰减历史元组ｌ３ｊ．
要信息通过分析处理得到全局聚类结果．因此，分布式数据流聚类必须考虑通信开销问题，在处理数据流时，
需要考虑其分布的本质特征，在聚类精度与网络开销之间进行折中．
样本数据集的微聚类可用六元组特征结构进行定义：ＣＦ＝＝＝（ＣＦ２，ＣＦ１，Ｗ，， △Ｔ，ＳＷ）口］，其中ＣＦ２
为各元组的向量平方和，ＣＦ１为各元组的线性和，叫为权重，为元组的个数， △ Ｔ为元组在滑动窗口的停留的时间，ＳＷ为滑动窗口的实际大小．权重Ｗ定义如下：
分布式数据流模型有若干数据流来自多个平行的数据源，称之为局部站点．每个局部站点可以自行处理
数据流，形成各自局部站点数据流的聚类模型．在分布式环境中，不需要提交全部数据到中心站点，而是在局部站点根据衰减模型将局部站点得到的概要结构发送到中心站点．分布式结点对近期数据进行聚类时，局部
站点才与中心站点通信．这种模型各局部站点的进度同时进行，响应速度更快，由于向中心结点发送的是局
部站点计算过的局部模型，所以潜在地降低了通信负载．本文根据数据流的处理模型，提出了基于时间衰减的分布式数据流聚类算法（ＴＡＤＣＬＵ）．
２时间衰减的分布式数据流聚类算法
２．１问题定义
定义１微聚类特征
数据流模型的定义如下：数据流ＤＳ是由数据项＜，ｔ＞，＜，ｔ＞， …，组成Ｄ维元组的无限集合．这
个元组随着时间在不断变化，ｉ表示数据流中的样本点，ｔ表示该样本点进入或流出滑动窗口的时间．
［关键词］分布式数据流；聚类；时间衰减；滑动窗口［文章编号］ｌ６７２ — ２０２７（２０１３）０２ — ００８７ — ０４（中图分类号］ＴＰ３１１（文献标识码］Ａ
近年来，随着ｉｎｔｅｒｎｅｔ技术的广泛应用，在许多领域中出现了速度快、规模大、连续以流的形式存在的数据，称之为数据流．对数据流的挖掘，尤其是聚类已经成为数据库领域研究人员关注的热点．在传感器网络、通信数据管理等领域中，数据往往是分布式的．传统的集中式挖掘方法在分布式网络环境中显现出了很大的弊端．由于硬件技术的快速发展，使从各个局部站点传输的数据更容易存储．分布式数据流聚类算法要求：每个站点能够对自己的数据流进行聚类，然后将聚类概要信息传送给中心结点．中心结点对所有其他结点的概
（２０１１ＺＲ１１）．
作者简介：陈春燕（１９８１一），女，山西霍州人，硕士，蚌埠医学院讲师，主要从事数据挖掘、聚类分析研究．
８８
太原师范学院学报（自然科学版）
第ｌ２卷
微簇半径为：
Ｗ一ｆ（ｔ —ｔ）（１）
收稿日期：２０１３－０１ — ２７
基金项目：安徽省优秀青年人才基金项目（２０１０ＳＱＲＬ１２６）；安徽省自然科学基金项目（１１０４０６０６Ｍ１５１）；蚌埠学院自然科学基金项目
ｕｎ．
基于时问衰减的分布式数据流聚类算法
陈春燕吕俊龙郭有强。
（１．蚌埠医学院，安徽蚌埠２３３０００；２．蚌埠学院计算机科学技术系，安徽蚌埠２３３０００）
［摘要］为了发现分布式数据流环境下的微簇，针对数据流的遗忘特性，提出一种基于时间衰
第１２卷
第２期
太原师范学院学报（自然科学版）
Ｖｏｌ・１２Ｎｏ・２
２０１３年６月
ＪＯＵＲＮＡＬＯＦＴＡＩＹＵＡＮＮＯＲＭＡＬＵＮＩＶＥＲＳＩＴＹ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）
减的数据流聚类算法．根据衰减模型增量式的处理局部站点，将局部模型发送给中心站点．中心站
点对局部站点的微簇进行合并，生成全局聚类模型．通过真实数据和仿真数据的实验表明，该算法
能够得到较好的聚类质量，并且有较好的伸缩性．