中国数据挖掘研究进展

第47卷 第4期2011年7月 南京大学学报(自然科学)

JOURNAL OF NANJING 

UNIVERSITY(NATURAL SCIENCES) Vol.47,No.4

July 檿檿檿檿檿檿檿檿檿檿檿檿檿檿殨殨

殨殨

2011数据挖掘专栏

中国数据挖掘研究进展

高 阳*

(南京大学计算机软件新技术国家重点实验室,南京,210093

)Progress of data mining 

in ChinaGao Yang

(State Key Laboratory for Novel Software Technology,Nanjing 

University,210093,China) 数据挖掘(data mining

)是一个从大规模数据中挖掘不平凡知识的专门技术,

目前已经在自然科学、

生物医学、经济学、社会学甚至文学研究中得到了广泛的应用.从传统任务分类的角度,数据挖掘技术可分为七类,分别是:分类,聚类,预测,关联规则,评估,可视化和复杂数据类型挖掘.

但数据挖掘技术近几年得到了迅猛的发展,已经扩展到社会网络分析、推荐系统、图数据挖掘、时空数据分析、特征选择等等新的

研究领域.

在中国,数据挖掘研究内容丰富,进展迅速,既包含了数据挖掘理论研究,又有相关应用;既有对经典的分类、聚类问题的讨论,又有对近年来兴起的特征选择等问题的研究.这些进展都很好地体现在本专栏中.

1 支持向量机的多分类问题

支持向量机(supp

ort vector machines,SVM)

理论的基本方法是将向量映射到更高维的空间里,在该空间里寻找一个最大间隔超平面,以使分类器的总误差最小化.经典SVM技术是一个两类问题的分类方法,

不能直接应用到多类问题中.常见的方法是构造多个二分类器来实现多类的分类,例如一对一法和一对多法.谢娟英等针对一对多方法中支持向量机可能存在的不可区分区域问题和样本不平衡的问题,提出了一种基于二叉树与双支持向量机的偏二叉树双支持向量机多累分类算法,既能保

证分类器的分类正确率,又能缩短分类时间[1]

2 粒子群优化算法的惯量权重研究

粒子群优化(p

article swarm optimization,PSO)是通过模拟鸟群的运动,而构造的随机优化算法.

在所有随机优化问题中,都需要平衡算法的利用(exploitation)和搜索(exploration)能力.在粒子群优化算法中,通过调整惯量权重来实现算法的利用和搜索.刘杨等系统分析了四

***基金项目:

国家自然科学基金重点项目(61035003),科技部国际科技合作计划项目(2010DFA11030)收稿日期:2011-01-22

通讯联系人,E-mail:gaoy@nj

u.edu.cn

种典型的惯量权重调整方法,并在10个不同的单峰和多峰函数上进行了对比实验.实验结果表明,对于单峰函数,用随机惯量权重法可以更快地找到更优的解;与此不同的是,对于多峰函数,凸函数递减法求解精度更高[2].

3 新型聚类方法研究

聚类是数据挖掘领域的经典任务,将数据分为不同的子集,使每个子集中的数据具有相似的属性或特征.其中K-means是一类最经典的聚类算法,但其在实际应用中仍存在受初始化聚类数影响,聚类速度慢等难题.申彦等的研究独具特色,其着重研究在面对大规模数据时,如何提高聚类效率和精度.申彦等利用部分有标记的数据,在聚类时只将部分数据保存进内存中,进行半监督聚类.申彦等所提出的方法可以应用到大规模数据的聚类任务中,有很好的应用前景[3].

4 基于粗糙集理论的特征选择研究

粗糙集(rough set)是上世纪80年代提出的对信息系统进行分析的理论,特别是粗糙集理论中的属性约简成为数据挖掘领域非常有用的数据预处理工具.在实际应用时,往往需要处理不完整信息系统.通过某种方式处理信息系统中数据缺失,但目前的不完整信息系统属性约简和特征选择方法都存在计算复杂度高的问题.谢娟英等在已有不完整信息系统快速属性约简算法基础上,提出一个前向顺序特征选择算法;并结合领域粗糙集模型,将算法推广到连续型不完成信息系统中.其所提方法在算法时间性能上优于现有的其他算法[4].

5 基于粒计算的流数据特征选择研究

非常有意思的是,本专刊还有另一篇特征选择的文章.不同于不完整信息系统,琚春华等文章是针对一类流数据,并且采用粒计算的理论加以研究.和粗糙集理论相似的是,粒计算(granular computing,GrC)也是近10年来新

兴的理论,并且也采用形式化的方法对数据、概念和知识进行表示和处理.流数据中的概念漂移是一类经典的数据挖掘任务.琚春华等提出一个隐含概念漂移的流数据形式化分析模型,基于粒计算理论分析概念的内涵、外延和概念偶合变化,从而给出了一个面向流数据的漂移特征选择方法[5].

6 自然语言处理研究

自然语言处理是一门采用计算的方法处理语言的语义等专门技术.随着技术的发展,越来越多的研究人员开始研究文本分类、自动文摘等应用问题,而这恰恰成为数据挖掘的一个重要应用研究方向.由于文本存在着复杂的语义,从事自然语言处理的研究人员往往需要收集海量的语料库,以支撑文本的分析.随着互联网的发展,研究人员逐步开始使用互联网上的信息作为新型的语料库.龚书等的研究即是采用维基百科作为在线概念语料库,利用维基中词条的半结构信息,为文档中的句子提取基于维基的特征,最终生成文摘.该方法能有效提升文摘质量[6].

7 信任网络研究

信任网络(web of trust)是近年来快速发展起来的数据挖掘技术之一,是社会网络分析的一种.在许多电子商务系统、推荐系统、以及社交网络系统中,利用信任网络技术可以提高网络社会的信任度,从而可以更可靠的发展网络应用.在信任网络研究中,核心问题是信任关系的传播,而这又依赖于不同用户(或商品)之间相似度的度量.等采用属性相似度概念,构建一个动态的信任网络模型,以使之适应交易的变化[7].

8 数据挖掘应用

数据挖掘技术被广泛应用到很多领域中,本特刊有选择性的刊发了三篇信号处理的应用.周雷等通过预测震动响应数据,设计和实现了一个低功耗的无线传感器节点[8].盲信号处理传统上属于自动控制等研究领域,近年来也

·

·南京大学学报(自然科学) 第47卷

会采用数据挖掘、模式识别等技术进行分析.王法松等放宽源信号的统计独立性假设,提出了一个基于独立子空间的自然梯度分离算法[9].人脸图像也可以看做是一类信号,谢志华等通过统计回归的方法,建立环境温度改变值和红外人脸温度变化值之间的二次多项式关系,从而得到温度归一化后的红外人脸[10].

综上所述,在本期数据挖掘专栏的十篇稿件中,研究范围覆盖了分类、聚类、特征选择等理论,同时也包括了盲信号处理等应用.但不足的是,本期特刊的选文对一些新兴的研究领域较少涉足,例如核方法、图模型等等.祝愿在中国计算机学会人工智能与模式识别专业委员会和南京大学学报的推动下,进一步推进中国数据挖掘技术领域的发展.

References

[1] Xie J Y,Zhang B Q,Wang W Z.A partial bina-ry tree algorithm for multiclass classification

based on twin support vector machines.Journal

of Nanjing Uniersity(Natural Sciences),2011,

47(4):354~363.(谢娟英,张兵权,汪万紫.基

于双支持向量机的偏二叉树多类分类算法.南

京大学学报(自然科学),2011,47(4):354~

363).

[2] Liu Y,Tian X F,Zhan Z H.Research on inertiaweight control approaches in particle swarm op-

timization.Journal of Nanjing Uniersity(Natu-

ral Sciences),2011,47(4):364~371.(刘 杨,

田学锋,詹志辉.粒子群优化算法惯量权重控

制方法的研究.南京大学学报(自然科学),

2011,47(4):364~371).

[3] Shen Y,Song S L,Zhu Y Q.A clustering algo-rithm for scalable datasets based on semi-super-

vision technology.Journal of Nanjing Uniersity

(Natural Sciences),2011,47(4):372~382.

(申 彦,宋顺林,朱玉全.一种基于半监督的

大规模数据集聚类算法.南京大学学报(自然

科学),2011,47(4):372~382).

[4] Xie J Y,Li N,Qiao Z R.Feature subset selec-tion algorithms for incomplete decision systems

based on neighborhood rough sets.Journal of

Nanjing Uniersity(Natural Sciences),2011,47

(4):383~390.(谢娟英,李 楠,乔子芮.基于

邻域粗糙集的不完整决策系统特征选择算法.

南京大学学报(自然科学),2011,47(4):383~

390).

[5] Ju C H,Shuai Z Q,Feng Y.Granular compu-ting based concept drift features selection for

business data streams.Journal of Nanjing Uni-

ersity(Natural Sciences),2011,47(4):391~

397.(琚春华,帅朝谦,封 毅.基于粒计算的商

业数据流概念漂移特征选择.南京大学学报

(自然科学),2011,47(4):391~397).

[6] Gong S,Qu Y L,Tian S F.Multi-documentssummarization utilizing semantics in Wikipedia.

Journal of Nanjing Uniersity(Natural Sciences),

2011,47(4):398~406.(龚 书,瞿有利,田盛

丰.基于维基语义的多文档文摘研究.南京大

学学报(自然科学),2011,47(4):398~406).[7] Shao D,Wang J.Preferred buy mechanism:Atransaction pattern for building web of trust in

E-commerce.Journal of Nanjing Uniersity(Nat-

ural Sciences),2011,47(4):407~413.(邵 

丹,王 健.一种构建电子商务信任网的交易

模式.南京大学学报(自然科学),2011,47(4):

407~413).

[8] Zhou L,Yu Y,Li Z R,et al.Design of low-fre-quency wireless sensor for vibration acquisition

of offshore platform.Journal of Nanjing Unier-

sity(Natural Sciences),2011,47(4):414~

419.(周 雷,喻 言,李志瑞等.海洋平台振动

采集的超低频无线传感器设计.南京大学学报

(自然科学),2011,47(4):414~419).

[9] Wang F S,Zhang L R.Independent subspace a-nalysis for blind signal separation using natural

gradient algorithm.Journal of Nanjing Uniersi-

ty(Natural Sciences),2011,47(4):420~425.

(王法松,张林让.基于自然梯度的独立子空间

盲信号处理方法.南京大学学报(自然科学),

2011,47(4):420~425).

[10] Xie Z H,Liu G D,Wu S Q,et al.Infrared facetemperature normalization using statistical re-

gression model.Journal of Nanjing Uniersity

(Natural Sciences),2011,47(4):426~431.

(谢志华,刘国栋,伍世虔等.基于统计回归模

型的红外人脸温度归一化.南京大学学报(自

然科学),2011,47(4):426~431).

·

·

 第4期高 阳:中国数据挖掘研究进展

相关文档