数据挖掘与数据库知识发现-统计学的观点

第!"卷第!期#$$#年$#月

工程数学学报%&’()*+&,-)./)--(/).0*12-0*1/34

5678!")68!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!,9:8#$$#文章编号：!$$;<=$>;（#$$#）$!<$$$!

"马江洪，张文修，徐宗本

（西安交通大学理学院，西安?!$$@"

）摘要：数据挖掘和数据库知识发现是当前国际科技界的一个研究热点。这是一个介于统计学、模式识

别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新兴学科，具有极为广泛

的应用前景。从统计学的角度来透视其中相关的统计问题，提出了传统统计学面临的挑战，以及

在这个领域将带来的一些新的研究方向。

关键词：数据挖掘；统计学；数据库；知识发现

分类号：*04（#$$$）A #B !$；A #C =$中图分类号：&#!#8!1C ="!文献标识码：*!引言

随着计算机技术和电子数据获取方面的不断进展以及因特网和各种局域网的广泛普及，人们获得的数据正以前所未有的速度急剧增加，最近几十年产生了很多超大型数据库，遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域。例如，美国著名零售商0D 70D E F 每天要做#千万次交易；美国电报电话公司*1G 1每天有!亿多

用户在远程网络上呼叫#亿多次；美孚石油公司计划存贮的有关石油开采数据将达!$

!@字节；美国国家宇航局)*4*的地球观测系统每小时产生;万兆字节的数据；

人类基因组计划也已收集了几千兆个相关数据。在这个充满数据的数字化、信息化时代，如此规模甚至更大的数据库将是人们不得不面对的一个越来越突出的问题。我们知道，数据库作为一种资源，本身并没什么直接的价值，有价值的是从中抽取到的知识和信息。但是，与这种巨大的“海量”数据相比，人们分析处理它们的能力以及从中获取知识的能力都存在着相当大的差距，形成所谓“数据过剩”而又“信息匮乏”的被动局面。那么，如何从这些大型数据库中发现有用的信息、模式和知识？如何开发有效的挖掘方法？已成为众多科技工作者共同关注的焦点。在过去几年，一个称为“数据挖掘”和“数据库知识发现”（H D F D0I J I J K G L J 6M 79N K

9H I O P 6Q 9E R

I JH D F D :D O 9，简称H 0G L H H ）的新领域得到了快速发展，这是一个介于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新学科，已在经济、商业、金融、天文等行业得到了成功的应用，在国际上掀起了一股空前的研究热潮（即，所谓的“数据淘金潮”）。我国学者在这个领域也已开展了很多研究，但涉及的人员主要来自计算机科学及相关领域，其它专业的研究者相对较少，究其原因可能是由于学科相隔、交流

"收稿日期：#$$!

，男，博士，副教授8研究方向：稳健统计和数据挖掘8基金项目：国家自然科学基金资助项目（@$!$!$#!）8万方数据