已立项的自然科学基金标书

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、立论依据

(包括项目的研究意义和必要性、国内外研究现状和发展趋势分析,并附主要参考文献及出处。)

知识发现(Knowledge Discovery,KD)[1,2,3,4]是介于统计学、人工智能、数据库理论与技术等领域的一个非常活跃的交叉、新兴研究与应用领域,在金融、电信和市场销售等行业具有很好的应用前景,将成为未来几年内对工业产生深远影响的关键技术之一。随着信息化的不断深入,商业数据库正在以一个空前的速度增长,积累的数据呈现出高维、海量、异构[5]和分布[6,7,8]等新特征。因此,实际应用要求数据挖掘系统具有更好的针对性和适应性:如在挖掘得到的知识规模过大的情况下能对结果进行有效剪枝;当数据源中数据有噪音或丢失的情况下,仍能得到可接受的挖掘结果等。传统的数据挖掘理论、方法与模型难以满足新的应用需求,数据挖掘面临着新的挑战[9,10]。

统计学是收集、分析、表述和解释数据的科学;它通过对反映客观现实的有关数据的分析,用统计数字来描述客观对象的现存状况以及各种内部关系、外部联系、发展变化趋势等,为人们提供确切的、定量化的认识,作为判断与决策的依据。在数据挖掘作为研究课题正式提出之前,统计分析技术一直是人们进行数据处理的主要手段。但是随着社会信息化水平的不断提高,面对大规模的数据、总体漂移等问题的出现,传统的统计分析方法在有些方面显得力不从心。

由于学科相隔、交流不够导致涉及知识发现研究领域的人员主要是计算机及相关学科,其它专业的研究者相对较少;另一方面,统计学的发展没有和信息技术紧密结合,统计学在充分利用数学工具来完善理论的过程中,没有实时地关注信息领域对数据分析工具要求的变化,致使最新的统计方法由于缺乏相应的算法实现,从而在信息领域没有得到充分的施展。因此,国内外有些研究者考虑将具备较完善的理论基础和很强的数学背景的统计方法与其它数据挖掘技术结合加以灵活运用[11,12],以更好地解释数据:如1997年美国统计学会ASA和美国人工智能学会AAAI共同举办了第三届DM&KDD国际会议(KDD’97);中国人民大学统计学系数据挖掘中心的研究人员也积极开展了统计学和数据挖掘相结合方面的研究。所以如何有效地结合统计技术和其它数据挖掘技术推动知识发现研究的快速发展引起了国内外研究者的普遍关注。

有效地描述数据、知识及其关系,并对知识进行合理评价的方法、手段是实现知识发现的基础[13,14,15]。在这一领域的研究中,统计分析方法的引入具有重要的意义,如:利用统计相关性分析可在挖掘过程中对模式进行剪枝、对所发现知识的质量进行评价度量;由Pawlak于1982年提出的具有严格数学性质的粗集理论(Rough Sets)是一种研究不确定知识和数据的理论方法,该方法可以用于发现

不确定数据或噪声数据间的内在联系;将粗糙集与贝叶斯网络模型(Bayesian Network)用于知识的表示与提取方面,相比其它许多仅能表示有限种知识的模型,有很大的优势[16,17];其它还有如多元统计分析方法(Multivariable Analysis)等,每一种方法具有各自的特点和应用范围。

本课题将统计分析理论、方法与信息领域对数据分析工具的需求有机地结合起来,一方面为统计学理论研究的发展提供了新的动力,为统计分析方法应用于实际提供了更多的表现形式。另一方面,统计分析方法应用于知识发现过程,使得数据、知识有了更多的形式化表示工具;选择、设计恰当的应用于知识发现过程的统计分析工具、模型可以解决面向大规模数据库的知识发现过程中遇到的数据溢出、数据不完整等问题。因此,将具有成熟理论基础的统计分析方法和其它数据挖掘技术相结合,可以提高知识发现过程的效率、改善所发现知识的质量,更好地为应用决策提供准确、有效的信息和知识。本课题的研究具有重要的理论意义和现实意义。

参考文献:

[1] Dallas EJohnson.Applied Multivariate Methods for Data Analysts[M]. Duxbury Press,2005

[2] 丁军,高学东.粗糙集理论在个性化需求挖掘中的应用[J].信息技术与信息化,2007,2:56-58,68

[3] 李延来,蒲云,姚建明.MC下基于粗糙集的个性化需求挖掘模型[J].统计与决策,2006,10(期):19-22

[4] JiaWei Han, Micheline, Kamber. Data Mining - concepts and techniques [M]. San Francisco,CA: High Education Press, Morgan Kaufman Publishers,2001.

[5] W.J.Frawley,G.Piatetsky,C.Shapiro et al. Knowledge Discovery in Databases: An Overview[A]. In Piatetsky-Shapiro, W.J.Frawley eds. Knowledge Discovery in Databases[C]. Menlo Park, California: AAAI Press/The MIT Press,1991:1-27.

[6] U.Fayyad, G.Piatetsky-Shapim, R.Smyth. From Data Mining to Knowledge Discovery: An Overview[A]. In: U.Fayyad ed. Advances in Knowledge Discovery and Data Mining[C]. Menlo Park, California:AAAI Press, 1996:1-34.

[7] R.Uthorosamy. From Data mining to Knowledge Discovery: Current Challenges and Future Directions[a]. In: U.Fayyad ed. Advances in

相关文档
最新文档