数据挖掘技术分析与研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术分析与研究

摘要:随着现代信息技术、网络、数据库技术的迅速发展及数据库管理系统的广泛应用,各种类型信息数据越来越多。数据挖掘就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。对大量数据进行高速的分析和提取。

关键词:数据挖掘;决策算法;遗传算法;近邻算法

中图分类号:tp301 文献标识码:a 文章编号:1674-7712 (2013)04-0065-01

一、数据挖掘概念及技术

数据挖掘就是又译为资料探勘、数据采矿。它是数据库知识发现(英语:knowledge-discoveryindatabases,简称:kdd)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其实实质是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。其方法如下:

(一)人工神经网络:数据挖掘中使用最为广泛的技术,神经网络的数据挖掘方法就是通过模仿人的神经系统来反复训练学习数

据集,从待分析的数据中发现用于预测和分类的模式。神经元网络

适用于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、关联、演变分析和离散点分析。

(二)决策树归纳算法:从关系数据库中提取关联规则是主要的数据挖掘方法之一,挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式,适合于探测式知识的发现,广泛用于医学、制造和生产、金融分析、天文学和分子生物学。

(三)遗传算法:分类和预测是数据分析的两种重要形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要方法包括:决策树,判定树、贝叶斯法、bp神经网络算法、遗传算法、粗糙集、模糊集等。预测方法有经典的统计方法、神经网络和机器学习等。

(四)近邻算法。是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这方面知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到宏观,以满足不同用户不同层次决策的需要。(五)规则推导:属于无指导学习。对象应该根据最大化类的相似性、最小化类的相似性的原则进行聚类或分组。

(六)复杂类型的数据挖掘:是数据挖掘技术的当前一个重要的研究领域,极大提升了crm数据分析能力的深度和广度,主要包括:多媒体数据挖掘、文本挖掘和web挖掘等。

二、数据挖掘的实施

数据挖掘研究具有广泛的应用前景,它可以应用于决策支持系

统,也可以应用于数据库管理系统,现在关键问题是如何实施,以下谈论数据挖掘步骤如下:

(一)理解数据和数据的来源(understanding)。

(二)获取相关知识与技术(acquisition)。

(三)整合与检查数据(integrationandchecking)。

(四)去除错误或不一致的数据(datacleaning)。

(五)建立模型和假设(modelandhypothesisdevelopment)。(六)实际数据挖掘工作(datamining)。

(七)测试和验证挖掘结果(testingandverification)。(八)解释和应用(interpretationanduse)。

由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。

三、数据挖掘应用现状和存在的问题

数据挖掘所有处理的问题就是在庞大的数据库中找出有价值的

隐藏事件,并且加以分析,获取有意义的消息,归纳出有用的结构,作为企业决策的依据。在零售业中商家从顾客购买商品发现一定的关系,提供打折购物卷等;保险金融行业利用数据挖掘可以辨别出欺诈行为;在企业中,半导体生产和测试过程差生大量数据,可以分析提高产品质量;可以电子商务网站进行分析,识别用户的行为

模式,优化网站,提供个性化服务。当前引用最广的领域包括:数据库营销、交叉分析的市场分析行为,客户流失性分析、客户信用记分、欺诈发现、客户群体区分。

目前面临的问题:(1)数据挖掘的基本问题是数据的数量和维数,数据结构非常复杂。(2)面对庞大的数据,现有的统计方法等都遇到了问题。(3)面对海量数据,对数据变化的情况汇总分析做出考量和评价。(4)对于各种不同的模型应用,其应用效果进行有效的评价。(5)如何对互联网等非标准数据进行分析。(6)数据挖掘过程中必须保证涉及到了数据安全性和隐私性,加强防护措施。(7)数据挖掘结果必须和专业知识结合。

四、数据挖掘未来发展的前景

数据挖掘基于关系模式、dbms系统、sql查询等语言的方法理论为基础,涉及多学科技术的集成,包括数据库和数据仓库技术、统计学高性能计算、模式识别、神经网络、、机器学习、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。有专门用于知识发现的数据挖掘语言;寻求数据挖掘中的可视化方法;在英特网上建立数据挖掘服务器并与数据库服务器配合,实现数据挖掘;加强对非结构化的数据挖掘如文本、图形视屏、图像、声音乃至于多媒体数据挖掘技术。交互发现、提供交互、个性化服务;能够自动完成知识的维护和更新。

参考文献:

[1]张洵来,张明杰.数据库挖掘技术的几种实现方法[j].计算机

科学,1998,10专刊:156-157.

[2]王珊.数据仓库技术及联机分析处理[m].北京:科学出版社,1998.

相关文档
最新文档