数据挖掘技术过程与分类

数据挖掘技术过程与分类
数据挖掘技术过程与分类

2017年第12期18

方案与应用

信息技术与信息化

数据挖掘技术过程与分类

曾 怡 * ZENG Yi

摘 要 本文介绍了数据挖掘技术的基本过程和分类,基本过程包括数据梳理、数据集成、数据选择、数据变换

等。分类可以按数据库类型、知识类型、技术类型等。

关键词 数据挖掘;集成;分类

doi:10.3969/j.issn.1672-9528.2017.12.001

* 武汉交通职业技术学院 湖北武汉 430065

通常实际应用的数据具有随机性和模糊性,不但不完整而且包含噪声,我们从这些数据中提取有用部分的过程被称为数据挖掘[1]。以上定义包括如下4点含义:(1)数据源必须丰富、真实、且含有噪声;(2)选取的数据有价值,用户可以使用到实际生产中,且有实际意义;(3)挖掘到的数据是有效的、容易理解和接受的、且可运用于实际;(4)挖掘出的知识仅仅能指导某个问题,不一定需要适用所有领域。

数据挖掘即分析并处理海量、混乱无序的数据源,从中找出隐藏其间需要的知识,帮助用户判断和决策。更专业层次解释,数据挖掘就是采用算法从数据源中提取以前不为人所知,却有价值且实际为人所需的知识,对这些知识加以提炼,以规则、规律、模式和概念的形式表示出来。对挖掘出的数据和历史数据进行对比分析,决策人员运用专业知识找出数据内在的规则,帮助估计事件发展趋势和以后产生的结果。

1 数据挖掘的基本过程

在开始挖掘数据工作的时候,第一步必须弄清楚具体问题,明确数据挖掘的目的,根据目标合理安排任务计划。为达到已明确的数据挖掘目标,按照数据挖掘的基本程序,在数据源中寻求所需要的知识。数据挖掘的过程可分为三个阶段:挖掘工作开始前的准备阶段、数据挖掘阶段、解释和评价摘选出的数据[2]。

其中挖掘工作开始前的准备阶段又分为:数据疏理、数据集成、数据筛选、数据变换等步骤。1.1 数据疏理

由于数据源具有随机性、模糊性、片面性、数量大且含噪声等特点,我们必须进行清洗,具体内容为剔除重复数据、

统计并增加数据库中欠缺的数据、清除例似噪声干扰源、找出数据发生异常的原因并更正。该步序首先需要运用专业知识来透过现象看清本质,然后根据现象选择对应的方法清理数据。1.2 数据集成

将数据清理之前,我们可以通过物理或者逻辑的方法收集形式各样且具有各种特点的数据。由于数据处理软件不同、电脑办公系统不同等愿意造成数据类型存在差异。我们完成数据集成工作,需要处理好这些数据。1.3 数据选择

依据目的要求,从已经集成好的数据库中找出部分数据,将其摘取出来,作为数据挖掘的对象源。1.4 数据变换

摘取归纳出来的数据会有各种类型,需要我们将数据转换为适合操作的格式。例如:为顺利完成神经网络算法计算数据源,需要将离散值型数据转换为连续值型;为方便对数据源符号归纳,又需要将连续型数据整定成离散型。数据变换除了转换数据类型外,还有一个更重要方面就是将数据降维,降低数据库空间维数,用正确的特征或变量表示数据。1.5 数据挖掘

随着知识的更新,数据挖掘方法层出不穷,表现形式多种多样,究其原因数据挖掘已发展成为一门专业技术,在其自身发展过程中会吸收各领域科学知识和技术不断创新。从统计学角度对数据挖掘方法进行分类,包括:线性分析、非线性分析、时间序列分析、单变量分析、聚类分析等方法[3]。运用统计学的方法排除干扰源,找出非正常的数据,再通过数学方法对其分析,挖掘出内在联系和规律[4]。知识发现类技术,在数据挖掘过程中主要通过人工神经网络算法、粗糙

集、遗传算法等。

相关文档
最新文档