大数据参考文献

大数据参考文献
大数据参考文献

大数据研究综述

陶雪娇,胡晓峰,刘洋

(国防大学信息作战与指挥训练教研部,北京100091)

研究机构Gartne:的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。

麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的赞据焦合。

数据挖掘的焦点集中在寻求数据挖掘过程中的可视化方法,使知识发现过程能够被用户理解,便于在知识发现过程中的人机交互;研究在网络环境卜的数据挖掘技术,特别是在Internet上建立数据挖掘和知识发现((DMKD)服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化或半结构化数据的挖掘,如多媒体数据、文本数据和图像数据等。

5.1数据量的成倍增长挑战数据存储能力

大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好的系统可用性,小能有效存储视频、音频等非结构化和半结构化的数据。目前,数据存储能力的增长远远赶小上数据的增长,设计最合理的分层存储架构成为信息系统的关键。

5.2数据类型的多样性挑战数据挖掘能力

数据类型的多样化,对传统的数据分析平台发出了挑战。从数据库的观点看,挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模的小断增大,算法的效率逐渐成为数据分析流程的瓶颈。要想彻底改变被动局面,需要对现有架构、组织体系、资源配置和权力结构进行重组。

5.3对大数据的处理速度挑战数据处理的时效性

随着数据规模的小断增大,分析处理的时间相应地越来越长,而大数据条件对信息处理的时效性要求越来越高。传统的数据挖掘技术在数据维度和规模增大时,需要的资源呈指数增长,面对PB级以上的海量数据,N1ogN甚至线性复杂度的算法都难以接受,处理大数据需要简单有效的人工智能算法和新的问题求解方法。

5.4数据跨越组织边界传播挑战信息安全

随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,不仅是没有价值的数据大量出现,保密数据、隐私数据也成倍增长,国家安全、知识产权、个人信息等等都面临着前所未有的安全挑战。大数据时代,犯罪分子获取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全性以及数据的多副本与容灾机制提出了更高的要求。要想应对瞬息万变的安全问

题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安全漏洞是保证信息安全的重要环节。

5.5大数据时代的到来挑战人才资源

从大数据中获取价值至少需要三类关键人才队伍:一是进行大数据分析的资深分析型人才;二是精通如何申请、使用大数据分析的管理者和分析家;三是实现大数据的技术支持人才。此外,由于大数据涵盖内容广泛,所需的高端专业人才小仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和统计学家、社会网络学家和社会行为心理学家等。可以预测,在未来几年,资深数据分析人才短缺问题将越来越突显。同时,需要具有前瞻性思维的实干型领导者,能够基于从大数据中获得的见解和分析,制定相应策略并贯彻执行。

大数据分析与处理方法分析

孔志文

(广东省民政职业技术学校,广州510310)

二、大数据分析的基本方面

大数据分析可以划分为五个基本方而。一是具有预测性分析能力。分析员可以通过数据挖掘来更好地理解数据,而预测性分析是分析员在数据挖掘的基础上结合可视化分析得到的结果做出一些预测性的判断。二是具有数据质量和数据管理能力。数据管理和数据质量是数据分析的重点,是应用在管理方而的最佳实践,通过数据的标准化流程和工具,可以达到一个预先设定好的高质量的分析结果。三是具有可视化分析能力。可视化是服务于分析专家和使用用户的,数据可视化是数据分析的基木要求,它可以通过屏幕显示器直观地展示数据,提供给使用者,还可以让数据自己说话,让使用者听到结果。四是具有数据挖掘算法。可视化是给数据专家和使用用户提供的,数据挖掘是给机器使用的,通过集群、分割、孤立点分析等算法,深入数据内部,挖掘使用价值,数据挖掘算法不仅要处理大量的大数据,也要保持处理大数据的运行速度。五是具有语义引擎。语义引擎能从“文档”中只能提取信息,解决了非结构化数据多样性带来的数据分析困扰,通过语义引擎,能解析、提取、分析数据,完成使用者所需要的信息提取。

三、大数据处理方法

1.大数据处理流程

大数据整个处理流程可概括为四步。一是大数据采集过程。用户端数据通过多个数据库来接收,用户可以通过这些数据进行简单的查询和处理,在大数据采集过程中,可能有大量的用户来进行访问和操作,并发访问和使用量高,有时可峰值可达上百万,需要采集端部署大量的数据库才能支持止常运行。二是进行大数据统计和分析过程。统计和分析是通过对分布式计算集群内存储的数据进行分析和分类汇总,通过大数据处理方法,以满足使用者需求,统计与分析主要特点和挑战是分析所涉及的数据量大,极大地占用系统资源。三是大数据导入和预处理过程。因为采集端木身有很多数据库,在统计和分析数据时,如果对这些海量数据进行有效分析,还应该把来自各个前端数据导入集中的大型分布式数据库,也可以导入分布式存储集群,导入后在集群基础上再进行简单的清洗和预处理工作,导入和预处理环节主要特点是导入数据量大,每秒导入量经常达到几百兆,有时会达到千兆级别。四是大数据挖掘过程。数据挖掘与统计分析过程不同的是数据挖掘没有预先设定好的主题,主要在依据现有的数据进行计算,从而实现一些高级别数据分析的需求,达到预测效果。

2.大数据处理技术

(1) Hadoop架构。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop具有可靠性,能维护多个工作数据副木,可以对存储失败的节点重新分布处理。它具有高效性,通过并行处理加快处理速度。具有可伸缩性,能够处理PB级数据。Hadoop架构的关键点是借助大量PC构成一个PC群难以实现对数据的处理。处理数据时,现分析数据,后结合分配的相应电脑处理数据,最后整合数据处理结果。

浅谈数据挖掘技术及其应用

舒正渝

<1.西北师范大学数信学院计算机系,甘肃兰州730070; 2.兰州理工中等专业学

校,甘肃兰州730050)

摘要:科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。

数据库管理系统的应用领域涉及到了各行各业,但目前所能做到的只是对数据库中已有的数据进行存储、查询、统计等功能,通过这些数据获得的信息量仅占整个数据库信息量的一小部分,如何才能从中提取有价值的知识,进一步提高信息量利用率,因此需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:数据挖掘与知识发现的理论与技术研究。数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。

2数据挖掘的定义

数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,简称KDD),比较公认的定义是由U. M. Fayyad等人提出的:数据挖掘就是从大量的、小完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先小知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。

3数据挖掘的过程

KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。整个知识发现的主要步骤有以下几点。

3. 1目标定义阶段

要求定义出明确的数据挖掘目标。目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的算法。

3. 2数据准备阶段

数据准备在整个数据挖掘过程中占的比例最大,通常达到60%左右。这个阶段又可以进一步划分成三个子步骤:数据选择(DataSelection),数据预处理(Data Processing)和数据变换(Data Transformation)。数据选择主要指从已存在的数据库

或数据仓库中提取相关数据,形成目标数据(Target Data)。数据预处理对提取的数据进行处理,使之符合数据挖掘的要求。数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

3. 3数据挖掘阶段

这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类型的数据挖掘方法。然后,针对该挖掘方法选择一种算法。完成了上述的准备工作后,就可以运行数据挖掘算法模块了。这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。

3. 4结果解释和评估阶段

根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于小能满足用户要求的模式,则需要退回到上一阶段。另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式。

4数据挖掘的研究方向

目前研究主要从以卜几个方面开展:<1)针对小同的数据挖掘任务开发专用的数据挖掘系统。一个功能很强的数据挖掘系统要能够处理各种类型的数据是小现实的,应当根据特定类型数据的挖掘任务构造专用的数据挖掘系统,如关系数据库挖掘,空问数据库挖掘等。<2)高效率的挖掘算法。数据挖掘算法必须是高效的,即算法的运行时问必须是可预测的和可接受的,带有指数甚至是中阶多项式的算法,没有实际使用价值。<3)提高数据挖掘结果的有效性、确定性和可表达性。对已发现的知识应能准确地描述数据库中的内容,并能用于实际领域。对有缺陷的数据应当根据小确定性度量,以近似规律或定量规则形式表示出来。还应能很好地处理和抑制噪声数据和小希望的数据。<4)数据挖掘结果的可视化。数据挖掘任务由非领域专家指定,所以希望最后发现的知识用用户理解的方式表达出来。<5)多抽象层上的交互式数据挖掘。交互式数据挖掘允许用户交互地精炼数据挖掘需求,动态改变数据焦点,逐步深化数据挖掘过程,从小同角度小同抽象层次上灵活地观察数据和挖掘结果。<6)多源数据挖掘。计算}) L网络把许多数

据源联接在一起,形成巨大的分布式异构数据库。小同来源数据的格式和语义小统一,数据挖掘系统应当能够帮助用户揭示异构数据库的高级数据规律。今后特别重视把数据挖掘技术与工nternet技术及weU技术紧密结合起来,开发出基于工nternet和WeU的数据挖掘软件工具。<7)数据挖掘的安全性和保密性。加强数据的安全性和保密性,防比侵犯别人隐私和泄漏敏感信息。<8)实现与现有数据库系统或数据仓库的无缝集成,进一步扩大数据挖掘工具的应用范围和提高现有数据的利用率。

5数据挖掘的应用领域

随着数据挖掘研究的小断深入,数据挖掘技术已逐渐成熟,它的应用也越来越广泛。从政府管理决策、商业经营、科学研究、司法、交通、传媒等各个领域,数据挖掘技术都有用武之地。

数据挖掘技术、应用及发展趋势

张春华王阳

(空军第二航空学院,长春130022)

2 KDD与数据挖掘

KDD (Knowledge Discovery In Database )—知识发现是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。DM (Data Iv&ning )—数据挖掘是KDD过程的一个重要步骤,它是从大量的、不完全的、不噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

一个典型的数据挖掘系统,一般是由图1所示的几个部分组成。数据库或数据仓库服务器,存储着用户将要挖掘的,所感兴趣的数据。知识库是领域知识的一个应用,它用于引导搜索或评估挖掘的结果模式是否有意义,是知识的不同属性或属性值进行不同层次的抽象。数据挖掘引擎是数据挖掘系统所必不可少的部分,理想的是由一些列而向任务的功能模块组成,如特征分析、相关分析、分类、评估以及偏差分析。模式评估模块运用各种兴趣尺度对得到的模式进行评估同时还与数据挖掘掘模块进行交互,使挖掘的方向集中在感兴趣的模式上。用户的图

形界而接口是用户和数据挖掘系统交互的接口。允许用户指定有关参数的值,直接参与到数据挖掘的查询、搜索中。

3数据挖掘方法与技术

3. 1数据挖掘常用的方法

DM的技术基础是人工智能,人工智能是以自动机为手段,通过模拟人类宏观外显的思维行为,从而高效率地解决现实世界问题的科学和技术。DI\」仅仅利用了人工智能中一些已经成熟的算法和技术,下而介绍数据挖掘和知识发现的几种常用方法。

3.1.1人工神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。

3. 1. 2遗传算法

遗传算法是模拟生物进化过程的算法,由三个基本算子(或过程)组成:繁殖(选择)、交叉(重组)、变异(突变)。

3. 1. 3决策树方法

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息

量的属性宇段,建立决策树的一个结点,再根据该属性宇段的不同取值建立树的分支;在每个分支集中重复建立树的下层结点和分支的过程国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法。

在数据采掘和知识发现中应用的人工智能技术还有邻近搜索方法、集合论的粗集方法、规则推理、模糊逻辑、公式发现,等等。

3. 2数据挖掘的分析方法

Dn」系统利用的技术越多,得出的结果精确性就越高,从功能上可以将Dn」的分析方法划分为以下四种:

3. 2. 1关联分析

关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI, STEM,AIS , DHP等算法。关联分析的口的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的顾客在一次购买活动中购买商品A的同时购买商品B',之类的知识。关联分析就是生成所有具有用户指定的最小置信度和最小支持度的关联规则。

3. 2. 2)字列模式分析

序列模式分析和关联分析法相似,其口的也是为了采掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。运用序列模式分析销售记录,零售商则可以发现客户潜在的购物模式,例如客户在购买微波炉前常购买何种商品。

3. 2. 3分类分析

设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。

3. 2. 4聚类分析

与分类分析法不同,聚类分析法的输入集是一组未标定的记录,也就是说此时输入的记录还没有进行任何分类。其口的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。此外还如下的有关方法:预测模

型、数据库分段、联系分析、偏差检测、可视化等等。

3. 3数据挖掘的应用

I}」技术旨在发现隐藏在大量数据之间的尚未被认识的知识,因此数据密集型领域是I}】的主要应用方向,这些行业有金融、教育、科学研究、医疗卫生、产品制造、市场营销、社会治安等等,很多期刊和会议文献都有介绍和分析,本文不在赘述。

数据挖掘技术及其应用

孙义明曾继东

北京2861-6分箱

三、数据挖掘技术

数据挖掘是指以提取隐含的定性关系为目的、利用先进商业软件工具对海量数据资料进行的计算机辅助分析。虽然普通的数据库访问方式也能获取与预期结果相符的信息,但数据挖掘技术更加注重对先前并不为分析人员所知的隐含模式和关系的发掘。通过用数学方法对入库信息进行系统筛选,数据挖掘有助于识别用其他方式很难发现的重要倾向和模式。

1.节点分析

节点分析的目的是确定完全不同的异体之间的关系,而仅从表面上看它们之间并没有明显的关联。节占指的早柑壮分举图中的分离点.存此图中.一织数据可根据多种不同算法分成完全不同的类别。

从根节点的划分(第一分离点)开始,后面的每一节点都应用一种检测标准,这种方法一直延续下去,直到到达树状结构图末端的分离停止处,也就是到达终端节点。如果一切进展顺利,在这些终端节点就会发现,已成功分离出所关注的组成员。"A级威胁”小组成员称,“在受关注类别中包括`9} 11’劫机犯之一—穆罕默德·阿塔的名字。”

这一方法类似于用硬币分离器将1分、5分、1角和2角5分硬币按规格大小分开。这时的检测标准是尺寸大小。当然,当操作对象不是硬币而是涉及更复杂分级和更抽象标准的数据资料时,这种分类远非如此简单直接。最理想的情况

是终端节点单一明了,比如说只包含单独一类成员。但是,在实际操作中难免会出现误分类,因而这些模式需要进一步精确。

2.数据准备

数据挖掘是被称为数据库知识发现(KDD)庞杂程序的组成部分,整套程序包括数据清理、融合、筛选、转换和挖掘,以及模式评估及最终的认识表达。在探讨过程中,数据挖掘一词常常用来描述整个过程,然而,作为数据挖掘先导的数据准备往往比实际挖掘更加费时。

数据挖掘方案初期需关注的较重要事项之一,是仔细研究待分析数据的类型。数据可分为两类:结构化数据和非结构化数据。结构化数据驻存在磁盘或文件的固定区域,相关数据库和电子数据表就是典型的结构化数据。不在固定位置驻存而是以松散形式存在的数据(如文本文档或图像)称为非结构化数据。它们各自的字词很少带有关联信息,但组合到一起就会形成一种语境,其含义可归结为字词的集合,但对任何一个单字来说又不具必然性。同样,就图像而言,人们通常都是从整体上来解释一幅图,而不是分析其各个部分。然而,对于机器识别来说,可能只需几个特征就能完成一次精确识别。

非结构化数据可分为两个基本类别。第一类是固有的、非语言基础的文件,如图像、视频或音频文件。第二类是基于书写或打印语言的文本文件,如文字处理文档、电子邮件或电子数据表。尽管存在显著差异,这两类非结构化数据都能以相同方式进行处理。一种标准处理方式倾向于从文本中识别和提取关键特征,而后该文本又可作为分析数据使用。这个被称作特征提取的过程,是对非结构化数据进行挖掘的一个关键步骤。

数据整理具有减少内存需求和询问反应时间的计算优势,因而通常有利于待分析数据量的精简。特征提取是通过对基于关键字组合的原始数据进行分析,生成一组新的、更加简洁的数据。特征提取还可用于图像中实体目标的识别或分类。

假如有人驾驶飞机、无人机和卫星上多光谱传感器的功能得到扩展,只需提取最显著的特征,就可从庞大的图库中发掘出一个特定区域。例如,树叶纹络和颜色、道路样式、甚至是邻近建筑的外形,都能够从无人机拍摄的实时影像中提取出来,并可从中挖掘出应用了关联规则分析方法的模式。关联规则分析用来描述多条信息一起出现或相互关联的情况,并能利用经过提炼加工的图像资料来揭

示先前可能并未发现的、非相关区域之间的关系,比如预示有地下掩体的地形地貌和道路连通方式。

3.分类预测

结束信息采集和加工后,可利用多种方法对数据资料进行模式化处理。这些挖掘手段旨在识别那些可用于未来预测的现有数据资料的特征。关联规则挖掘可用来描述多条信息一起出现或相互关联的情况,关联规则通常是“如果……,那么……。”的构成形式。这些方法可用于营销研究,以确定产品布局,或者是通过对制造爆炸装置最有可能购买的物品的确认来实现预防犯罪的目的。利用关联规则对某国军事基地之间的车辆活动进行挖掘分析,从而确定该国是在转运剩余物资还是在进行战争准备。

分类预测术属于古时候的发明,人们利用这种技术创造出一个模型,以便对未来数据中的类似事件进行预测。此产品由一种能够将分类数据归类的分类树构成。分类法是一种能够将某些受关注特征从对象总体中分离出来的普通方法,其基础是来自于一套己知训练数据的模型。这些训练模型可用来识别和预测未知数据的类似模式。

作为最古老的数据挖掘方法之一的聚类分析法和最近邻分类法的原理十分简单,即具有共性的事物之间比无共性的事物之间的联系更为紧密。

分类预测会产生误分类风险。误分类问题的典型案例出现在1999年春天,当时美国防部将原有的一个项目分配给了美陆军情报与保密司令部信息控制中心。此项目旨在利用数据相关工具确定那些方法是否适用于反情报作战。这次实验的目的是确定数据挖掘能否识别前方公司存在对中国的技术泄密风险。大量关联图表揭示了技术转让的诸多途径,其中涉及一些知名人物,例如时任斯坦福大学教务长的康多利扎·赖斯和美国防部前任部长威廉·科恩。当然,这些误分类很容易识别,但方法问题和众多潜在(或错误)关联将严重损害用同一模式得出的其他分类的价值。

兼任美国众议院武装部队委员会和众议院国家安全委员会副主席的科特·韦尔登,2005年9月在参议院司法委员会的听证会上就“A级威胁”问题作证时称,虽然早在2001年就有人提出要废弃“A级威胁”,但一个新的数据挖掘项目己在美国防部内部得到了广泛提议。该项目呼吁组建一个名为‘`A级预测(Able

Providence )’,类似于“A级威胁”的小组,在海军情报部门负责人领导下从可公开利用的开放源信息中搜集情报。

4.文本挖掘

对于非结构化文本数据来说,作为从多种文本源中提取信息的结果,文本挖掘(数据挖掘的一种)是对先前未知模式的层层剥离。数据被联接起来,从而形成新的理论或引出深层含义。有人可能会把文本挖掘与使用互联网搜索引擎寻找信息这类做法联系在一起,但网上搜索只能查找那些已知的、有所记述的主题,而文本挖掘的目的是发现未知信息,很可能是以前没有明确记述的信息。通过对电子邮件信息、网上聊天室和其他文本源进行分析,文本挖掘可以成为一种用来搜寻潜在恐怖主义威胁的工具,美国隋报机构对此很感兴趣。在英语方面,文本挖掘已经是一项十分庞大和艰巨的任务,而其他语言文本使这项工作更加复杂。

常规数据挖掘与文本挖掘的一个重要区别是,文本挖掘是从自然语言文本中提取一些模式,而不是从实际常规系统的事实数据库中提取。从原始文本资料到内容总结过程中的用语提取,使文本资料中使用频率最高的字词和短语被罗列出来,而诸如连词之类的常用词并不包括在内。较为困难的是获得这些字频列表并用某种数学模式来确定是否能提取出有意义的内在关联。

文本挖掘的一种分析方式被称为潜在语义索引(LSI ),它更注重从文献库中提取字词的潜在含义(dimension )。换言之,一种普通语境被赋予了多种语义。Google 这类搜索引擎也会用到LSI,以改善同义和多义情况下的文件查询和信息检索。就同义来说,不同作者可能使用不同词语来描述同一种想法,因此,当一个人就某个主题进行查询、但使用的主题词与实际出现在文献中的并不相同时,

他可能就无法检索到这个文献。相反,就多义来说,同一词语可能有多重含义,因此,检索者有可能查到并非自己想要的、而是与其他备选含义对应的文献。应用LSI的目的是找到信息检索的最理想层次。

LSI充分利用概念性文献内容。举例来说,检索不是对个别项的搜索,而是一种概念性搜索,比如,别克、丰田和福特在概念上都是被视为汽车,而不是它们各自的标识。LSI的主旨是对可成图( mapped )字词的潜在语境或语句源予以确认。而后这些个别项被“成图”到一个能够将它们用数学方法表现出来的“概念空间”。遗憾的是,由于所有信息都是以不带语义的数字形式存在,人类并非很

容易就能理解此概念空间。这会使LSI难以理解,因而必须用专业软件完成结果解释并进行适当数值分配。针对同现词找出有意义的关联规则是文本挖掘面临的一个主要挑战。一个词(例如“炸弹,’)与其他不同的词(如“战争”或“百老汇,’)组合时。

数据挖掘技术及其应用

袁溪

(西安义理学院陕西西安11006.5)

1数据挖掘的概念

数据挖掘(Data Mining, DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理沦体系,是一个交叉学科领域,集成了数据库、人工智能、数理统计、可视化、并行计算等技术作为多学科综合产物的数据挖掘技术虽然历史较短,但从20世纪90年代以来,由于其面对海量数据处理的有效性使得它越来越引起人们的重视,发展速度很快从某种意义上说,数据挖掘(DM)是数据中的知识发现(KDD)的一个过程,然而,大部分学者认为KDD和DM是两个等价的概念,研究人工智能的人习惯称KDD,而研究数据库的人习惯称DM我们对KDD和DM不进行区分,统称为数据挖掘2数据挖掘技术

2.1数据挖掘的过程

虽然我们把各个步骤按顺序排列,但要注意数据挖掘过程并不是线性的。要取得好的结果就要不断反复重复这些步骤。

各步骤的内容如下

确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

(2)数据准备:①数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据②数据的预处理:研究数据的质量,为进一步的分析做准备。并确定将要进行的挖掘操作的类型。③数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3)数据挖掘:对所得到的经过转换的数据进行挖掘。除了选择合适的挖掘算法外,其余一切工作都能自动地完成

(4)结果分析:解释并评估结果其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

(5)知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。

2.2数据挖掘技术的任务

(1)关联分析:关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现且概率很高时,就存在某种关联,可以建立起这些数据项的关联规则例如,买面包的顾客有9 0 0,6的人还买牛奶,这是一条关联规则若商店中将面包和牛奶放在一起销伟,将会提高它们的销量。

(2)l列模式:通过时间序列搜索出重复发生概率较高的模式。序列模式分析非常适于寻找事物的发生趋势或重复性模式例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉,在所有购买了彩色电视机的人中,有60%的人再购买VCD产品

(3)聚类:数据库中的数据可以划分为一系列有意义的子集,即类在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念例如鸡、鸭、鹅等都属于家禽

(4)分类:分类是数据挖掘中应用得最多的任务。分类是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述。

(5)偏差检侧:偏差检测是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否是有意的诈骗行为,还是正常的变化如果是异常行为,则提示预防措施,如果是正常的变化,那么就需要更新数据库记录。

4数据挖掘技术的发展方向

数据挖掘面临着许多挑战性的研究问题,这也是该技术未来发展的一个方向

和趋势。

4. 1可仲缩的和交互的数据挖掘方法

与传统的数据分析方法相比,数据挖掘必须能够有效的处理大量数据,并尽可能是交互的由于收集的数据量不断剧增,因此对于单个和集成的数据挖掘功能,可仲缩的算法显得十分重要。它致力于在增加用户交互的同时,全面提高挖掘过程的总效率。

4. 2 Web挖掘

由于Web上存在大量信息,并且Web在当今社会扮演的角色越来越重要,Web内容挖掘.Web日志挖掘和互联网上数据挖掘服务将成为数据挖掘中最重要和兴旺的领域之一。

4. 3分布式数据挖掘

传统的数据挖掘方法是集中式的,在当今很多分布式计算环境不能很好的工作因此,分布式数据挖掘方法是未来一个重要的研究课题。

4.4可视数据挖掘

可视数据挖掘是从海量数据中发现知识的一种有效途径。可视数据挖掘技术的系统研究与开发将有助于推动和使用数据挖掘作为数据分析的基本工具。

4.5生物数据挖掘

尽管生物数据挖掘可以看做“应用探索”和“挖掘复杂数据类型”,但是生物数据独特的复杂性、丰富性、规模和重要性需要数据挖掘的特殊关注挖掘DNA 和蛋自质序列、挖掘高维微阵列数据、生物路径和网络分析,以及通过数据挖掘集成生物数据都是生物数据挖掘有趣课题。

数据挖掘技术及其在决策支持系统中的应用

Data Mining Technique and the Application in the Decision Support Systems

米浦波郭景峰

(燕山大学计算机科学系刘国华秦皇岛066004 a数据挖掘技术及其产生的结果

数据挖掘技术可以划分为五大类方法:预测建模法(Predictive Modeling),聚类

法(Clustering),概括方法(Summarization),相关模型法((Dependency Modeling)和变化及偏差探测法((Change and Deviation Detection)}l}o

预测建模法是在数据库中基于某些字段而对一个或几个字段进行预测,当被预测字段值是连续值时,预测问题是一个回归问题,线性回归分析法、神经网络可以解决回归问题;而当被预测字段值是枚举值时,这一问题是一个分类问题,遗传算法和决策树方法都是得到普遍使用的分类法。

聚类法又称为无指导的分类( Unsupervised Classification ),它的宗旨是实事求是的按被处理对象的特征将数据划分为各个子集。聚类法具体分为三种:距离度量法(Metric-distance based methods ),样本法(Model-based methods)和分割法(Partition-based methods )。它与分类的区别是分类是在训练数据集中进行,数据的类别是已知的。

概括方法要做的是产生各个数据子集的特征概括及寻找数据字段与字段间的关系。统计学的知识在前者用途广泛,而关联规则所要做的工作属于后者的范畴。

相关模型法是从数据中找到因果关系。通过导出数据中的不规则的结构,通常能加深对数据的理解。因果关系的模型既可以是随机产生的(如:关于概率分布控制数据的陈述),也可以是确定的(如:数据中字段间的函数相关性),密度估计法、不规则建模法[4]通常属于这一范畴。

变化及偏差探测法用来解释时间序列或其它类型序列的信息,如:量值随时间的变化;还有检测异常情况,如:分类中的反常实例,模式的例外,观察结果对模型预测的偏差。这一类方法的显著特点是对信息的观察次序很重要。

数据挖掘技术可以产生五种基本的数据类型。第一种是关联信息,它显示与单个事件相关联的信息,典型的例子是啤酒一尿布间题;第二种是序列信息,它显示了在总的时间内相链接的一些事件;第三种是分类信息,它是最常用的一种信息,描述了一组事物特性的模式;第四种是聚类信息,它把那些没有类别的数据聚类成多各类别,给用户“物以类聚”的宏观概念;第五种是预测信息,它可以通过使用隐藏在数据中的模型来估计一些数据的未来值。

3数据挖掘过程的各个阶段数据挖掘是从数据中识别真实、新颖、有用的、可理解的信息的复杂过程。尽管如今人们的研究重点放在对挖掘算法的研制、分

析与应用上,但数据选择和数据的预处理却是整个挖掘过程中最耗时的活动,并且它们的结果影响整个过程是否能够成功产生结果。图1描述了数据挖掘的一般过程,它是一个迭代过程。下面就过程的不同阶段分别描述。

3.4数据预处理

在挖掘算法开始执行以前还要进行一项复杂耗时的工作一数据预处理,它可以提高算法的精度,产生更可靠的结果,对决策支持更有效。

3.4.1侧除噪音

由于历史或人为的原因,数据库中不可避免的存在错误数据一噪音。错误有两类:属性错误和分类错误。噪音的干扰会大大降低算法的精度,所以要将它们删除掉。但噪音却是不可能完全避免的,许多挖掘算法采取各自相应的优化措施提高精度,如决策树建模法采用剪枝的方法[hl0

3.4.a遗失值填充

数据遗失值填充问题是预处理过程中的一个难点。如果将具有遗失值的数据删除掉,不仅会造成资源的浪费,还会丢失掉隐藏在数据中、数据挖掘任务所寻求的信息。尤其在数据量不大的情况下,对遗失值进行填充尤为重要。另一方面,对遗失值的不正确的填充却会引人新的噪音,产生负面影响。目前在解决这一问题上已经提出了许多解决方案。它们大多寻求数据中属性值与属性值之间的关系、属性与属性之间的关系、属性值与属性之间的关系来对遗失值进行填充[8]。在这一方面的研究中,我们引人“相似度”的概念,从数据与数据间的关系人手,提出一个基于决策树的遗失值填充的新算法。

3.4.3数据类型的转化

根据不同实际情况需要把数据的类型转化:将连续型数据值离散化或将离散型数据值连续化。例如使用决策树方法中的m3时,由于m3处理离散型数值,可利用二分法将数据中属性值为连续型的转化为离散型,然后在建立决策树。

3.5挖掘数据

这是整个挖掘过程的核心部分,也是人们当前研究工作的重点。许多算法被研制并得到使用、推广。已经有许多成熟的挖掘技术在实践中应用。如决策树方法在医疗[3]、金融领域[[91得到广泛的使用。一项挖掘工作是一个庞大复杂的工程,使用单一的挖掘方法通常无法完成任务,需要对多种方法综合使用。而技术的综合通常产生更高的效率,这也是挖掘技术未来发展的新方向之一。

3.‘评价挖掘结果及优化

在挖掘结果产生后通常要对结果进行评价,判断它的可靠性、可理解性及效率。如果一个挖掘结果是不可靠或是难于理解,那么它的可用性就会很低甚至是不可用的。对挖掘结果的评价也是对挖掘算法好坏优略的衡量。如在决策树算法中,通常把数据分为训练数据集和测试集,从训练数据集产生的决策树要在测试集中测试数据精确性,并进行优化。当精度太低时,就没有进行优化的必要了。

由于噪音不可完全避免,优化就显得尤为重要。如今,人们将各种方法综合使用,取长补短。如:在测试集中,用遗传算法对决策树进行优化,解决它的全局最优问题。

3.7结果的可视化

这是一个以什么样的形式将知识展现给使用者的问题。知识的表示方法对决策支持很重要,尤其是高层决策人士不了解具体的知识产生过程,恰当的表示对他们正确的选择、利用知识起关键的作用。传统的方法是将知识用公式、规则、表或图来表示。现在大多数的研究是如何利用可视化技术形象、生动、具体的表示挖掘到的知识。

4数据挖掘在决策支持系统中的应用

无论最终挖掘出来的结果是用来描述/理解、预测或是干预,我们寻求知识的目的都是为了运用知识,提高决策支持的能力。由于数据挖掘技术的发展,为决策支持系统开辟了新的发展方向,数据挖掘系统作为一个子系统在决策支持系统中发挥着重要的作用。如图2所示,描述了新决策支持系统的基本结构。

大数据分析与处理方法分析

孔志文

(广东省民政职业技术学校,广州 510310)

相关主题
相关文档
最新文档