基于WEB的分布式数据挖掘系统研究

合集下载

基于Web服务的数据挖掘系统算法的设计

基于Web服务的数据挖掘系统算法的设计作者：刘佳来源：《电脑知识与技术》2013年第13期摘要：与传统的数据挖掘系统的算法库相比，在数据挖掘系统算法库中引入Web服务可以实现数据、算法和接口的分离，极大的缩减了算法库开发的复杂性并为动态管理算法库提供了便利。

此外，从标准的平台无关性的角度来看，采取Web服务的设计的系统具有了平台无关性和语言无关性的特点。

我们可以通过任何语言来实现将挖掘算法封装到Web服务中，并从程序设计语言中分离出来，这样就为算法设计提供了最大的自由度，提高了维护性能。

因此，基于Web服务技术的数据挖掘系统对于提高数据挖掘的效率具有非常重要的意义。

关键词：Web服务；数据挖掘；算法库中图分类号：TP311.13 文献标识码：A 文章编号：1009-3044（2013）13-2951-04数据挖掘是一个从大量不完整的、冗余的、模糊的并且随机的实际应用的数据中提取潜在的有用的信息和未知知识的一个过程[1]。

随着信息技术在社会中各个领域中的广泛应用，可以用数据挖掘进行提取的最初的数据也转变为较复合的、有组织结构或者半组织结构的内容，比如文本、图标、图片数据，甚至是网络中混杂的分布式数据[2]。

在数据外挖掘系统中，挖掘算法具有非常重要的作用。

一个有效的数据挖掘系统必须有各种各样的挖掘算法。

通常来说，这些挖掘算法不能同时被开发，但是通过算法的发展和对应用的要求，它们也都不断地得到相当大的改进。

通过最新的数据挖掘算法的研究，在数据挖掘系统中不但要有专用的、可共享的和动态维护的算法库，而且还要在现存的算法中增加新的算法来改进系统[3]。

难点在于传统的数据挖掘系统越来越适应于需求以至于很难再提升算法库。

因此，研究如何根据不同的算法动态添加挖掘算法和自动生成输入输出接口，从而实现数据挖掘算法的自动调用是本文的重点。

Web服务的结构本质上是面向服务的架构（SOA），SOA框架被专门用于解决应用整合领域里的两个难题——异质性数据和易变性数据。

基于Web搜索的数据挖掘系统的研究与实现

搜索算法基本都是使用模糊匹配，难搜索到所很有符合要求的信息。另外，如何从非格式化数据信息中有效地挖
（．ｃｏｌｆｏｕｅ１Ｓｈｏｍｐｔｒ＆ＩｆｒｔｎＥｇｅｒｇＣｈｎｚｏｓｔｔｆＴｃｎｌｇＣａｇｈｕ２３０；ｏＣｎｏｍａｏｎｉｅｎ，ａｇｈｕＩｔｕｅｏｅｈｏｏｙ，ｈｎｚｏ１０２ｉｎｉｎｉ
２ＹｎｉｇＳｈｏ，ｈｎｚｏｎｔｕｅｏｅｈｏｏ，ｈｎｚｏ１０２．ａｌｃｏｌＣａｇｈｕＩｓｔｔｆｃｌｇＣａｇｈｕ２３０）ｎｉＴｎｙ
收稿日期：０００ —７２１－７２基金项目：州工学院基金项目（０１）常ＹＮ７１作者简介：志琴（９８查１６一）女，士，，硕副教授。

的结果： ①搜索结果很多，往往有许多页，信息太过庞大； ②搜索到的数据信息大部分是无用信息，属于垃圾信息，且搜到信息的准确率不能保证； ③
第２４卷第１期２１０１年２月
常州工学院学报．
ＪｕａｆＣｈｎｈｕＩｔｔｔｆＴｅｈｏｌｙｏｒｌｏａｇｚｏｎｓｉｕｅｏｃｎｏｇｎ
Ｖｏ．４Ｎｏ．１２１
Ｒ．０１２１
基于Ｗｅ索的数据挖掘系统的研究与实现ｂ搜
ＷｅｉｅＷｅｇｓｅｃＤｅｌｇｗｉｈｔｅｅｄａｓａｃｍｐｌａｅｒｃｓ．ｅＣｌａｑｉｅｕｅｕａｎｂｓｔｓ，ｂｐａｅ，ｔ．ａｉｔｓｔｉｏｎｈａｉｔｄｐｏｅｓＷａｌｃｕｒｓｆｌｄｔａｄｃａｉｆｒｔｏｙｍｅｎｆｄｔｎｎＴｈｉａｒｍａｅａｒｓａｃｎｓａｃｉｇａｎｎｆｔｅＷｅａｎｏｍａｉｎｂａｓｏａｍｉｉｇ．ａｓｐｐｅｄｅｅｈｏｅｈｎｎｄｍｉｇｏｈｂｄｔｒｒｉａｎｖｌｐｅｅｆｓｓｅｉｈｐｒｏａｄｄｅｅｏｄａｓｔｏｙｔｍｓｗｈｃｅｆｒｅｅｃｎａｏｔｅＩｔｍｅｎｄｄｔｎｎｇａｄｃｅｔｄｍｄｓａｈｇｄｔｆｍｈｎｅｔａａａｍｉｒｉａｒｉｒａｅｎ

网格环境下基于Web服务的分布式数据挖掘

摘要：网格环境中进行分布式的知识发现和挖掘受到越来越多的关注。分布式环境在中，据常常是自治的，数异构的，地理是分布的。这种复杂的环境下进行数据挖掘与传统的在在
本地进行数据挖掘相比，给人们提出了许多新的挑战。文中根据网格技术、ｂ服务技术的特Ｗｅ
数据的安全传输、相关数据源的查找，集成：持用户进行各个阶段的数据挖掘，得用户可以把精力集支使
中在知识的抽取和挖掘上，而不必考虑网格技术的底层细节；集成运行结果、对挖掘结果以标准的模式展现等服务。但是这些框架都是直接在网格平台之上进行，实现异构数据的集成，为多采用物理模式到逻辑模式的映射或对数据源的语义进行描述；ＸＭＬ语言来描述要进行的挖掘工作。用本文提出了一种在网格环境下，运用Ｗｅｂ服务，基于Ｗｅｂ服务的网格服务挖掘框架。文章的组织结构如下：第一部分介绍了网格技术和Ｗｅｂ服务以及目前的发展状况。二部分提出了基于Ｗｅ第ｂ服务的知识网格框架的结构和具体实现过程。第三部分做出了总结。
收稿日期：０６０ —６２０ —５２．作者简介：马玉慧（９４）女，师，士，事数据挖掘，ｅ１７一，讲硕从Ｗｂ服务教学科研工作
维普资讯
第３期
马玉慧，张

基于Web数据库的数据库挖掘技术探究

［Ａｂｓｔｒａｃｔ］Ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌｉｎｆｏｒｍａｔｉｏｎｄａｔａ，ｔｈｅＷｅｂｄａｔａｂａｓｅｈａｓｍｏｒｅｗｉｄｅｌｙ，ｍｏｒｅｄｉｖｅｒｓｅｆｏｒｍｓ，ｍｏｒｅｃｏｍｐｌｅｘ
航的设计、Ｗｅｂ站点设计、电子商务、Ｗｅｂ服务设计等主要工作变得更加复杂。如何提高用户的访问频度、访问兴趣与访问
时问等是需要关注的重点，因此，利用基于Ｗｅｂ数据库的数据库挖掘技术进行信息的挖掘就显得尤为重要 … 。
软件２０１３年第３４卷第２期
ＳＯＦＴ Ⅵ ＲＥ
国际ＩＴ传媒品牌
基于Ｗｅｂ数据库的数据库挖掘技术探究
曾霖
（国家广电总局五六一台，南昌３３００４６）
摘要：与传统的信息数据相比，Ｗｅｂ数据库具有内容更加广泛、形式更加多样、结构更加复杂等特点。本文对以Ｗｅｂ数据库为基础的数据库挖掘技术进行了介绍与剖析，对数据库挖掘技术的技术、方法和应用领域进行了探讨。关键词：Ｗｅｂ数据库；数据挖掘；技术应用
ｓｔｒｕｃｔｕｒｅｅｔｃ．．ＴｈｅｔｅｃｈｎｏｌｏｇｙｏｆＷｅｂｔｏｈｅｔｄａｔａｂａｓｅａｓｔｈｅｆｏｕｎｄａｔｉｏｎｏｆｄａｔａｍｉｎｉｎｇｒｅａｉｎｒｏｔｄｕｃｅｄａｎｄｎａａｌｙｚｅｄ，ｔｈｅｄａｔａｂａｓｅｍｉｎｉｎｇ

基于Web的数据挖掘技术研究综述

１１，基于Ｗｅｂ的数据挖掘任务Ｗｅｂ信息的多样性决定了Ｗｅｂ挖掘任务的多样性。总的来
说Ｗｅｂ挖掘的对象可分为内容挖掘、访问信息挖掘和结构挖
掘。
页，权威网页往往对于某一主题包含比较多的用户所需要的信
息，常有许多指向它的链接。导网页虽然不一定包含很多某常引
Ｋｅｙｗｏｄｓｏｅｖｅ；ａｅｉｎｔｃｏｏ；ｅｂｒ：ｖｒｉｗｄｔｍｎｉｇｅｈｎｌｇＷｙ
数据库中的知识发现ＫＤｆＫｏｌｇＤｓｏｅｉＤｎｗｅｅｉｖｒｎｄｃｙＤｔｂｓｓ是指从数据库中发现潜在的有意义的未知的关系模ａａｅ１ａ式和趋势，以易被理解的方式表示出来。并但传统ＫＤ技术所Ｄ涉及的主要是结构化的数据库，而网上资源却没有统一的管理和结构，数据往往是经常变动和不规则的，因此人们需要比信息检索层次更高的新技术，我们称之为Ｗｅｂ中的知识发现ＫＷＤ
ＷＡＮＧＪｎｉｇ
（ｎｅｎｔｎｌＣｏｌｇ；ＣｎｒｌＳｕｈＵｎｖｒｉｆＦｒｓｒｎｅｈｏｏｙ，Ｈｕａｈｎｓａ４１０４）ＩｔｒａｉａｌｅｅｔｏｔｉｅｓｙｏｏｅｔａｄＴｃｎｌｇｏｅａｔｙｎｎＣａｇｈ００
要的一种。
接。ＨＴ（ｙｅｉｋｎｕｅＴｐｃＳａｃ）ＩＳＨｐｒｎＩｄｃｄｏｉｅｒｈ算法就是这样一ｌ个通过分析权威页面和引导页面进行Ｗｅｂ结构挖掘的算法。使

基于Web2.0的师资人才数据挖掘系统研究

伍、理干部队伍的优化。阐述了基于Ｗｅ２ｎ师资人才数据挖掘系统结构．提出了师资人才认知系统的编码方管ｂ．０并
案。
关键词：ｂ．：资人才：据挖掘Ｗｅ２０师数中图分类号：Ｐ０．Ｔ３９２文献标识码：Ａ文章编号：６２７０（０８０ — １８０１７ — ８０２０）４０１— ２
挖掘方法，出各属性之间的关联关系，好地为学校人才资找更源安排及利用提供支持等。
２分布式关联规则挖掘算法— — Ａｐｉｒ算法ｒｉ０
Ａｇａａ等于１９年首先提出了挖掘顾客交易数据库中项ｒｗｌ９３
行的Ｗｅ挖掘，为文本数据挖掘或文本挖掘，Ｗｅ挖掘中ｂ称是ｂ比较重要的技术领域。ｂ掘中另一个比较重要的技术领域Ｗｅ挖
３师资人才认知系统的编码方案
虽然关于数据挖掘理论的研究非常热烈，但其在实际工作中却很少得到应用。在国内，是很少有企事业单位使用数据更挖掘方法来辅助决策．其技术理论研究热情上的高涨与实际应
用的冷淡形成了鲜明的对比。于数据挖掘技术应用到实践中对遇到的许多问题．切需要采用一种全新的技术为其带来新的迫

数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究摘要：web中的数据挖掘技术是一种新型的技术，web自身的特点，决定了web数据挖掘技术具有更多的特点，而且应用也非常广泛，不仅能够提取页面的信息，进行站点设计分析，而且在电子商务方面也具有非常广阔的应用前景。

本文对数据挖掘技术在web中的应用进行分析。

关键词：数据挖掘技术；web应用；网络技术中图分类号：tp352 文献标识码：a 文章编号：1007-9599 （2012）18-0000-02随着网络技术的快速发展，网络上数据资源的越来越丰富，人们迫切需要将这些数据转换成有用的信息和知识，进而促生了数据挖掘（data mining，dm）和知识发现（knowledge discovery，kd）领域。

信息技术的发展，对web应用提出更高了要求，为了能够满足人们对信息获取的要求，研究基于web的数据挖掘技术，以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。

1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息，从中寻找其规律，揭示出隐含的、具有潜在价值的知识，从而为决策支持提供有力依据的过程。

数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。

随着网络应用的普及，网络中信息量迅速增加，传统的知识发现（kdd：knowledge discovery indatabases）技术和方法已经不能满足人们从web中获取信息的需要，基于网络技术提供对各类数据的深层次实时分析，提供决策支持服务，就使得基于web的数据挖掘技术应运而生，这种技术将传统的数据挖掘和web应用技术相互结合起来，实现高度自动化的分析和归纳性的推理。

图1为web数据挖掘原理流程：2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境，还能够充分利用站点上积累的信息，从而更好地服务于企业和客户。

在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯，选择提供最佳的服务方式、消费习惯，还能够分析购物者的个人爱好[3]，从而提供更加贴切的商品推介。

基于Web的数据挖掘——网络挖掘

法分析数据库中的数据，包括关联分析、序列模式分析、分类分析、聚类分析等。第三层是用户界面，将获取的信息以便于
据被返回；三是效率，即响应速度。
２２网络挖掘的分类．
根据挖掘对象的不同．可以将网络挖掘分为网络内容挖掘、网络结构挖掘和网络使用挖掘口。
在被普遍使用的是搜索引擎，但是搜索引擎一般只对网上的静态信息进行“ 抓取 ”对于由用户动态生成的结果或存储于，
于数据挖掘使用的数据直接来自数据库，数据的组织形式、数
据规模都具有依赖数据库的特点，特别是，数据挖掘处理的数据量非常巨大，据的完整性、数一致性和正确性都难以保证。所以数据挖掘算法的效率、有效性和可扩充．都得至关重１生要。数据挖掘与传统的数据库查询系统相比也有不同，首先，传统的数据库查询一般都具有严格的查询表达式，而数据挖掘则不一定具有严格的要求，常常表现出即时、随机的特点，查询要求也不确定；其次，传统的数据库查询一般生成严格的结果集，但数据挖掘可能并不生成严格的结果集，挖掘过程往往基于统计规律，产生的规则并不要求对所有的数据项总是成立，而是只要达到一定的事先给定的阈值就可以了；第三，通常情况下，数据库查询只对数据库的原始字段进行，而数据
需信息，并在一定程度上揭示信息之间的关联，为用户提供智能的信息检索服务．为当前网络应用迫切需要解决的问成题，这也是未来数据挖掘技术的主要任务．为面向Ｗｅｂ的数
据挖掘—— 网络挖掘的研究提供了广阔的空间。２１网络挖掘的概念．

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于WEB的分布式数据挖掘系统研究
1Web服务概述
1.1 Web服务及其特性
对于 Web 服务，微软给出的定义是：一个 Web 服务是为其他应用提供数据和服务的逻辑应用单元。

应用程序通过统一的 Web 协议和数据格式（例如：HTTP、XML、SOAP ）访问Web 服务，不需要担心任何实现细节。

从表面上看，Web 服务就是一个应用程序，它向外界暴露出一个能够通过 Web进行调用的 API。

也就是说 Web 服务是可通过 URL 定位的自动将信息返回到需要它的客户端那里的一种资源。

Web 服务应该能够被客户方便地集成到本地应用程序中，甚至是另外的 Web服务中。

因此，它要有这样一些特性：
1）Web 服务应该是一个“黑匣子”,即客户无需关心它的具体实现，它的实现和维护工作由服务提供者负责，客户只需要通过它提供的接口来使用。

2）Web 服务应该实现自我功能描述，以便向客户介绍自己。

3）Web 服务需要提供一种发现机制，使得客户能够在 Web 上找到该服务。

4）Web 服务应该跨语言、跨平台。

5）面向消息，松散耦合。

1.2 Web服务的体系架构
在Web 服务的体系架构里有三个角色：服提务供者，服务注册中心和服务请求者。

服务提供者是提供最终Web 服务的供应商，它实现了一个为特定的需求而编写的应用程序——Web 服务，并放置在在线服务器上供别人使用。

从商业角度看，服务提供者是Web 服务的拥有者，负责其所拥有服务的发布、更新和回收。

从Web服务体系架构的角度看，服务提供者是实现Web 服务的平台。

服务请求者是服务的用户。

从商业角度看，服务请求者是是特定服务的消费者。

从Web 服务体系架构的角度看，服务请求者是查找并调用一个特定服务的应用。

服务请求者可以是一个通过浏览器访问服务的人，或者是一个应用程序，甚至是另外一个Web 服务。

服务注册中心是一个Web 服务的注册地，汇集了很多在线的Web 服务，一般来说服务提供者将Web 服务安装到在线服务器后，会将Web 服务发布到服务注册中心。

对于想要使用Web 服务的服务请求者来说，他首先去查去查询服务注册中心，当他发现了合适的Web 服务之后，将从服务注册中心获取这些Web 服务的技术信息引用，通过这些引用找到Web 服务及其相关的技术信息，从而完成服务请求者和服务提供者之间的技术绑定。

具体结构如下图所示：
1.3 Web服务的服务协议栈
实现一个完整的Web 服务体系需要有一系列的协议规范来支持。

议（底部绿色部分）。

如广泛使用的传输层和网络层的标准：IP,HTTP,SMTP，POP，FTP等；右上白色的部分是XML 的消息层和服务描述层，是目前开发的Web 服务的相关标准协议，包括服务调用协议SOAP，服务描述协议WSDL 和服务发现/集成协议UDDI 以及服务工作流描述语言WSFL；右边红色部分是整个协议层配套基础设施，包括安全、关联、服务质量等。

1.4 Web服务带来的优势
跨越防火墙的通信
1，不仅可以缩短开发周期,还可以减少代码的复杂度,并增强整个应用程序的可维护性。

2，可以节省界面和中间层的交互时间，得到的web服务组成的中间层，再应用程序集成或其他场合下可被重用。

应用程序集成
通过Web 服务,应用程序可以用标准的方法把功能和数据暴露出来,供其它的应用程序
使用。

软件重用
1，Web 服务允许在重用代码的同时,重用代码后面的数据。

2，使用Web 服务,只需要直接调用远端的Web 服务就可以了。

3，另一种软件重用的情况是把好几个应用程序的功能集成起来。

现在Web 上有很多应用程序供应商,都在其应用中实现了这些功能。

一旦他们把这些功能都通过Web 服务暴露出来,就可以非常轻易地把所有这些功能都放在用户的应用程序中去。

2分布式数据挖掘概述
近年来,数据挖掘得到了极大的关注,其主要原因是企业保存的大量的实时数据和历史数据,可以被广泛地使用,并迫切需要将这些数据转换成有用的信息和知识。

获取的知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等等。

最近，分布式数据挖掘（DDM）又吸引了不少研究者的目光，并取得了一些进展。

2.1 什么是分布式数据挖掘
所谓分布式数据挖掘有两层含义：第一，就是使用分布式算法，从逻辑上或物理上分布的数据源中发现知识的过程。

这里主要强调数据源的分布性。

第二，是指与某个数据挖掘任务相关的用户，数据，挖掘软件以及其他软组件是地理上分散的。

这里主要强调的是软组件的分散性。

2.2 分布式数据挖掘需要解决的问题
在分布式数据挖掘中，有几个技术细节需要注意：
1)全局集中控制。

为了方便地实现分布式数据挖掘，一个用于集中控制的站点是必须的。

用于解决整个系统通讯开销大及如何在全局范围内进行全局性决策等问题。

2)并行和分布式数据挖掘算法：这实际上是针对性能问题提出来的。

通过并行算法将数据划分成多个子集，降低整个数据挖掘的时间复杂度。

从而提高性能。

3) 知识共享：在各个站点间进行分布式挖掘时必须采用可以被理解的知识形式。

4)分布式软件设计：其最大的优点是支持软件复用，系统设计人员可以使用现存的软组件。

这样可以优化分工，大大减少编码工作量，提高工作效率，降低成本。

3基于Web服务的分布式数据挖掘体系结构及算法
3.1 Web 服务技术与分布式数据挖掘的结合点
1）数据的一致存储和表示机制是分布式数据挖掘系统要解决好的基本问题之一。

Web 服务技术所基于的 XML 技术提供了一种供应商独立的数据表示机制使得数据的私有和不兼容问题不再成为不同应用数据交换的障碍。

2）Web 服务技术是基于 Internet 的，一旦服务被部署在网络上，它们就可以通过 SOAP 和WSDL在任何地方被使用，许多数据挖掘系统如 IBM 的 Intelligent Miner、XELOPES 和PolyAnalyst 提供平台独立的接口，可以方便的集成到自己的数据挖掘系统中去。

3）引入 Web服务技术后，不同的供应商提供的以 Web 服务发布的不同软组件就可以被动态地进行运行时调用，数据挖掘系统就可以跟随新技术的发展和用户需求的变化而不断改进。

可以看出，Web 服务技术与分布式数据挖掘相结合，会给分布式数据挖掘带来深远的影响。

3.2 基于Web 服务的分布式数据挖掘系统体系架构
结构如图所示：
该体系结构建立在Web 服务分布式计算体系之上,各个局部数据挖掘模块都是独立作为Web服务注册和发布的。

它具有良好的移植性,能够跨越平台和数据结构的异构性,并能跨越防火墙和代理服务器进行通讯,使用灵活,具有良好的用户透明性。

本系统的基本工作原理如下:
a. 用户发出挖掘请求。

b. 用户接口接受挖掘请求,并把挖掘请求按预定的格式转发给全局数据挖掘应用。

c. 全局数据挖掘应用对挖掘请求进行分析,确定需要涉及到的局部挖掘应用。

然后查找注册中心,与其中相应的Web 服务实现绑定。

d. 全局挖掘应用把挖掘请求传递给局部挖掘应用,局部挖掘应用根据挖掘请求进行本地数据挖掘,并把结果传递给全局挖掘应用。

e. 全局挖掘应用把各个局部应用提交的结果进行综合分析,得出最终的结果。

f . 把最终结果提交给用户接口,用户接口将其以直观的形式展现给用户。

4结束语
随着分布式数据库系统和Internet 的发展和应用,以前的集中式数据挖掘根本无法满足分布式事务的需要,因而研究分布式挖掘系统是很有必要的。

基于Web 服务的数据挖掘是解决分布式数据挖掘的有效途径。

它支持网络应用,具有很强的平台适应能力,可移植能力强,可以实现对多个异构的并行分布式数据源协同挖掘,极大地提高了分布式数据挖掘的效率。

但是由于分布式技术本身具有的复杂性,在实际应用中还需要进一步的提高和完善。