基于WEB的分布式数据挖掘系统研究

合集下载

基于Web服务的数据挖掘系统算法的设计

基于Web服务的数据挖掘系统算法的设计

基于Web服务的数据挖掘系统算法的设计作者:刘佳来源:《电脑知识与技术》2013年第13期摘要:与传统的数据挖掘系统的算法库相比,在数据挖掘系统算法库中引入Web服务可以实现数据、算法和接口的分离,极大的缩减了算法库开发的复杂性并为动态管理算法库提供了便利。

此外,从标准的平台无关性的角度来看,采取Web服务的设计的系统具有了平台无关性和语言无关性的特点。

我们可以通过任何语言来实现将挖掘算法封装到Web服务中,并从程序设计语言中分离出来,这样就为算法设计提供了最大的自由度,提高了维护性能。

因此,基于Web服务技术的数据挖掘系统对于提高数据挖掘的效率具有非常重要的意义。

关键词:Web服务;数据挖掘;算法库中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2013)13-2951-04数据挖掘是一个从大量不完整的、冗余的、模糊的并且随机的实际应用的数据中提取潜在的有用的信息和未知知识的一个过程[1]。

随着信息技术在社会中各个领域中的广泛应用,可以用数据挖掘进行提取的最初的数据也转变为较复合的、有组织结构或者半组织结构的内容,比如文本、图标、图片数据,甚至是网络中混杂的分布式数据[2]。

在数据外挖掘系统中,挖掘算法具有非常重要的作用。

一个有效的数据挖掘系统必须有各种各样的挖掘算法。

通常来说,这些挖掘算法不能同时被开发,但是通过算法的发展和对应用的要求,它们也都不断地得到相当大的改进。

通过最新的数据挖掘算法的研究,在数据挖掘系统中不但要有专用的、可共享的和动态维护的算法库,而且还要在现存的算法中增加新的算法来改进系统[3]。

难点在于传统的数据挖掘系统越来越适应于需求以至于很难再提升算法库。

因此,研究如何根据不同的算法动态添加挖掘算法和自动生成输入输出接口,从而实现数据挖掘算法的自动调用是本文的重点。

Web服务的结构本质上是面向服务的架构(SOA),SOA框架被专门用于解决应用整合领域里的两个难题——异质性数据和易变性数据。

基于Web搜索的数据挖掘系统的研究与实现

基于Web搜索的数据挖掘系统的研究与实现
搜索算 法基本 都 是 使用 模 糊 匹 配 , 难 搜 索 到所 很 有符合要 求 的信息 。 另外 , 如何 从 非格 式 化数 据 信 息 中有 效地 挖
( . co l f o ue 1 Sh o mptr&Ifr t nE g er gChn z o stt fT cn lg C a ghu23 0 ; oC noma o ni en , a ghuI tueo eh ooy,h n zo 10 2 i n i ni
2 Y nigSho , hn zo ntueo ehoo , hn zo 10 2 . a l colC agh uIstt f c lg C agh u2 30 ) n i T n y
收 稿 日期 :0 00 —7 2 1 -72 基 金 项 目 : 州 工 学 院基 金 项 目( 0 1 ) 常 YN 7 1 作 者 简 介 : 志 琴 (9 8 查 16 一 )女 , 士, , 硕 副教 授 。

的结果 : ①搜索结果很多, 往往有许多页, 信息太 过庞大 ; ②搜索到的数据信息大部分是无用信息 , 属于垃圾信息 , 且搜到信息的准确率不能保证 ; ③
第2 4卷第 1期 21 0 1年 2月
常 州 工 学 院 学 报.
J u a fCh n h u I tt t fTe h ol y o r l o a gz o nsiu e o c n og n
V o . 4 No. 12 1
R . 01 2 1
基 于 We 索 的数 据挖 掘 系统 的研 究 与实 现 b搜
W e ie W e g s ec De l g wih te e da sa c mpl ae r c s . e C l a q ie u e u a n b sts, b pa e , t . ai t s t i o n h a i td p o e s W al c u r s f ld t a d c a i f r to y me n f d t n n Thi a rma e a r s ac n s a c i g a n n ft e W e a n o mai n b a so a mi i g. a sp pe d e e h o e h n nd m i g o h b d t r r i a n v lpe e fs se ih p ro a d de eo d a s to y t mswh c e f r e e c n a o t e I tm e nd d t nng a d c e td m d s a h g d t f m h n e ta aa mi r i ar i r ae n

网格环境下基于Web服务的分布式数据挖掘

网格环境下基于Web服务的分布式数据挖掘

摘 要 : 网格 环境 中进 行 分布 式 的知 识 发现 和挖 掘 受 到越 来越 多的 关 注。分布 式 环境 在 中, 据 常常是 自治的 , 数 异构 的 , 地理是 分 布 的 。 这种 复杂的 环境 下进 行数据 挖掘 与传 统的在 在
本地进 行 数据 挖掘相 比 , 给人 们提 出 了许 多新 的挑 战 。文 中根 据 网格技 术、 b服务 技 术的特 We
数据 的安全传 输 、 相关 数据 源 的查找 , 集成 : 持用 户进 行各个 阶段 的数 据挖 掘 , 得用户 可 以把精力 集 支 使
中在知 识 的抽 取和 挖掘 上 , 而不 必考 虑 网格 技 术 的底层 细节 ; 集成 运行 结 果 、 对挖 掘 结果 以标 准 的模式 展 现等 服务 。但是 这些 框 架都是 直接 在 网格平 台之 上进行 , 实现 异构 数据 的集成 , 为 多采 用物理 模式 到 逻辑 模式 的映射 或对数 据 源的语 义进行 描 述 ; XML语 言来描 述要 进行 的挖 掘工作 。 用 本 文提 出了一 种在 网格 环境 下 , 运用 We b服 务 , 基于 We b服务 的 网格 服 务挖 掘框 架 。文章 的组织 结构 如下 : 第一 部分 介绍 了 网格技 术和 We b服 务 以及 目前 的发展 状 况 。 二部分 提 出 了基 于 We 第 b服务 的知识 网格框 架 的结构 和具 体实 现过 程 。第三 部分 做 出了总结 。
收稿 日期 :0 60 —6 2 0 —52 . 作者简介 : 马玉 慧 ( 9 4) 女 , 师 , 士 , 事 数 据挖 掘 , e 17一, 讲 硕 从 W b服 务 教 学科 研 工 作
维普资讯
第3 期
马 玉慧 , 张

基于Web数据库的数据库挖掘技术探究

基于Web数据库的数据库挖掘技术探究

[ A b s t r a c t ]C o mp a r e d wi t h t h e t r a d i t i o n a l i n f o r ma t i o n d a t a , t h e We b d a t a b a s e h a s mo r e wi d e l y , mo r e d i v e r s e f o r ms , mo r e c o mp l e x
航的设计 、We b站点设计 、电子商务、We b服务设计等主要工 作变得 更加复杂。如何提高用户 的访 问频度、访 问兴趣与访 问
时 问 等 是 需 要 关 注 的 重 点 , 因此 ,利 用 基 于 W e b数 据 库 的 数 据 库 挖 掘技 术 进 行 信息 的 挖 掘就 显 得 尤为 重 要 … 。
软件 2 0 1 3 年第 3 4 卷 第2 期
S O F T Ⅵ R E
国际 I T传媒品牌
基于 We b 数据库的数据库挖掘技术探 究
曾 霖
( 国 家广 电总局五 六一 台 ,南 昌 3 3 0 0 4 6 )
摘 要:与传 统的信 息数据相 比,We b数据库具有 内容更加广泛、形 式更加 多样、结构更加复杂等特 点。本文对 以We b数据 库为基础 的数据库挖掘技术进行 了介绍与剖析 ,对数据库挖掘技术的技术、方法和应用领域进行 了探 讨。 关键词 :We b数据库 ;数据挖掘;技术应用
s t r u c t u r e e t c . . T h e t e c h n o l o g y o f We b t o he t d a t a b a s e a s t h e f o u n d a t i o n o f d a t a mi n i n g re a i n ro t d u c e d a n d na a l y z e d , t h e d a t a b a s e mi n i n g

基于Web的数据挖掘技术研究综述

基于Web的数据挖掘技术研究综述
11 , 基于 We b的数据挖掘任务 We b信息 的多样性决定了 We b挖掘任务的多样性 。总 的来
说 We b挖掘 的对象可分 为 内容挖 掘 、访 问信息挖掘 和结 构挖
掘。
页 ,权威 网页往往对于某一主题包含 比较多 的用户所需要 的信
息 , 常 有 许 多 指 向 它 的链 接 。 导 网页 虽 然 不 一 定 包 含 很 多某 常 引
Ke y w o dso e ve ; a e i n tc oo ; eb r :v r iw d t m nig e hn lg W y
数据 库 中 的知识 发现 K D f K o l g Dsoe i D nwe e i vr n d c y D tbss 是指从数据库中发现潜在 的有意义的未知的关 系模 a ae 1 a 式和趋势, 以易被理解的方式表示 出来 。 并 但传统 K D 技术所 D 涉及的主要是结 构化 的数据 库 ,而网上 资源却 没有统一 的管理 和结构 , 数据往往是经常变动和不规则的 , 因此人们需要 比信息 检 索层次更高 的新 技术,我们 称之为 We b中的知识发现 K W D
W ANG Jn ig
(nen t n lColg ;C nrlS uh Unv ri fF rsr n e h ooy,Hu a h n s a 410 4) Itrai a l e e t o t ies y o oet a d T c n lg o e a t y n n C a gh 0 0
要 的一 种 。
接 。H T ( y e ik n ue T pc Sac ) IS H prn Id cd oi erh 算法就是这样一 l 个通过分析权威页面和引导页面进行 We b结构挖掘的算法 。使

基于Web2.0的师资人才数据挖掘系统研究

基于Web2.0的师资人才数据挖掘系统研究
伍 、 理 干 部 队 伍 的 优 化 。 阐 述 了基 于 We 2 n 师 资 人 才数 据 挖 掘 系统 结 构 . 提 出 了 师 资 人 才 认 知 系 统 的 编 码 方 管 b. 0 并
案。
关 键 词 : b .: 资 人 才 : 据 挖 掘 We 20 师 数 中图 分 类 号 :P 0 . T 3 92 文 献 标 识 码 : A 文 章 编 号 :6 2 7 0 (0 8 0 — 1 8 0 17 — 8 0 2 0 )4 0 1— 2
挖 掘 方 法 , 出 各 属 性 之 间 的 关 联 关 系 , 好 地 为 学 校 人 才 资 找 更 源安排 及利 用提供 支持 等 。
2 分 布 式关 联 规 则挖 掘 算 法— — Ap ir算 法 r i 0
Aga a等 于 1 9 年 首 先 提 出 了 挖 掘 顾 客 交 易 数 据 库 中 项 rw l 93
行 的 We 挖 掘 , 为 文 本 数 据 挖 掘 或 文 本 挖 掘 , We 挖 掘 中 b 称 是 b 比较 重 要 的 技 术 领 域 。 b 掘 中 另 一 个 比较 重 要 的技 术 领 域 We 挖
3 师 资 人 才认 知 系统 的编 码 方 案
虽然关 于数 据挖掘 理论 的研究 非常 热烈 , 但其 在实 际工作 中却很少 得到应 用 。在 国内 , 是很少 有企 事业单 位使 用数 据 更 挖掘方 法来 辅助决 策 . 其技 术理论 研究 热情上 的高 涨与 实际应
用 的 冷 淡 形 成 了 鲜 明 的 对 比 。 于 数 据 挖 掘 技 术 应 用 到 实 践 中 对 遇 到 的 许 多 问 题 . 切 需 要 采 用 一 种 全 新 的 技 术 为 其 带 来 新 的 迫

数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究摘要:web中的数据挖掘技术是一种新型的技术,web自身的特点,决定了web数据挖掘技术具有更多的特点,而且应用也非常广泛,不仅能够提取页面的信息,进行站点设计分析,而且在电子商务方面也具有非常广阔的应用前景。

本文对数据挖掘技术在web中的应用进行分析。

关键词:数据挖掘技术;web应用;网络技术中图分类号:tp352 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02随着网络技术的快速发展,网络上数据资源的越来越丰富,人们迫切需要将这些数据转换成有用的信息和知识,进而促生了数据挖掘(data mining,dm)和知识发现(knowledge discovery,kd)领域。

信息技术的发展,对web应用提出更高了要求,为了能够满足人们对信息获取的要求,研究基于web的数据挖掘技术,以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。

1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息,从中寻找其规律,揭示出隐含的、具有潜在价值的知识,从而为决策支持提供有力依据的过程。

数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。

随着网络应用的普及,网络中信息量迅速增加,传统的知识发现(kdd:knowledge discovery indatabases)技术和方法已经不能满足人们从web中获取信息的需要,基于网络技术提供对各类数据的深层次实时分析,提供决策支持服务,就使得基于web的数据挖掘技术应运而生,这种技术将传统的数据挖掘和web应用技术相互结合起来,实现高度自动化的分析和归纳性的推理。

图1为web数据挖掘原理流程:2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境,还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。

在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯,选择提供最佳的服务方式、消费习惯,还能够分析购物者的个人爱好[3],从而提供更加贴切的商品推介。

基于Web的数据挖掘——网络挖掘

基于Web的数据挖掘——网络挖掘
法分 析数据库 中的数据 , 包括关联分析 、 序列模式分 析 、 分类 分析 、 聚类分析等。第三层是用户界 面, 将获取的信 息以便于
据被返回 ; 三是效率 , 即响应速度。
22 网络挖 掘 的 分 类 .
根据挖 掘对象 的不 同. 可以将 网络挖掘分为网络 内容挖 掘、 网络结构挖掘和 网络使用挖掘口 。
在 被普遍使用的是搜索引擎 , 但是搜索引擎一般只对 网上 的 静 态信息进行“ 抓取 ”对于 由用户动态生成的结果或存储 于 ,
于数据挖掘使用的数据直接来自 数据库, 数据的组织形式、 数
据规模都具有依赖数据库 的特点, 特别 是, 数据挖掘处理的数 据量非常 巨大 , 据的完整性 、 数 一致性 和正确性都难 以保证。 所以数据挖掘算法的效率 、有效性和可扩充.都 得至关重 1 生 要。数据挖掘与传统 的数据库查询 系统相 比也有不同 , 首先 , 传统的数据库查询一般都具有严格 的查询表达式 ,而数据挖 掘则不一定具有严格 的要求 , 常常表现出即时 、 随机 的特点 , 查询要求也不确定 ; 其次 , 传统的数据库查询一般生成严格的 结果集 , 但数据挖掘可能并不生成严格的结果集 , 挖掘过程往 往基于统计规律 ,产生的规则并不要求对所有的数据项总是 成立 , 而是只要达到一定 的事先给定 的阈值就可以了 ; 第三 , 通常情况下 , 数据库查询只对数据库 的原始字段进行 , 而数据
需信息 , 并在一定程度上揭 示信息之 间的关联 , 为用户提供 智能的信息检索服务 . 为当前 网络应用迫切需要解决 的问 成 题, 这也是未来数据挖掘技术 的主要任务 . 为面向 We b的数
据挖掘—— 网络挖 掘的研究提供 了广 阔的空间。 21 网络挖掘的概念 .
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于WEB的分布式数据挖掘系统研究
1Web服务概述
1.1 Web服务及其特性
对于 Web 服务,微软给出的定义是:一个 Web 服务是为其他应用提供数据和服务的逻辑应用单元。

应用程序通过统一的 Web 协议和数据格式(例如:HTTP、XML、SOAP )访问Web 服务,不需要担心任何实现细节。

从表面上看,Web 服务就是一个应用程序,它向外界暴露出一个能够通过 Web进行调用的 API。

也就是说 Web 服务是可通过 URL 定位的自动将信息返回到需要它的客户端那里的一种资源。

Web 服务应该能够被客户方便地集成到本地应用程序中,甚至是另外的 Web服务中。

因此,它要有这样一些特性:
1)Web 服务应该是一个“黑匣子”,即客户无需关心它的具体实现,它的实现和维护工作由服务提供者负责,客户只需要通过它提供的接口来使用。

2)Web 服务应该实现自我功能描述,以便向客户介绍自己。

3)Web 服务需要提供一种发现机制,使得客户能够在 Web 上找到该服务。

4)Web 服务应该跨语言、跨平台。

5)面向消息,松散耦合。

1.2 Web服务的体系架构
在Web 服务的体系架构里有三个角色:服提务供者,服务注册中心和服务请求者。

服务提供者是提供最终Web 服务的供应商,它实现了一个为特定的需求而编写的应用程序——Web 服务,并放置在在线服务器上供别人使用。

从商业角度看,服务提供者是Web 服务的拥有者,负责其所拥有服务的发布、更新和回收。

从Web服务体系架构的角度看,服务提供者是实现Web 服务的平台。

服务请求者是服务的用户。

从商业角度看,服务请求者是是特定服务的消费者。

从Web 服务体系架构的角度看,服务请求者是查找并调用一个特定服务的应用。

服务请求者可以是一个通过浏览器访问服务的人,或者是一个应用程序,甚至是另外一个Web 服务。

服务注册中心是一个Web 服务的注册地,汇集了很多在线的Web 服务,一般来说服务提供者将Web 服务安装到在线服务器后,会将Web 服务发布到服务注册中心。

对于想要使用Web 服务的服务请求者来说,他首先去查去查询服务注册中心,当他发现了合适的Web 服务之后,将从服务注册中心获取这些Web 服务的技术信息引用,通过这些引用找到Web 服务及其相关的技术信息,从而完成服务请求者和服务提供者之间的技术绑定。

具体结构如下图所示:
1.3 Web服务的服务协议栈
实现一个完整的Web 服务体系需要有一系列的协议规范来支持。

议(底部绿色部分)。

如广泛使用的传输层和网络层的标准:IP,HTTP,SMTP,POP,FTP等;右上白色的部分是XML 的消息层和服务描述层,是目前开发的Web 服务的相关标准协议,包括服务调用协议SOAP,服务描述协议WSDL 和服务发现/集成协议UDDI 以及服务工作流描述语言WSFL;右边红色部分是整个协议层配套基础设施,包括安全、关联、服务质量等。

1.4 Web服务带来的优势
跨越防火墙的通信
1,不仅可以缩短开发周期,还可以减少代码的复杂度,并增强整个应用程序的可维护性。

2,可以节省界面和中间层的交互时间,得到的web服务组成的中间层,再应用程序集成或其他场合下可被重用。

应用程序集成
通过Web 服务,应用程序可以用标准的方法把功能和数据暴露出来,供其它的应用程序
使用。

软件重用
1,Web 服务允许在重用代码的同时,重用代码后面的数据。

2,使用Web 服务,只需要直接调用远端的Web 服务就可以了。

3,另一种软件重用的情况是把好几个应用程序的功能集成起来。

现在Web 上有很多应用程序供应商,都在其应用中实现了这些功能。

一旦他们把这些功能都通过Web 服务暴露出来,就可以非常轻易地把所有这些功能都放在用户的应用程序中去。

2分布式数据挖掘概述
近年来,数据挖掘得到了极大的关注,其主要原因是企业保存的大量的实时数据和历史数据,可以被广泛地使用,并迫切需要将这些数据转换成有用的信息和知识。

获取的知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等等。

最近,分布式数据挖掘(DDM)又吸引了不少研究者的目光,并取得了一些进展。

2.1 什么是分布式数据挖掘
所谓分布式数据挖掘有两层含义:第一,就是使用分布式算法,从逻辑上或物理上分布的数据源中发现知识的过程。

这里主要强调数据源的分布性。

第二,是指与某个数据挖掘任务相关的用户,数据,挖掘软件以及其他软组件是地理上分散的。

这里主要强调的是软组件的分散性。

2.2 分布式数据挖掘需要解决的问题
在分布式数据挖掘中,有几个技术细节需要注意:
1)全局集中控制。

为了方便地实现分布式数据挖掘,一个用于集中控制的站点是必须的。

用于解决整个系统通讯开销大及如何在全局范围内进行全局性决策等问题。

2)并行和分布式数据挖掘算法:这实际上是针对性能问题提出来的。

通过并行算法将数据划分成多个子集,降低整个数据挖掘的时间复杂度。

从而提高性能。

3) 知识共享:在各个站点间进行分布式挖掘时必须采用可以被理解的知识形式。

4)分布式软件设计:其最大的优点是支持软件复用,系统设计人员可以使用现存的软组件。

这样可以优化分工,大大减少编码工作量,提高工作效率,降低成本。

3基于Web服务的分布式数据挖掘体系结构及算法
3.1 Web 服务技术与分布式数据挖掘的结合点
1)数据的一致存储和表示机制是分布式数据挖掘系统要解决好的基本问题之一。

Web 服务技术所基于的 XML 技术提供了一种供应商独立的数据表示机制使得数据的私有和不兼容问题不再成为不同应用数据交换的障碍。

2)Web 服务技术是基于 Internet 的,一旦服务被部署在网络上,它们就可以通过 SOAP 和WSDL在任何地方被使用,许多数据挖掘系统如 IBM 的 Intelligent Miner、XELOPES 和PolyAnalyst 提供平台独立的接口,可以方便的集成到自己的数据挖掘系统中去。

3)引入 Web服务技术后,不同的供应商提供的以 Web 服务发布的不同软组件就可以被动态地进行运行时调用,数据挖掘系统就可以跟随新技术的发展和用户需求的变化而不断改进。

可以看出,Web 服务技术与分布式数据挖掘相结合,会给分布式数据挖掘带来深远的影响。

3.2 基于Web 服务的分布式数据挖掘系统体系架构
结构如图所示:
该体系结构建立在Web 服务分布式计算体系之上,各个局部数据挖掘模块都是独立作为Web服务注册和发布的。

它具有良好的移植性,能够跨越平台和数据结构的异构性,并能跨越防火墙和代理服务器进行通讯,使用灵活,具有良好的用户透明性。

本系统的基本工作原理如下:
a. 用户发出挖掘请求。

b. 用户接口接受挖掘请求,并把挖掘请求按预定的格式转发给全局数据挖掘应用。

c. 全局数据挖掘应用对挖掘请求进行分析,确定需要涉及到的局部挖掘应用。

然后查找注册中心,与其中相应的Web 服务实现绑定。

d. 全局挖掘应用把挖掘请求传递给局部挖掘应用,局部挖掘应用根据挖掘请求进行本地数据挖掘,并把结果传递给全局挖掘应用。

e. 全局挖掘应用把各个局部应用提交的结果进行综合分析,得出最终的结果。

f . 把最终结果提交给用户接口,用户接口将其以直观的形式展现给用户。

4结束语
随着分布式数据库系统和Internet 的发展和应用,以前的集中式数据挖掘根本无法满足分布式事务的需要,因而研究分布式挖掘系统是很有必要的。

基于Web 服务的数据挖掘是解决分布式数据挖掘的有效途径。

它支持网络应用,具有很强的平台适应能力,可移植能力强,可以实现对多个异构的并行分布式数据源协同挖掘,极大地提高了分布式数据挖掘的效率。

但是由于分布式技术本身具有的复杂性,在实际应用中还需要进一步的提高和完善。

相关文档
最新文档