Web数据挖掘综述

合集下载

大数据时代的数据挖掘综述

大数据时代的数据挖掘综述

大数据时代的数据挖掘综述一、本文概述随着信息技术的迅猛发展,大数据已经渗透到社会生活的各个领域,成为现代社会发展的重要基石。

大数据时代的来临,不仅带来了海量的数据资源,也对数据挖掘技术提出了更高的要求。

数据挖掘,作为从海量数据中提取有用信息、发现潜在规律的重要手段,已经成为当前研究的热点和前沿领域。

本文旨在对大数据时代的数据挖掘技术进行全面而系统的综述,分析当前数据挖掘领域的研究现状,探讨面临的挑战和未来的发展趋势。

本文将首先介绍大数据和数据挖掘的基本概念,阐述数据挖掘在大数据时代的重要性和应用价值。

接着,本文将重点回顾数据挖掘的发展历程,介绍数据挖掘的主要方法和技术,包括分类、聚类、关联规则挖掘、预测模型等,并结合具体案例进行说明。

同时,本文还将对数据挖掘在各个领域的应用进行梳理和总结,如商业智能、医疗健康、金融风控等。

在此基础上,本文将深入探讨大数据时代数据挖掘面临的挑战,如数据规模巨大、数据类型多样、数据质量参差不齐等问题,并分析这些问题对数据挖掘算法和性能的影响。

为解决这些问题,本文还将介绍一些新兴的数据挖掘技术和方法,如深度学习、强化学习、迁移学习等,并探讨它们在大数据时代的应用前景。

本文将展望数据挖掘未来的发展趋势,预测未来可能的研究热点和方向,为相关领域的研究人员和实践者提供参考和借鉴。

通过本文的综述,希望能够为大数据时代的数据挖掘研究提供全面而深入的理解,推动数据挖掘技术的进一步发展和应用。

二、数据挖掘相关概念及理论基础在大数据时代,数据挖掘成为了一个不可或缺的工具,它帮助我们从海量的、复杂的、多样化的数据中提取出有价值的信息和模式。

数据挖掘是一门涉及多个学科的交叉学科,其理论基础涵盖了统计学、机器学习、模式识别、数据库管理等多个领域。

数据挖掘的基本概念是通过特定算法对大量数据进行处理和分析,以发现其中的关联规则、分类模式、聚类结构、异常检测以及预测趋势等。

这一过程中,数据预处理是极其关键的一步,它包括对数据的清洗、转换、降维等操作,以确保数据的质量和有效性。

数据挖掘综述

数据挖掘综述

数据挖掘综述引言:数据挖掘是一种通过自动或者半自动的方法,从大量数据中发现隐藏在其中的有价值的信息的过程。

随着大数据时代的到来,数据挖掘在各个领域中的应用越来越广泛。

本文将对数据挖掘的概念、应用领域、技术方法、挑战和未来发展进行综述。

一、数据挖掘的概念1.1 数据挖掘的定义数据挖掘是指通过应用统计学、机器学习、人工智能等技术,从大规模数据集中提取出实用的信息和模式的过程。

1.2 数据挖掘的目标数据挖掘的目标是通过发现数据中的潜在规律和关联,为决策提供支持,并发现新的商业机会。

1.3 数据挖掘的基本步骤数据挖掘的基本步骤包括问题定义、数据采集和清洗、特征选择和变换、模型构建、模型评估和应用。

二、数据挖掘的应用领域2.1 金融领域数据挖掘在金融领域中被广泛应用,如信用评估、风险管理、欺诈检测等。

2.2 零售领域数据挖掘在零售领域中可以匡助企业进行销售预测、市场细分、推荐系统等。

2.3 医疗领域数据挖掘在医疗领域中可以用于疾病预测、药物研发、医疗资源优化等。

三、数据挖掘的技术方法3.1 分类与预测分类与预测是数据挖掘中常用的技术方法,通过构建模型来预测未来的结果或者分类新的数据。

3.2 聚类分析聚类分析是将数据集中的对象划分为不同的组,使得组内的对象相似度高,组间的相似度低。

3.3 关联规则挖掘关联规则挖掘是寻觅数据集中的频繁项集和关联规则,用于发现数据中的相关性和规律。

四、数据挖掘的挑战4.1 数据质量问题数据挖掘的结果受到数据质量的影响,数据质量不高会导致挖掘结果不许确。

4.2 隐私保护问题在数据挖掘过程中,可能涉及到用户的隐私信息,如何保护用户隐私是一个重要的挑战。

4.3 大数据处理问题随着数据量的增加,如何高效地处理大规模数据成为数据挖掘中的难题。

五、数据挖掘的未来发展5.1 深度学习与数据挖掘的结合深度学习作为一种强大的机器学习方法,与数据挖掘的结合将会进一步提升数据挖掘的能力。

5.2 增强学习的应用增强学习是一种通过试错来优化决策的方法,将其应用于数据挖掘领域可以发现更多的隐藏规律。

基于Web的数据挖掘技术研究综述

基于Web的数据挖掘技术研究综述
11 , 基于 We b的数据挖掘任务 We b信息 的多样性决定了 We b挖掘任务的多样性 。总 的来
说 We b挖掘 的对象可分 为 内容挖 掘 、访 问信息挖掘 和结 构挖
掘。
页 ,权威 网页往往对于某一主题包含 比较多 的用户所需要 的信
息 , 常 有 许 多 指 向 它 的链 接 。 导 网页 虽 然 不 一 定 包 含 很 多某 常 引
Ke y w o dso e ve ; a e i n tc oo ; eb r :v r iw d t m nig e hn lg W y
数据 库 中 的知识 发现 K D f K o l g Dsoe i D nwe e i vr n d c y D tbss 是指从数据库中发现潜在 的有意义的未知的关 系模 a ae 1 a 式和趋势, 以易被理解的方式表示 出来 。 并 但传统 K D 技术所 D 涉及的主要是结 构化 的数据 库 ,而网上 资源却 没有统一 的管理 和结构 , 数据往往是经常变动和不规则的 , 因此人们需要 比信息 检 索层次更高 的新 技术,我们 称之为 We b中的知识发现 K W D
W ANG Jn ig
(nen t n lColg ;C nrlS uh Unv ri fF rsr n e h ooy,Hu a h n s a 410 4) Itrai a l e e t o t ies y o oet a d T c n lg o e a t y n n C a gh 0 0
要 的一 种 。
接 。H T ( y e ik n ue T pc Sac ) IS H prn Id cd oi erh 算法就是这样一 l 个通过分析权威页面和引导页面进行 We b结构挖掘的算法 。使

Web数据挖掘技术综述

Web数据挖掘技术综述

擎加入索引的速度增 长; 2 搜索结果的不准确性 : () 由于各搜
索 引 擎使 用 的信 息 搜 集 算 法 并 不 是 完 全 的 匹 配 算 法 从 而 使
得在给用户提供了有用信息的同时夹杂 了大 量的无用信息 ; () 3 不能提供多媒 体搜索服 务 。如何快 速 、 确地获得 有 准
价 值 的 网络 信 息 , 何 理解 已有 的 历 史 数 据 并 用 于 预 测 未 来 如 的行为, 如何 从 这 些 海 量 数 据 中 发 现 知 识 , 何 给 用 户 提 供 如 个性 化 的服 务 以 及 从 网上 产 生 新 的 知 识 是 网 络 用 户 的 新 要 求 。We 据 挖 掘技 术 在 某 种 程 度上 解 决 以上 问题 。 b数
Vo . No 2 1 8. .
Jn 20 u .,0 8
文 章 编 号 :6 1 44 (0 8 0 05 —0 17 — 64 20 )2— 0 5 3
We b数 据 挖 掘 技 术 综 述
李 娟 , 董 军
( . 陵科技 学院 1金 信 息技 术 学院 , 苏 南京 江 200 ; 10 1 209 ) 10 4 2 .南京理 工大 学 计 算机科 学与技 术 学院 , 苏 南京 江

要 : 于 大型 数 据 库 的 不 断 涌现 和数 据 挖 掘 的 应 运 而 生 , 述 了 We 基 综 b数 据 挖 掘 的基 本 概 念 , 并提 出一 种 基 于 We b
服 务 的数 据 挖掘 体 系 。 关键 词 : b 据 挖 掘 ; 据 挖 掘 ; b服 务 We 数 数 We 中 图分 类 号 :P 1 .3 T 3 1 1 文 献 标 识 码 : A
在 这 被 称 之 为信 息 爆 炸 的 时 代 , 息 过 量 几 乎 成 为 人 人 信 需要 面对 的 问题 。如 何 才 能 不被 信 息 的 汪 洋 大 海 所 淹 没 , 从

Web数据挖掘技术综述

Web数据挖掘技术综述
【 关键 词 】W E B数 据 技 术应 用
中图分类号 :T P 3 1 1文献标识码:B 文章编号:1 0 0 9 - 4 0 6 7 ( 2 0 1 3 ) 1 5 . 3 2 . 0 2


We b数据挖掘的难点
下特点:
we b上有海量的数据信息 ,怎样对这些数据进行复杂的应用成了现 今数据库技术 的研究热点。数据挖掘就是从大量的数据 中发现隐含 的规 律性 的内容 , 解决数据的应用质量问题。充分利用有用 的数据 , 废弃虚 伪无用的数据 ,是数据挖掘技术的最重要 的 应用 。相对 于 We b的数据而
因为如果所需 的数据不能很有效地得到,对这些数据进行分析 、 集成 、
处理就无从谈起。.
( 二 )半结构化 的数据结构
搬用于数据库的数据挖掘技术。
l 、We b 挖掘技术 的分类

We b上的数据与传统 的数据库 中的数据不同 , 传统的数据库都有一 定 的数据模型 ,可以根据模型来具体描述特定的数据。而 We b 上 的数据 非常复杂 ,没有特定 的模型描述 ,每一站点的数据都各 自 独立设计 ,并
we b 内容挖掘有两种策略 : 直接挖掘文件的 内容,或在其他工具搜 索的基础上进行改进 。采取第 1种策 略的有锁定网络的查询语言 We b L o g 、W e b S h o y 等 ;采 取第 2种策略的方法 主 要是对查找引擎的查询结果进行进一步的处理 ,
1 、庞大性。由于 we b的开放性 ,使得 we b 上的信息与 臼俱增 ,呈
爆炸性增长。网上的网页数量达到 l 0亿 ,而且正在以每月近千万的速度 增长。
2 、 动态性 。 we b 不仅以极快的速度增长 , 而且其信息还在不断地发 生更新。新 闻、 公 司广告、股票市场 、We b服务中心等都在不断地更新

数据挖掘综述

数据挖掘综述


基于进化理论,并采用遗传结合、遗传 变异、以及自然选择等设计方法的优化技 术。
7 数据挖掘的主要流程(四个阶段)
系统的数据挖掘过程是一个不断循环、优化的过
程。
数据挖掘各阶段的工作量
Data Mining牵涉大量的规划与准备,专家声 称高达80%的过程花在准备数据阶段。
确定业务对象
数据准备
模式发现
数据访问 (80年代)
“在新英格兰的分 部去年三月的销售 额是多少?”
在记录级提 Oracle、Sybase、 供历史性的、 Informix、IBM、 动态数据信 Microsoft 息 在各种层次 Pilot、Comshare、 上提供回溯 Arbor、Cognos、 的、动态的 Microstrategy 数据信息
为降低决策树生成代价,人们还提出了一 种区间分类器。最近也有人研究使用神经网 络方法在数据库中进行分类和规则提取。
4.4 预测型知识(Prediction)

预测知识根据时间序列型数据,由历史的 和当前的数据去推测未来的数据,也可以 认为是以时间为关键属性的关联知识。 时间序列预测方法有经典的统计方法、神 经网络和机器学习等。

4. 数据挖掘研究的内容

目前DMKD的主要研究内容包括:
基础理论、发现算法、数据仓库、可视 化技术、定性定量互换模型、知识表示方 法、发现知识的维护和再利用、半结构化 和非结构化数据中的知识发现以及网上数 据挖掘等。
数据挖掘所发现的知识最常见的有以下 几类:
4.1 广义知识 (Generalization) 4.2 关联知识 (Association) 4.3 分类知识(Classification & Clustering) 4.4 预测型知识(Prediction) 4.5 偏差型知识(Deviation)

Web挖掘在电子商务中的应用的综述

Web挖掘在电子商务中的应用的综述
200 7 N0 . 3匕 SC IF NC「 & T任 CHNOLOOY } ORMA NF ON
学 术 论 坛
Web 挖掘在电子商务中的应用的综述
李晓勇
(江苏联合职业技术学院南京工程分院
江苏南京
21113 ) 5
摘 要: Web 挖掘技术已经得到了广泛的发展,并渗透到各个行业。本文介绍了 We b 挖掘的概念、任务和分类,并重点介绍了 Web 挖掘在电子商务中的应用。 关键词: Web 挖掘 电子商务 综述 文章编号: 1627 一3791(2007)12(b)一 0229一 1 0 中图分类号: T P 393 文献标识码 : A
1.3 We 挖掘的分类 b We 挖掘分为We 内容挖掘、We 结构 b b b
挖掘、W e b 使用挖掘。
(l We 内容挖掘。We 内容挖掘是指在 ) b b 组织的We 上, b 从文件内容及其描述中获取有 用信息的过程。Web 内容挖掘和基于多媒体 信息(包括TEXT、HTML 等格式)的挖掘和基 于多 媒体信息(包括IMAGE、 AUD1 、 0 VIDEO 等煤体类型)的挖掘, 是数据挖掘技术在网络信 息处理中的应用。基于文本的Web 挖掘软件 有AGENT 方法 和数据 库方面, 基于多 体的 媒 Web 挖掘有关联规贝方法和特征提取方法曰 J I 。 (2 Web 结构挖掘。Web 结构挖掘是从 ) WWW的组织结构和链接关系中获取有用的知 识的 过程。 大量的We 链接信息提供了 b 丰富的 关于Web 内容相关性和结构方面的信息, 为
I Web挖掘介绍
1. I Web挖掘的 概念, ] 数据挖掘是指从大量的、不完全的、模 糊的、随机的数据中提出隐含在其中的、潜 在的知识的过程。We b 数据挖掘贝是数据挖 1 掘技术的重要应用, 它是指在大量训练样本的 基础上, 得到数据对象间的内在特性, 并以此为 依据在网络资源中进行有 目的的信息提取。 1 2 Web挖掘的 任务!2 ] Web 挖掘是对Web 存取模式、Web 结构 和规则, 以及动态的We 内容的查找。We 挖 b b 掘包括信息检索、信息提取、概括和分析等

Web数据挖掘与个性化搜索引擎综述

Web数据挖掘与个性化搜索引擎综述

数据挖掘的发展 现状、 发展趋势以及将 来可能的研究方向, 并简单介绍 了个性化搜 索引 擎的一些情 况, 最后论述 了 we b 数据挖掘在个性化搜 索引擎 中的应 用。 关键词 : e 数据挖掘 ; Wb 个性化 ; 索引擎 搜
中图分类号 :P 9 T 33 文献标识码 : A

1 W e 据 挖 掘 综 述 b数
1 1 We . b数 据挖 掘的概 念和 分类
图 1 We 数 据 挖 掘 分 类 b
We b数据 挖掘是 数据 挖掘技 术 与 We 结合 的 b相
we 内容挖掘是从文档内容或其描述 中抽取有 b 趣知识的一种过程 , 是一种基于网页 内容元素对象的 We b挖掘 。这 些 元 素 对 象 既 有 文 本 和 超 文 本 数 据 , 也有图形、 图像等多媒体数据 ; 既有来 自于数据库 的 结构化数据 , 也有用 H M T L或 X L标记 的半结构化 M 数 据 和无结 构 的 自由文本 。 We 结构挖掘是从 网页的超级链接中发现其结 b
0 引 言
We b已成为人们获取信息的一个重要途径 , 随 着 we b信息 的 日益增长 , 人们不得不花费大量的时 间去搜索浏览 自己需要 的信息。搜索引擎已成为人 们最普遍使用 的信息检索 的工具 。该工具涉及到信 息检索、 数据库 、 数据挖掘 、 人工智能、 分布式处理、 自 然语言处理等多个领域的理论和技术 , 因而具有综合 性和挑战性。但是 , 前大多数的搜索引擎提供 的服 目 务还不能令用户满意, 尤其是个性化的查询请求。因 此, 个性化搜索引擎成为当前的一个重要研究课题。
维普资讯
20 年第 8 07 期
文章编号 :0627 (0 7 0 -040 10 -4 5 2 0 ) 8 4 -4 0
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web数据挖掘综述摘要:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,因此如何从Web庞大的数据中提取出有价值的信息成为一大难题。

Web数据挖掘正是为了解决这一难题而提出的一种数据挖掘技术。

本文将从Web数据挖掘的概念、分类、处理流程、常用技术等几方面对Web数据挖掘进行介绍,并分析了Web数据挖掘的应用及发展趋势。

关键词:Web数据挖掘;分类;处理流程;常用技术;应用;发展趋势Overview of Web Data MiningAbstract:Over the past few decades, the rapid development of Web makes it becoming the world’s largest public data sources. So how to extract valuable information from the massive data of Web has become a major problem.Web data mining is the data mining technology what is in order to solve this problem.This article introduces the Web data mining from its concept, classification, processing, and common techniques, and analyzes the application and the development tendency of Web data mining.Key words: Web Data Mining; Classification; Processing; Common Techniques; Application; Development Tendency0.引言近些年来,互联网技术的飞速发展,带来了网络信息生产和消费行为的快速拓展。

电脑、手机、平板电脑等终端的普及,SNS、微博等Web2.0应用的快速发展,促进了互联网信息数量的急剧增长,信息资源前所未有的丰富。

但同时,海量级、碎片化的信息增加了人们获取有效信息的时间和成本[1]。

因此,迫切需要找到这样的工具,能够从Web上快速有效地发现资源,发现隐含的规律性内容,提高在Web上检索信息、利用信息的效率,解决数据的应用问题,Web数据挖掘正是一个很好的解决方法。

1.Web数据挖掘概念Web数据挖掘,简称Web挖掘,是由Oren Etzioni在1996年首先提出来的[2]。

Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及数据库技术、信息获取技术、统计学、机器学习和神经网络等多个研究领域的技术[3]。

2.Web数据挖掘分类Web上包括三种类型数据:Web页面数据、Web结构数据和Web日志文件[4]。

依据在挖掘过程中使用的数据类别,Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web 使用挖掘三类。

2.1 Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。

Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。

根据挖掘出来的数据可以将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。

2.2 Web结构挖掘Web结构挖掘是从Web组织结构和链接关系中推导知识、挖掘页面的结构和Web结构,可以用来指导页面采集工作,提高采集效率。

Web结构挖掘可以分为Web文档内部结构挖掘和文档间的超链接结构挖掘。

2.3 Web使用挖掘Web使用挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式。

通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化服务[5]。

这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。

图1 Web数据挖掘分类示意图3.Web数据挖掘处理流程与传统数据和数据仓库相比,Web上的信息具有高度异构和半结构化特性[6],并且是动态的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理,典型的Web数据挖掘的处理流程如下[7]:3.1 查找资源任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志甚至是通过Web形成的交易数据库中的数据。

3.2 信息选择和预处理任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。

例如从Web文档中自动去除广告链接,去除多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至关系表。

3.3 模式发现对预处理后的数据进行挖掘,自动进行模式发现,从Web站点间发现普遍的模式和规则。

3.4 模式分析对发现的模式进行解释和评估,必要时需返回前面处理中的某些步骤以反复提取,最后将发现的知识以能理解的方式提供给用户。

可以是机器自动完成,也可以是与分析人员进行交互来完成。

图2 Web数据挖掘处理流程示意图4.常用的Web数据挖掘技术4.1 路径分析技术我们通常采用图的方法来分析Web页面之间的路径关系。

G=(V, E),其中V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。

顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。

路径分析技术常用于改进站点的结构[8]。

4.2 关联规则挖掘技术关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。

使用关联规则可以发展很多相关信息或产品服务。

例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。

同时点击的用户越多,其相关度就可能越高。

系统就可以利用这种思想为用户推荐相关信息或产品服务。

4.3 序列模式挖掘技术序列模式挖掘技术就是挖掘出交易集之间的有时间序列关系的模式。

它与关联规则挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,注重事务内的关系,而序列模式挖掘技术则注重事务之间的关系。

发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。

依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面,以满足访问者的特定需求。

4.4 分类、聚类技术分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。

在Web数据挖掘中,分类技术可根据访问用户而得到个人信息,共同的访问模式以及访问某一服务器文件的用户特征。

而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘[9]。

发现分类规则可以识别一个特殊群体的共有属性的描述,这种描述可以用于分类新的检索。

聚类可以从Web访问信息数据库中聚集出具有相似特性的用户群。

在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。

5.Web数据挖掘的应用5.1 在社交网络上的应用近年来,在线的社交网络成为Web2.0时代最广泛的应用实例。

社交网络允许用户在Web的环境里进行自由的沟通交互。

一些社交网站已经成为网络上最受欢迎的网站。

Web 内容挖掘可以对社交网站的文档进行分类或分级,特别是针对博客、微博或是以文字内容为主的论坛。

Web结构挖掘可以对社交网站的结构进行分析,为网站的改进建设提供有价值的建议。

Web使用挖掘可以用来分析用户的阅读兴趣和习惯,为用户推送最新的阅读内容[3]。

5.2 在电子商务上的应用网络的发展使得电子商务成为了人们生活与企业发展中不可分割的一部分。

电子商务平台是一个拥有海量数据信息资源的大型数据库,利用Web使用挖掘可以提高用户满意度,发现潜在的消费者,提供个性化的服务等。

利用Web结构挖掘可以优化网站结构,为用户提供更加有效且快速的访问渠道,帮助商家制定更准确的市场营销策略[10]。

5.3 在远程教育上的应用现代远程教育站点是采用多种媒体手段进行远程系统教学的教育形式。

它是随着现代信息技术的发展而产生的一种新型教育形式,是构筑知识经济时代人们终身学习体系的主要手段。

使用Web数据挖掘,站点页面之间的链接得到优化,极大方便学习者学习,知识点之间的关联变得更为密切。

同时,日常教学管理能更好地以学习者为中心[11]。

5.4 在搜索引擎上的应用通过Web数据挖掘,对网页上的一些相关内容以及用户的搜索习惯进行挖掘和采集,提高用户的检索效率,同时提高搜索引擎的准确性。

6.Web数据挖掘的发展趋势Web数据挖掘处理的是海量数据,且数据量以指数级增长,同时所涉及的挖掘算法相当复杂。

有的算法需要多次扫描数据库,当数据量增加时会增加扫描的代价;有的算法需要存储各系列的相关信息,当信息量很大时,会带来存储上的问题。

与传统Web数据挖掘相比,基于云计算的Web数据挖掘通过“云”中多个资源完成原来由一个节点承担的挖掘工作,使资源得到了充分利用,提高了数据挖掘的效率,因此,将云计算融入Web数据挖掘中将具有非常重要的现实意义,可以解决Internet上广域分布的海量数据挖掘问题[12]。

通过云计算,Web数据挖掘的代价将大大降低,所以有理由相信云计算挖掘是Web数据挖掘今后的趋势。

7.结束语人类的发展离不开信息的传播和使用,在数据量急剧增长的当今社会,如何快速有效地检索有价值的信息显得更为重要,Web数据挖掘正是由于满足了这方面的需要才能获得如此迅速的发展。

随着网络技术的发展以及网络用户的增加,Web数据挖掘技术将成为重要的研究课题和方向。

参考文献[1]全巧梅. 云计算环境下WEB数据挖掘的研究[J]. 信息技术与信息化,2012,05:96-99+105.[2]Etzioni O. The World-Wide Web: quagmire or gold mine?[J]. Communications of the ACM, 1996, 39(11): 65-68.[3]高华. Web挖掘技术在社交网络分析的应用研究[J]. 科技信息,2013,09:91-92.[4]薛鸿民. Web数据挖掘技术研究[J]. 现代电子技术,2006,15:99-101.[5] Pierrakos D, Paliouras G, Papatheodorou C, etal. Web usage mining as a tool for personalization: A survey[J]. User modeling and user-adapted interaction, 2003, 13(4): 311-372.[6]由海涌,姜达. 浅谈Web数据挖掘技术的应用[J]. 电子技术与软件工程,2013,06:55-56.[7]曹聪聪,康耀红. Web数据挖掘研究[J]. 现代电子技术,2007,04:92-94+97.[8]潘正高. Web数据挖掘技术综述[J]. 电脑知识与技术,2009,15:3852-3853+3858.[9]王少茹. 基于Web数据挖掘的探索[J]. 电子世界,2014,04:11-12.[10]王芳. 电子商务平台中的Web数据挖掘应用探讨[J]. 科技创新与应用,2014,10:44.[11]张舰. 基于Web挖掘的远程教育站点设计[J]. 软件导刊,2014,05:132-134.[12]程苗. 基于云计算的Web数据挖掘[J]. 计算机科学,2011,S1:146-149.。

相关文档
最新文档