Web挖掘技术 分类

合集下载

基于Web的数据挖掘技术研究综述

基于Web的数据挖掘技术研究综述
11 , 基于 We b的数据挖掘任务 We b信息 的多样性决定了 We b挖掘任务的多样性 。总 的来
说 We b挖掘 的对象可分 为 内容挖 掘 、访 问信息挖掘 和结 构挖
掘。
页 ,权威 网页往往对于某一主题包含 比较多 的用户所需要 的信
息 , 常 有 许 多 指 向 它 的链 接 。 导 网页 虽 然 不 一 定 包 含 很 多某 常 引
Ke y w o dso e ve ; a e i n tc oo ; eb r :v r iw d t m nig e hn lg W y
数据 库 中 的知识 发现 K D f K o l g Dsoe i D nwe e i vr n d c y D tbss 是指从数据库中发现潜在 的有意义的未知的关 系模 a ae 1 a 式和趋势, 以易被理解的方式表示 出来 。 并 但传统 K D 技术所 D 涉及的主要是结 构化 的数据 库 ,而网上 资源却 没有统一 的管理 和结构 , 数据往往是经常变动和不规则的 , 因此人们需要 比信息 检 索层次更高 的新 技术,我们 称之为 We b中的知识发现 K W D
W ANG Jn ig
(nen t n lColg ;C nrlS uh Unv ri fF rsr n e h ooy,Hu a h n s a 410 4) Itrai a l e e t o t ies y o oet a d T c n lg o e a t y n n C a gh 0 0
要 的一 种 。
接 。H T ( y e ik n ue T pc Sac ) IS H prn Id cd oi erh 算法就是这样一 l 个通过分析权威页面和引导页面进行 We b结构挖掘的算法 。使

Web数据挖掘在搜索引擎中的运用

Web数据挖掘在搜索引擎中的运用

Web数据挖掘在搜索引擎中的运用摘要:随着互联网技术的不断发展,在网络中数据与信息不断增多的背景下,就需要利用数据搜索引擎的方式来寻找出用户想要查询的信息,进而达到收集信息的目的。

本文主要探讨的是web挖掘技术在搜索引擎中的应用,首先分析了web挖掘的概念及其内容,在此基础上阐述了搜索引擎存在的不足,最后叙述了web挖掘技术在搜索引擎中的应用。

关键词:数据挖掘;互联网;搜索引擎中图分类号:tp391.31 web挖掘的概念及其内容对于web挖掘来说,经过了几年的发展我们并不陌生,但是对于不同人来说web挖掘都有着不同的理解方式,而现阶段的web挖掘内容主要包含着三个方面。

1.1 web内容挖掘web内容挖掘是整个web数据挖掘技术的核心,对互联网中的信息进行分析后我们可以看出,其主要是通过互联网中的各种类型的服务、数据源以及信息源组成的,例如ftp、telnet和www等。

由于web内容挖掘具有很多优势,因此数字图书馆、政府办公和电子商务等都是采用web的方式来对数据库进行访问的。

同时web内容挖掘所涉及的范围也是非常广泛的,除了图像和文本外,还包含了视频、音频以及多媒体等。

1.2 web结构挖掘对于web结构挖掘来说主要是针对web中的文档结构进行分析,从组织之间的结构模式来获取有价值的信息。

web的结构挖掘技术具体来说就是在互联网中的超链接之间的关系和web文档自身的结构综合到一起而推导出的一种超出web以外的信息。

1.3 web行为挖掘所谓web行为挖掘技术,就是通过互联网中的web服务器所包含的日志文件以及互联网中用户的信息进行统计与处理进而获取有用的信息反馈给查询者。

具体的工作模式是在www服务器中用户登录的信息进行后台备份后进行归类并分析,最终达到获取用户行为的目标。

2 现阶段搜索引擎的不足由于在互联网中主要是通过html语言规范来对信息进行描述的,并且对互联网中的信息进行包装、传输以及发布也都是经过web的方式来处理的。

Web文本挖掘在智能分类中的应用

Web文本挖掘在智能分类中的应用

r e a l i z e t h e i n t e l l i g e n t c l a s s i f i c a t i o n o f p a t e n t .
【 K e y w o r d s ] T e x t m i n i n g ; N a i v e B a y e s a l g o i r t h m ; C l a s s i i f c a t i o n
Ap p l i c at i o n o f We b t e x t mi n i ng i n t he I n t e l l i g e nt Cl a s s i ic f a t i o n ZH ANG I J i _ I i
( C h a n g c h u n I n s t i t u t e o f T e c h n o l o g y , C h a n g c h u n i n , 1 3 0 0 1 2 )
【 摘 要l We b 文本挖掘 是指使 用 中 心词 汇来表 示文档的方法 , 利用给 出求取 中心文档和 中心词汇的算法 . 对 We b 上大量文档集合 的内容
进行总结、 分类、 聚类和关联分析 , 亦可利 用 We b 文档进行趋势预测。 We b 文本挖 掘采用向量空间模型和语义检 索技术表 示文本 文本分 类的 算法有很 多种 , 其 中最常用到 的是 T F I D F算法和 N a i v e B a y e s 算法。本文采用 Na i v e B a y e s 算法实现对专利的智能分类 I 关键词】 文本挖掘 ; Na i v e B a y e s 算法; 分类
do c ume n t f o r t he t r e nd p r e d i c t i o n a s we l 1 .W e b t e x t mi n i n g u s i n g t h e v e c t o r s p a c e mo d e l a n d s e ma n t i c r e t r i e v a l t o e x p r e s s t h e t e x t Th e r e a r e ma ny

Web使用挖掘预处理技术研究

Web使用挖掘预处理技术研究
性的, 对于以图像视频文件为主要内容的网站来说 , 这些 日 志文件 则是用户 显示请求相关浏览 页面 的结 果, 应该保留加以分析 。具体的删除操作 中, 实际的挖掘任务应结合 网页的分类处理来对 日志文件进行
收 稿 日期 :06一O 一o 20 1 9
作者简介 : 王晓乔 (97 ) 女, 1 一 , 湖南湘潭人 , 7 讲师 , 方向 : 研究 计算机应用 。
被保存在用户 日 志文件 中, 这给正确有效地获取用户访问模式 的行为视图带来 了很大的困难。一个简单 的办法是检查 H n 文件的后缀名来删除无关数据项 , u] 例如 日 志文件后缀名为 JG JE GF j , 。 i P 、 G、I、 gj g 、 P p p f c J 的相关数据项 皆可删除, 、 s 而不会对后续的预处理工作产生太大影 响。当然 , 用户 的访问行为是多样
M zl 42cm aal;M I50 ;idw T .) oia .(o ptb l/ i e S .1wno s 50 E N 这个 日志文 件 中 客 户 端 I 址 为 12 18 920 服 务 器 端 I 址 为 12 18 9 7 。 务 器 名 为 P地 9 .6 . .1, P地 9 .6 . .8服
W eos, r a hue客户端请求 日 期和时间分别是 0/020 和 O :63 。客户请求发送 20bt 请求接收 70 8 1 03 / 8 2 :O 9 y , hn请求方法 Gt d e, 请求协议 H I1 1状态码 20服务器代理为 M zl 42 T' ., P 0, o l/ .。 i a
1 数据清洗
数据清洗的主要任务是清洗与 日 志挖掘任务无关的 日 志数据项 , 包括用户请求失败的 日 志记录 、 动 自

Web数据挖掘技术综述

Web数据挖掘技术综述

擎加入索引的速度增 长; 2 搜索结果的不准确性 : () 由于各搜
索 引 擎使 用 的信 息 搜 集 算 法 并 不 是 完 全 的 匹 配 算 法 从 而 使
得在给用户提供了有用信息的同时夹杂 了大 量的无用信息 ; () 3 不能提供多媒 体搜索服 务 。如何快 速 、 确地获得 有 准
价 值 的 网络 信 息 , 何 理解 已有 的 历 史 数 据 并 用 于 预 测 未 来 如 的行为, 如何 从 这 些 海 量 数 据 中 发 现 知 识 , 何 给 用 户 提 供 如 个性 化 的服 务 以 及 从 网上 产 生 新 的 知 识 是 网 络 用 户 的 新 要 求 。We 据 挖 掘技 术 在 某 种 程 度上 解 决 以上 问题 。 b数
Vo . No 2 1 8. .
Jn 20 u .,0 8
文 章 编 号 :6 1 44 (0 8 0 05 —0 17 — 64 20 )2— 0 5 3
We b数 据 挖 掘 技 术 综 述
李 娟 , 董 军
( . 陵科技 学院 1金 信 息技 术 学院 , 苏 南京 江 200 ; 10 1 209 ) 10 4 2 .南京理 工大 学 计 算机科 学与技 术 学院 , 苏 南京 江

要 : 于 大型 数 据 库 的 不 断 涌现 和数 据 挖 掘 的 应 运 而 生 , 述 了 We 基 综 b数 据 挖 掘 的基 本 概 念 , 并提 出一 种 基 于 We b
服 务 的数 据 挖掘 体 系 。 关键 词 : b 据 挖 掘 ; 据 挖 掘 ; b服 务 We 数 数 We 中 图分 类 号 :P 1 .3 T 3 1 1 文 献 标 识 码 : A
在 这 被 称 之 为信 息 爆 炸 的 时 代 , 息 过 量 几 乎 成 为 人 人 信 需要 面对 的 问题 。如 何 才 能 不被 信 息 的 汪 洋 大 海 所 淹 没 , 从

数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究摘要:web中的数据挖掘技术是一种新型的技术,web自身的特点,决定了web数据挖掘技术具有更多的特点,而且应用也非常广泛,不仅能够提取页面的信息,进行站点设计分析,而且在电子商务方面也具有非常广阔的应用前景。

本文对数据挖掘技术在web中的应用进行分析。

关键词:数据挖掘技术;web应用;网络技术中图分类号:tp352 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02随着网络技术的快速发展,网络上数据资源的越来越丰富,人们迫切需要将这些数据转换成有用的信息和知识,进而促生了数据挖掘(data mining,dm)和知识发现(knowledge discovery,kd)领域。

信息技术的发展,对web应用提出更高了要求,为了能够满足人们对信息获取的要求,研究基于web的数据挖掘技术,以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。

1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息,从中寻找其规律,揭示出隐含的、具有潜在价值的知识,从而为决策支持提供有力依据的过程。

数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。

随着网络应用的普及,网络中信息量迅速增加,传统的知识发现(kdd:knowledge discovery indatabases)技术和方法已经不能满足人们从web中获取信息的需要,基于网络技术提供对各类数据的深层次实时分析,提供决策支持服务,就使得基于web的数据挖掘技术应运而生,这种技术将传统的数据挖掘和web应用技术相互结合起来,实现高度自动化的分析和归纳性的推理。

图1为web数据挖掘原理流程:2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境,还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。

在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯,选择提供最佳的服务方式、消费习惯,还能够分析购物者的个人爱好[3],从而提供更加贴切的商品推介。

基于Web的网络信息挖掘技术研究

Vo ., . 6 J n 01 , P.3 9 43 1 1 No 1 , u e 2 0 P 4 3 — 4 6
基于 We b的 网络 信 息 挖 掘 技 术研 究
高 敏,俊, 艳 立 李 肖 芹
(qJ, 、 t t 大 :汁 解 l . .'l :Jl  ̄ - 1 , , L保 定 0 1 0 ) f f I 7 0 2
Hale Waihona Puke GAO i ni, I u , AO n i L — l L . XI n J Ya —qn

( mp trCe tro b i iesy Ba dn 7 0 2 Chn ) Co u e ne f He e Unv ri , o ig0 1 0 , ia t
Abs r c :I hi p p r hese fW e t a t n t s a e ,t tpso b—bae nf m ai i ng tc ol y a e d s r d i e alw ih as ac n tnc hih i — s d I or ton M ni e hn og r e ci be n d ti t e r h i sa ew c sde sg d b ut rfrt ine y a ho sl i y,a d o hi b ss he k y tc olgisu e n t nf m ain i ig r ic se n n t s a i,t e e hn o e s d i he i or to m m n a e ds u sd.Fi l nal y,t e pr s e to p i h o p c fa pl- c ton oft e i onnai i i e hnoog spu or a d ai h nf ton m nng t c l y i tf w r

基于网络爬虫原理的Web内容挖掘技术分析

Ke y wo r ds :a n a l y s i s o f We b mi n i ng;W e b r e p t i l e;p r i nc i p l e a n a l ys i s
0 引言
随着 I n t e me t 的 日益 普 及 , 电子 商 务正 以其成 本 低廉 、 方 ห้องสมุดไป่ตู้、 不受 时空限制等 突出优点而逐步在 全球流行 。同时经济模 式 也发生 了变化 , 从传统 的实体商店 到 I n t e r n e t 上 的 电子交易 ,

{ w 曲 查 询 资 源 箍霎 霭 模 式 发 现 模 式 分 析 信 息 整 理 l
图1 We b 数据挖掘步骤
( 1 ) We b 查 找资源 : 根据所提供 的 目标 We b 文档 内容 , 采用 定的技术方法 获得 相应的数据 , 形成挖掘 的数据 源。需要说
明的是 , 这部 分资源不仅 局限于 在线 We b 文 档资源 , 还包 括与
改变了 销售商和 顾客 的关系 。现在 , 网上顾客 的流动 性很大 ,
他 们更多关注商 品的使用价值 和价格 , 而 不像 以前 更多关注 品
其相关的 电子 邮件 、 电子文档 、 新 闻组 , 或者 网站 的 日志数据资 牌和地理 因素 。因此 , 电子销售商一个 主要的挑战是尽 可能多 源, 甚至还可 包括通过 We b 形成 的交易数据 库 中的数 据资源 。 地 了解到客 户的兴趣爱好和价值 取向 , 以保证在 电子商务时代 如 何对 这些 资源进行融合是一个极为重要的问题 。 的竞争 力。通过 We b日志挖 掘 , 可 以发 现顾 客的购买 偏好 ; 发 ( 2 )信息选 择和预处理 : 通过查询获得 的数据源 , 从 中筛选 现 忠实客户 , 为他们提供 个性化的服 务 , 延长 客户的驻 留时间 ; 出有用的信 息 , 并将其按一定 的类型进行归集 。 发 现潜在 用 户 , 为他 们提供 个性 化页面 , 变 潜在用 户为忠 实客 ( 3 ) 模式发 现 : 针对 归集得到的有用信息 , 将其应 用于某一 户, 扩 大市场 占有率 ; 分析客 户未来可能发生 的行为 , 进 行有针 具体 的站点或多个相 应的站点 , 并进行 自动模式发现 。 对性 的 电子商 务营销活动 , 提高广告 的投 资回报率 。所 以从长 ( 4 ) 模式分 析 : 对模式 发现阶段得到 的一些模式进行分析 , 远看 对基于 We b 数据挖掘 的研 究很有必 要。 验证、 解释 每一步骤间产生 的模 式的关联关系 。这 一阶段的工

基于Web的数据挖掘技术研究

提供 个性化 的服 务 。 方面的研 究主要有两个 这 录追踪 。 一般的 访问模式追 踪通过分 析使用记
方向 : 一般的访 问模式追踪 和个性化 的使用记 Sy e La g a e来定 义XML t l n u g ) 的显示 格式 , 也
数 页面 录来 了解用 户的访问模式 和倾 向, 以改进 站点 MXL 据 以数据 岛的形式 内嵌到 HTML 的组织 结构 。 个性 化 的使 用记录追 踪则倾 向 而
比面 向单个数据 仓库的数据挖 掘要复 杂的多 。
We 数据 挖 掘将数 据挖 掘的思 想和 方法应 用 b 到We 上 , b 进行We 挖掘 , b 挖掘出有用 的信息 ,
问记录 中抽 取感兴趣 的模式 。 维网 中的每 个 型 只需 改 变数 据 模式 定 义 , 文档 类 型定 义 万 如 服务器都保 留了访 问 E志 , l 记录 了关于用 户访 等 , 不需 要重新 编码现有 的对 象。
问和 交互的信息 。 分析 这些数据可 以帮助理解
() 4 显示的 多样性 。 ML 个及 其鲜 明的 X 一 特点是把 数据的显示 格式和数 据的表示分 离。
在XML中, 以用 格式文件 ̄ XS ( xe s l 可 H L E tn i e b 可 以利 用 HTM L作为 XML的 显 示 模 板 , 把
导航 工具帮助 他们管理 网络 上的信息 。
中。 这种 分离可以实现 不同数据 源数据的 无缝
于分析 单个用 户的偏好 , 目的是根据 不 同用 其
连接 。 各种数据可 以在 中间件上转换为X 格 ML
式, 使得数据 很容 易地进行 在线 交换和传输 。 () 度级 的更新 。 ML 5粒 X 可以 实现 当数据 的一部 分改 变时 , 或者需 新增 数据时 , 必重 不 新 发送全部数据 , 仅需要将 改变的 内容 或新增

浅谈Web日志挖掘技术


网络 作 为我们 生 活 的一 部分 ,在 2 l世纪 之后 更 是 以迅猛 的 技 术 ,这样 我们 就 能发 现一 些潜 在 的用户 访 问模式 ,从 而 为用户 速 度 发展 ,其 影 响力 已经 渗透 到 了我 们 日常 生活 的方 方面 面 。特 行 为 的研 究提 供实 际参考 价值 和 便利 。 别 是 从 W b . 以来 。网 站 已经 越 来越 成 为一 种 流 行 的互 动 媒 e 20 三、W b日志挖 掘 的优 点 e 介 ,据 不 完全 统 计 , 目前 万 维 网上 的 Wb 页 面数 目现 已超 过 l e O 在 W b 据挖 掘下 ,W b日志 挖掘 具有独 特 的现实 意义 。Wb e数 e e 亿 。怎样 从 这样 一个 庞大 而有 用 的数 据源 中 找 出用户 感 兴趣 的知 日志挖 掘 的应 用及 好 处主 要有 :提 高系统 效 率 ,优化 网站结 构 , 识越 来越 成 为人们 的一个研 究 热 点 。 个 性 化服 务 。
W e g M i i g Te h o o y S u y b Lo n n c n l g t d
P n ig e gJn
( u e U i ri f e h oo yWu a 4 0 6 ,hn ) H b i n esyo c n lg , h n 3 0 8C i v t T a
计算机光盘软件与应用
工 程 技 术
C m u e D S fw r n p lc t 0 s o p t r C o t a ea dA p i a i n
ห้องสมุดไป่ตู้2 1 年第 4期 02
浅谈 We b日志挖掘技术
彭 晶
( 湖北工业大 学,武 汉
406 30 8)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Web挖掘技术Web挖掘技术是实现Web个性化服务的核心技术之一。

Web挖掘的一般过程可以分成三个阶段:1.预处理:需要对收集的数据进行必要的预处理,如清除“脏”数据。

2.模式发现:应用不同的Web挖掘算法发现用户访问模式。

3.模式分析:从发现的模式集合中选择有意义的模式。

Web挖掘通常可以分成三大类,如图12-2所示。

图12-2 Web挖掘的分类Web内容挖掘是从Web资源中发现信息或知识的过程。

在创建个性化服务系统时,人们通常应用Web内容挖掘对网页内容进行分析,其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。

根据实现方法的不同可以分成基于代理的方法和数据库方法。

Web内容挖掘由于直接处理数据对象的内容,因此得到的结果一般比较精确,在个性化系统中得到较广泛的应用。

Web使用挖掘技术通常可以应用到两个领域: 当用来分析Web服务器的访问日志时,可以利用挖掘得到的服务模型来设计适应性Web站点;当应用到单个用户时,通过分析用户的访问历史来发现有用的用户访问模式。

Web使用挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志,无法得知数据对象代表的内容,因此得到的结果一般比较粗糙,但是由于该方法比较成熟而且实现起来也较内容挖掘简单,在个性化系统中也得到了较广泛的应用。

Web使用挖掘的基本方法包括:聚类、关联规则、序列模式、分类、依赖性建模、统计分析等。

Web结构包括页面内部的结构以及页面之间的结构。

挖掘Web结构信息对于导航用户浏览行为、改进站点设计、评价页面的重要性等都非常重要。

PageRank 算法和HITS算法利用Web页面间的超链接信息计算“权威型”(Authorities)网页和“目录型”(Hubs)网页的权值。

Web结构挖掘通常需要整个Web的全局数据,因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。

基于Web挖掘的个性化技术所谓Web个性化,实质上就是一种以用户需求为中心的Web服务。

如图12-1所示。

首先,不同Web用户通过各种途径访问Web资源,如图12-1中箭头a所示。

其次,系统学习用户的特性,创建用户访问模型,如图12-1中箭头b所示。

最后,系统根据得到的知识调整服务内容,以适应不同用户的个性化需求,如图12-1中箭头c所示。

因此创建Web个性化服务系统的一般步骤为:1.收集用户的各种信息,如注册信息,访问历史等;2.分析用户数据,创建符合用户特性的访问模式;3.结合用户特性,向用户提供符合其特殊需求的个性化服务。

用户对系统提供的服务做出反馈信息,系统根据反馈信息调整服务。

通过用户与系统之间循环往复的交互,系统最终能够为用户提供个性化服务。

从上面的分析可以看出,通过分析用户的各种信息建立用户访问模式是建立个性化服务系统的关键。

因为只有首先客观地描述了用户的需求,然后才能根据这些特性向用户提供个性化服务。

图12-1 Web个性化的实质截尾算法对于一篇待分类文档,应用m元分类算法通常得到多个类别。

一般情况下都要求从这些候选类别中选择部分类别为该文档的最终分类结果。

这个过程使用的方法通常被称为阈值策略。

下面简单介绍三个比较常见的阈值策略。

1、位置截尾法(rank-based thresholding,记为RCut)假设分类系统预先定义的类别数为m。

整数k大于1并且小于m。

对于每一个待分类的文档D,分类系统都返回一个长为m的候选类列表,取候选类列表的前k 项(按类和文档的相似度排序),这篇文档就被认为属于这k个类。

这种阈值策略就被称为位置截尾法。

RCut方法的优点是实现非常简单,能够胜任在线分类工作。

但它存在严重的缺陷:假设待分类的文档数目为n,候选类列表的每个位置都对应m个候选类。

即使k变化1,每篇文档的类关系都要发生变化。

因此,无法平滑地调整分类系统的性能。

我们称RCut算法是以文档为中心的。

2、比例截尾法(proportion-based thresholding,记为PCut)假设待分类的文档数目为n,预先定义的类别数为m。

Pi表示训练集中属于类i 的文档所占的比例。

系统首先计算出每篇待分类文档的候选类列表,然后生成每个类的候选文档列表(按类和文档的相似度排序)。

对于类i,取这个类的候选文档列表中的前n*Pi*x篇文档属于这个类,其他的文档则不属于这个类。

其中x是经验比例因子(为一实数),通过改变它的大小,可以平滑地调整系统的性能。

PCut算法的基本思想是控制分入各个类的文档数,使它们保持训练集中各个类文档数的比例关系。

这种算法最大的问题是过分依赖于这种比例关系,而没有考虑类和文档的相似度以及类在候选类列表中的位置。

可以看到,PCut算法是以类别为中心的。

同RCut算法相比,PCut算法的系统性能比较平滑,但是不适用于在线分类。

3、最优截尾法(score-based local optimization thresholding,记为SCut)同PCut算法一样,Scut算法也是以类别为中心。

假设待分类的文档数目为n,预先定义的类别数为m。

系统首先计算出每篇待分类文档的候选类列表,然后生成每个类的候选文档列表(按类和文档的相似度排序)。

对于候选类列表里的每一个类,如果这篇文档和这个类的相似度大于这个类的最优截尾相似度,那么这篇文档就属于这个类。

否则,这篇文档就不属于这个类,其中,每个类的最优截尾相似度是这样预先取得的:将训练集分成两部分,其中一部分仍然作为训练集,另一部分作为测试集,对每一个类,评价分类系统在这个测试集下对于这个类的分类性能,调整截尾相似度,使得系统的性能达到最优,此时截尾相似度的值就是这个类的最优截尾相似度。

SCut算法性能比较优异,但是不能很好地处理那些稀有类别(就是比较少见的类别)。

表11-5 RCut和SCut截尾算法的比较文献[Yang,2001]比较研究了上述三种阈值策略,结果发现SCut算法效果明显优于PCut和RCut算法。

由于本文使用的训练样本分布比较均匀,每个类平均有17个训练网页,对于这种基本按比例分布的样本集,PCut方法就没有什么作用了,因此,我们比较研究了RCut和SCut方法,总体分类结果如表11-5所示。

从表11-5可以看出,SCut方法比RCut方法在分类质量上要好,而分类效率却要差些,但是两者的差别不是十分明显。

这里,RCut方法的分类质量同基本kNN 方法的分类质量完全一样,因为通过实验测试发现,当R=1时,分类器的分类质量最好,RCut的这种取大的一个文档类别的计算方法同普通kNN的计算方法一样。

所以,两者的分类结果是一样的。

具体达到12个大类,两者分类结果的比较见图11-15所示,从中可以看出,SCut比RCut方法的效果要好一些。

图11-15 RCut和SCut截尾算法的比较网页自动分类算法在本章第二节,我们有了一个关于各种文档自动分类算法的概貌。

下面对几个比较典型的分类算法进行具体的介绍,并给出了 kNN与NB算法的分类质量与效率的实验结果比较。

一、典型分类算法1、kNN分类算法kNN分类算法是一种传统的基于统计的模式识别方法。

算法思想很简单:对于一篇待分类文档,系统在训练集中找到k个最相近的邻居,使用这k个邻居的类别为该文档的候选类别。

该文档与k个邻居之间的相似度按类别分别求和,减去一个预先得到的截尾阈值,就得到该文档的类别测度。

用kNN也表示所选k个最相近文档的集合,公式(11-9)刻画了上述思想。

其中,x为一篇待分类网页的向量表示;di为训练集中的一篇实例网页的向量表示;cj 为一类别;y(di,cj)∈{0,1}(当d属于cj时取1;当d不属于cj时取0);b j 为预先计算得到的cj的最优截尾阈值;sim(x,di)为待分类网页与网页实例之间的相似度,由文档间的余弦相似度公式(11-10)计算得到:kNN算法本身简单有效,它是一种lazy-learning算法,分类器不需要使用训练集进行训练,训练时间复杂度为0。

kNN分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为n,那么kNN的分类时间复杂度为O(n)。

2、NB(Naïve Bayes)算法NB算法是基于贝叶斯全概率公式的一种分类算法。

贝叶斯全概率公式的定义如公式(11-11)所示。

给定一个类c以及文档d(a1,a2,…,an),其中ai表示文档d中出现的第i个特征项的权值,n为文档中出现的特征项的总数。

根据全概率公式,可以得到公式(11-12):其中,P(c|d)表示文档d属于类别c的概率;P(c)表示待分类的文档所处的领域中文档属于这个类的概率,在具体的计算时,可以分别用训练集中属于这个类的文档所占的比例代替。

P(ai |c)表示在类别c中特征项ai出现的概率,可以近似地用训练集中包含有该特征项的类别c中的文档个数与训练集中类别为c的文档总数的比值表示。

由此可以看出,NB算法假设文档之间的特征项都是相互独立的。

但是,这一假设对语义丰富的语言文字信息往往过于简单,这也在一定程度上限制了算法的性能。

NB算法需要使用训练集对分类器进行训练,也就是需要分别计算每个P(a|c)。

i假设训练集共有m个类别,n个特征项,待分类文档共有k个特征项,那么训练的时间复杂度为O(m*n)。

分类的时间复杂度为O(k)。

3、决策树(Decision Tree,Dtree)算法决策树算法通过对训练数据的学习,总结出一般化的规则,然后再利用这些规则解决问题。

用决策树进行文档分类的基本思路是这样的:先用训练集为预先定义的每一个类构造一棵决策树,构造方法如下:1.以训练集作为树的根结点,它表示所有的训练文档,将它标记为“未被检测”;2.找到一个标记为“未被检测”的叶结点,如果它表示的所有文档都属于这个类,或者都不属于这个类,将这个叶结点的标记改为“已被检测”,然后直接跳到第三步;否则,挑选当前最能区分这个结点表示的文档集中属于这个类的文档和不属于这个类的文档的特征项作为这个结点的属性值,然后以这个结点为父结点,增添两个新的叶结点,都标记为“未被检测”,父结点表示的训练文档集中含有这个特征项的所有文档用左子结点表示,所有不含有这个特征项的文档用右子结点表示;3.重复第二步操作,直到所有的叶结点都被检测过。

对每棵决策树,从它的根结点开始,判断结点的属性值(特征项)是否在待分类的文档中出现,如果出现,则沿着左子树向下走;否则沿着右子树向下,再继续判断当前结点的属性值是否在待分类的文档中出现,直到到达决策树的某个叶结点,如果这个叶结点表示的训练文档都属于这个类,则判定这篇待分类的文档也属于这个类;反之亦然。

4、Rocchio算法其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。

相关文档
最新文档