改进WEB数据挖掘方法及其在个性化推荐中的应用

合集下载

Web使用挖掘在电子商务个性化服务中的应用

Web使用挖掘在电子商务个性化服务中的应用

维普资讯
2 o 年 9月 O7
湖 北 经 济 学 院学 报 ( 文 社会 科 学 版 ) 人
J unlo b i iest f o o c( ma ie n o il ce c s o ra f Hu e v ri o n misHu nt sa dS ca in e Un y Ec i S
提 出 了基 于 w e b使 用挖 掘 的 个 性化 电子 商务 体 系结 构, 对 其 工 作流 程 进 行 了简要 的介 绍 。 并 关键 词 : e w b使 用挖 掘 ; 电子 商 务; 个性 化 服 务



引言
传 统 的数 据 挖 掘 同 We b结 合 起 来 ,进 行 We 挖 掘 ,即从 与 b w WW相 关 的 资 源 和 用 户 浏 览 行 为 中抽 取 感 兴趣 的 、潜 在 有
随着 it t 用迅 速发 展 , 类 电子 商 务 网 站 以其 成本 ne me 应 各 低 廉 、 捷 、 受 时 空 限 制 而逐 步 在 全 球 流 行 。 在 这 种新 型 的 快 不 商务 模 式 下 , 持老 客 户 的 同 时 获得 新 客 户 的 难 度 更 大 , 各 保 从
二 、 性 化 服 务 与 电 子商 务 个
We 结 构挖 掘 和 We 用 挖 掘 。其 中 We 用 挖 掘 在 个 性 b b使 b使
化 服 务 中扮 演 着 重要 角 色 。 b使 用 挖 掘 是从 We We b的 访 问记 录 中抽 取 用户 感 兴 趣 的模 式 。通 过 对 用 户 浏 览 网 站 的使 用数 据 收 集 、 析 和处 理 , 立 用 户 行 为 和 兴 趣 模 型 , 些 模 型 可 分 建 这 以帮 助 理解 用 户 行 为 ,改 进 站 点 结 构 以 及 为用 户 提 供 良好 的 个 性 化服 务 。 由于个 性 化 推 荐 所 面 临 的 关键 问题 是 需 要 对 大

基于Web使用挖掘的个性化推荐系统

基于Web使用挖掘的个性化推荐系统
维普资讯
第 0 第 9月 2 7卷 8年 9期 0
Vo. . 17 N0 9
S p 2 0 e . 0 8
基 于 We b使 用 挖 掘 的个 性 化 推 荐 系统
黄 河 涛 ,刘 重 洋。
( . 阳师 范 学 院 计 算 机 与 信 息 技 术 学 院 , 南 南 阳 4 3 6 ; . 庆 邮 电 大 学 通 信 与 信 息 工程 学 院 , 庆 4 0 6 ) 1南 河 701 2重 重 0 0 5
类等。
用 户 访 问 信 息 , 将 数 据 挖 掘 技 术 应 用 到 We 它 b巾 ,
形成 了 自己的挖 掘 方式 。一 般对 We b使 用 模 式挖
掘 流 程 的 划 分 可 分 为 步 , 数 据 准 备 阶 段 、 式 即 模
发现 阶段 和模 式分 析 阶段 。 离线 部 分 由数据 预 处理 和模 式挖 掘任 务组成 。l 流程 如 图 1 其 所永 。
We b使 用挖 掘足 通过挖 掘 We b日志 记录 以发 现用 户 访 问 We b页 面 的模 式 、 掘 有 用模 式 和预 挖 测用 户浏 览行 为 的技 术 。挖 掘 的 目的是 在 海量 的 we b日志数 据 中 自动 、 速 地 发 现用 户 的访 问 快 模式 , 频 繁 访 问 路 径 、 繁 访 问 页 组 、 户 聚 如 频 用
摘 要 : b使 用 模 式 挖 掘 是 对 用 户浏 览 We We b后在 服 务 器 日志 上 所 留信 息 的 数 据 挖 掘 。 讨 论 了挖 掘 中常 用技 术 及 流 程, 并提 出一 种 We b使 用模 式挖 掘 体 系结 构 , 绍 了 系统 的 工 作 原 理 , 系统设 计 中 的推 荐 算 法 等 关键 技 术 作 了详 细 讨论 。 介 对

数据挖掘与机器学习在在线广告推荐系统中的应用

数据挖掘与机器学习在在线广告推荐系统中的应用

数据挖掘与机器学习在在线广告推荐系统中的应用随着互联网的快速发展,在线广告推荐系统成为了数字广告行业的重要组成部分。

数据挖掘与机器学习作为现代计算机科学领域的前沿技术,为在线广告推荐系统的发展和优化提供了强大的支持。

本文将探讨数据挖掘与机器学习在在线广告推荐系统中的应用,并介绍其在提升广告效果和用户体验方面的优势。

一、用户画像与兴趣模型在线广告推荐系统的核心目标是根据用户的兴趣和需求,为其推荐最相关和个性化的广告内容。

数据挖掘与机器学习技术可以通过分析用户的历史行为数据,构建用户画像和兴趣模型,从而实现精准推荐。

例如,可以使用聚类算法将用户划分为不同的兴趣群体,进而根据用户所在群体的特征推荐相关广告。

此外,通过机器学习的方法,可以预测用户的兴趣变化和行为趋势,及时调整广告推荐策略,提高广告点击率和转化率。

二、广告内容优化与个性化推荐传统的广告投放往往是采用广播式的方式,将相同的广告内容推送给所有的用户。

而数据挖掘与机器学习技术可以根据用户的兴趣和偏好,实现广告内容的优化和个性化推荐。

通过分析用户的历史点击行为、浏览记录等数据,可以了解用户的兴趣爱好和消费需求,并根据这些信息进行广告内容的定制。

例如,当用户在浏览某个电商网站时,系统可以根据用户的购买记录和浏览行为,推荐关联性高的商品广告,提高广告的点击率和购买转化率。

三、CTR预估与智能投放CTR(Click-Through Rate)预估是在线广告推荐系统中的重要任务,目的是预测用户对广告的点击概率,从而帮助广告主和平台选择最合适的广告位。

数据挖掘与机器学习技术可以通过分析用户的历史点击数据和广告的特征,构建CTR预估模型,实现对广告效果的预测。

通过CTR预估,广告主可以根据不同广告位的CTR指标,选择最优的广告位置进行投放;广告平台可以根据CTR预估模型,自动选择合适的广告进行投放,提高广告整体效果。

四、反作弊与安全保障在线广告推荐系统面临着各种类型的恶意行为和作弊行为,如刷点击、恶意竞价等,这些行为严重影响了广告主和广告平台的权益。

面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用

面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用

之 间的关联性进行 了分析 , 最后对个性化推荐服务 的性 能进行 了验证。
关键词 : b 据挖掘 ; We 数 关联 规 T 1
文 献标 识 码 : B
文 章 编 号 :0 1 7 9 2 1 )2 0 7 0 1 0 — 1 (0 2 0 — 1 — 3 1 1
第2 8卷 第 2期
21 0 2年 2月
科 技 通 报
B L T N CI NC UL E I OF S E E AND T ECHNOL OGY
Vo1 No2 . 28 .
Fb e .2 1 02
面 向We 的数 据挖掘技术在 网站优 化 中的个 性化 b 推荐方 法的研 究与应用
p o e s s o e ain a ay i o so i t n r l s i d o t t e r lt n h p b t e n t e W e a e n a dt n r c s ,u e f r r lt n lss f a s c ai u e ,f u h ea i s i e w e h o o n o b p g ;I d i o , i
宋淑 彩 , 爱 华 , 剑 雄 祁 王
( 河北 建筑 工程 学 院 计算机 系, 河北 张 家 I 0 5 0 ) : 7 0 0 1

要: 数据挖掘就是从 大量的数据 中发现 隐含 的规律性 的内容 。本文从We数 据挖掘方面人 手 , b 对网
站 优 化 的 个 性 化 推 荐 方 法 进 行 了较 为 系 统 地 研 究 , 且 通 过 采 用 适 当 的关 联 规 则 , 用 户 所 浏 览 网 页 并 对
文 本 数 据 挖 掘 是 面 向W e 的数 据 挖 掘 ,是 指 将 b We 数 据 挖 掘 技 术 在 网 站 日志 的 数 据 分 析 中应 用 , b 通

个性化推荐系统中Web使用挖掘技术的研究

个性化推荐系统中Web使用挖掘技术的研究
GU L BaTin。 i Er, i i a Ka Mi HE iDENG a —h n Ka , Xi o e g
( co l f n o m t o S i n e n E g n e i g C n r l o t U i e s t , h n s a H n n 10 5 C ia S h o o I f ra in c e c a d n ie r n , e ta S u h n v r iy C ag h , u a 4 0 7 , h n )
“ 信息 过 载 ” 问题 。 种将 用 户感 兴 趣 的 信 息 主 动 推 荐 给 用 户 的 服 务 方 法 , 也
1 W e 掘技 术 b挖
. 1 b挖 在这样 的网络信息服务的现状下 ,人们正在寻求一 1 we 掘 技 术 概 念 We 掘 技 术 ( ቤተ መጻሕፍቲ ባይዱM n g 数 据 挖 掘 在 We 上 的 b挖 We ii ) n是 b 就是 个 性 化推 荐 服 务 。 这里 个 性 化 是 指针 对 性 , 也就 是 把 延 伸 与应 用 , 是 多 种 技 术 的 交 叉 , 括 数 据 挖 掘 、 b 它 包 We 、
第2 第3 9卷 期
V0 .9 No3 12 .
企 业 技 术 开 发
TECH NOL OGI CAL DEVEL0PM ENT 0F ENTERPRI SE
21 0 0年 2月
F b2 0 e .01
个 性化 推荐 系统 中 We b使 用挖 掘技 术 的研 究
古 丽 拜 天 ・ 米 尔 , 恺 , 晓 衡 卡 贺 邓
不同的服务策略提供给不同的用户 ,为不同的用户提供 计算机语言学 、 信息学等多个领域结合 , 各个研究者从 自

网络数据挖掘在图书馆个性化推荐中的应用研究

网络数据挖掘在图书馆个性化推荐中的应用研究

网络数据挖掘在图书馆个性化推荐中的应用研究引言讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深入分析,提出了具体算法。

网络数据挖掘又称web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从web网站的数据中发掘关系和规则。

其挖掘对象是大量、异质、分布的web文档,可以对数据库、web服务器上的日志、读者信息等数据展开挖掘工作。

同时,由于web在逻辑上是一个由文档节点和超链接构成的图,因此web挖掘所得到的模式可能是关于web内容的,也可能是关于web结构的,或者是关于用户行为模式的1。

通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的web信息服务。

本文以中国知网(cnki)总库为统计源,以主题“we数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。

具体数据如表2所示:根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。

网络数据挖掘在图书馆中的应用主要表现在以下几个方面:(1)图书推荐系统。

这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。

这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。

但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。

因此,这个研究的重点和难点在使用的挖掘算法上2。

(2)网络学习平台。

现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。

这类应用主要是针对网络学习中的学习资源的挖掘。

因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。

数据挖掘与个性化推荐策略

数据挖掘与个性化推荐策略

数据挖掘与个性化推荐策略随着互联网的发展和智能科技的普及,人们对海量数据的应用需求越来越强烈。

数据挖掘作为一种有效的技术手段,可以通过分析和挖掘大量数据中的潜在关系和模式,帮助人们从中获取有用的信息和洞察,并为个性化推荐做出科学、合理的决策。

本文将探讨数据挖掘在个性化推荐策略中的应用,并介绍几种常见的个性化推荐算法。

一、数据挖掘在个性化推荐中的应用1. 用户画像构建用户画像是对用户兴趣、行为和偏好等方面的综合描述,是个性化推荐的基础。

通过数据挖掘技术,可以分析用户在网上的浏览行为、搜索记录、购买历史等信息,将用户划分为不同的群体,并构建相应的用户画像。

这为后续的个性化推荐提供了基础数据和指导。

2. 特征提取与选择在个性化推荐中,用户和物品(如商品、文章等)都有各种各样的特征,如年龄、性别、价格、类别等。

通过数据挖掘技术,可以有效地提取和选择最具代表性和区分度的特征,为推荐算法提供有用的信息支持。

3. 相似性度量与匹配个性化推荐主要基于用户兴趣与物品之间的相似性度量和匹配。

数据挖掘技术可以通过比较用户行为、关键词等方面的相似性,找到与用户兴趣最相关的物品,从而实现精准的个性化推荐。

二、个性化推荐策略1. 基于内容的推荐算法基于内容的推荐算法通过分析物品的特征和用户的偏好,将物品和用户之间建立起关联,并推荐与用户兴趣最相近的物品。

该算法的优势在于对新用户和冷启动问题的适应性强,但对于个性化程度较高的推荐效果可能不如其他算法。

2. 协同过滤推荐算法协同过滤推荐算法是基于用户行为数据的,可以从用户与物品之间的关联中发现隐藏的兴趣和兴趣组合。

通过分析用户的历史行为和与其他用户的行为之间的相似性,找到与用户最相似的用户,并推荐其喜欢的物品。

该算法的优势在于可以发现用户之间的潜在关系,但对于新用户和稀疏用户的推荐效果可能较差。

3. 混合推荐算法混合推荐算法综合了多种个性化推荐算法的优势,通过权衡和组合各种算法的结果,得到更准确和全面的个性化推荐。

Web使用挖掘在用户个性化服务系统中的应用

Web使用挖掘在用户个性化服务系统中的应用
类报 告还 能提 供一 些有 限的分 析 , 比如 检测 未授 权 入 口点 。 出最 常见 不变 的 U L等 。尽管 这 种分 析 找 R 缺乏 深度 。 但这 类 知识 有助 于改 进 系统性 能 、 高系 提 统 的 安全性 、 于站 点修 改 , 提供 决策 支持 。 便 并 ( )关联 规则 。关 联 规则 主要 关 注事 务 内的关 2 系 。在 We b使 用挖 掘 中 , 联 规 则挖 掘就 是 挖掘 出 关 用 户与访 问 页面 P文件 之 间 的关 系 ,找 出在 某 次服 务器 会话 中经 常 一起 出现 的相 关 页面 。挖 掘发 现 的 关联 规 则往往 是 指支持 度 超过 预设 阕值 的 一组访 问 网页 。 研 算 法是挖 掘关 联规 则 的常用技 术 , A 可从 事务 数 据库 中挖 掘 出最 大 频繁 访 问项集 ,该 项集 就 是关 联规 则挖 掘 出来 的用 户访 问模 式 。 由于一般 网 站 的用 户访 问序 列数 据库 数据 量都 很 大 , 目前 的关
供个性 化 服务特 别有 用 。 () 4 分类 技术 。 主要 是根 据用 户群 的特征 挖掘 用 户群 的访 问特 征 ( 些 共 同 的特 性 )其 结 果 可 用 于 某 , 分析访 问某 一 服务 器 的用 户特 征 ,从而 用于 页 面推 荐等 。 () 5 序列 模式 。 这是 挖掘 出交 易集之 间 时间 序列 关 系的模 式 . 是从 We 日志 中发现 所 有满 足 用户 规 b 定 的最 小支 持度 的大 序列 模式 。 223 模式 分析 .- 模 式分 析 的主 要任 务是 对模 式发 现 中收 集到 的 数据进 行分 析 , 以便得 到用 户感兴 趣 的模式 。 一般 采
用 的模 式 分析方 法有 两种 。一种是 类似 S L的形 式 Q 化 的知识 查 询机 制 : 另外 一 种 就是对 We b数 据进 行 预处 理 以后创建 数 据仓 库 。并转 化 为相对 应 的多 数 据模 型 ,利用 联 机分 析工 具 O A L P对数 据 模 型进 行 处理 以后 获得知 识 , 终 提供可 视化 的结果 输 出 。 最
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2010年第6期 科技管理研究Science and Technol ogyManagement Research 2010No 16收稿日期:2009-09-29,修回日期:2010-02-05?基金项目:国家自然科学基金项目“多目标非线性规划数据挖掘方法及其应用”(70023836)文章编号:1000-7695(2010)06-0239-03改进W E B 数据挖掘方法及其在个性化推荐中的应用何俊杰1,2,陆 军2(11宁波大学网络中心,浙江宁波 315211;21国防科技大学计算机学院,湖南长沙 410073)摘要:个性推荐系统在数字图书馆中具有良好的发展和应用前景,逐渐成为电子资源智能处理的一个重要研究内容。

提出了一种基于遗传算法的改进W E B 数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。

实验结果表明,本文方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快;本文方法极大地提高了文本挖掘系统的分类效率。

关键词:数据挖掘;个性化推荐;遗传算法;数字图书馆中图分类号:G202 文献标识码:A1 引言数据挖掘的核心技术历经了十几年的发展,已经取得了很大的成就。

现在,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段[1]。

W E B 数据挖掘是数据挖掘的一个重要分支,是随着数据库技术、人工智能技术和网络技术的发展而提出的[2]。

互联网使得目前数字图书馆中的信息资源更加丰富,但随着信息量的膨胀,用户很难获得符合其偏好特征的信息。

为了克服这种信息获取困难,个性化推荐技术被应用到数字图书馆中,从而主动向用户推荐其可能需要的信息。

目前,个性化推荐技术[3]被应用在很多领域,如电子商务、W E B 信息检索等,其中应用较成熟的是基于协作过滤的推荐技术。

但在其应用的过程中存在很多问题,如用户评价矩阵的稀疏性、算法的可扩展性等。

为了解决这些问题,很多改进的方法先后被提出,如单值分解法[4]、贝叶斯法[5]等,但稀疏性问题均未得到很好的解决,更重要的是图书馆的读者都有特定专业背景,读者兴趣也有其特殊性。

在数字图书馆中对于大多数读者尤其是研究型读者来说,他们的研究兴趣往往集中在某一个(或几个)领域中,对于研究领域中的信息资源具有较多的评价,而对研究领域以外的信息资源评价很少甚至几乎没有。

鉴于此,提出了一种基于遗传算法的改进W E B 数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。

文本分类技术出现于20世纪60年代早期[5]。

20世纪80年代,研究人员用知识工程(Knowledge Engineering,KE )的方法来实现文本分类[6]。

KE 方法一般采用析取范式(D is 2junctive Nor m For m,DNF )为每个类别定义逻辑规则,是一种简单的自然语言处理方法(Natural Language Pr ocessing,NLP )。

Rau 等采用复杂的词汇———语义模式来实现对自然语言资料库(Natural Language for Data Bases,NLDB )的分类[7]。

Jacobs 等采用统计方法来辅助构造分类规则,进一步提高了文本分类系统的性能[8]。

采用KE 方法实现文本分类需要手工编制规则或应用其它复杂的NLP 技术,难度非常大,也非常耗时,在很多场合显得过于低效而不实用[9]。

W E B 挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程[10]。

W E B 挖掘是一项综合技术,涉及W E B 、数据挖掘、计算语言学、信息学等多个领域[11]。

和传统的数据挖掘相比,W E B 挖掘有很多的独特之处[12]。

首先,W E B 在逻辑上是一个由文档节点和超链接构成的图,因此W E B 挖掘所得到的模式可以是关于W E B 内容的,也可以是关于W E B 结构的。

其次,W E B 挖掘的对象是大量的、分布的、异质的W E B 文档,它们是结构化的或半结构化的,数据量巨大,增长迅速,并且具有机器难以理解的语义。

因此现有的数据挖掘工具并不完全适用于W E B 挖掘。

这样,开发新的W E B 挖掘技术,以及对W E B 文档进行预处理得到关于文档的特征表示等问题,便成为W E B 挖掘研究的重点。

2 一种改进的W EB 数据挖掘方法本文基于遗传算法的改进W E B 数据挖掘方法的优化框架如图1所示。

该方法按照顺序覆盖的方法,试图挖掘出一个能覆盖大多数甚至全部训练样本的分类规则列表。

该方法的执行流程可描述如下:(1)变量初始化。

将已发现规则列表设置为空,同时将所有的训练样本放置到训练样本集中。

(2)遗传算法的演化。

遗传算法的每次演化都能发现一个分类规则。

遗传算法演化完成后,将本次演化发现的规则加入到已发现规则列表中;同时,将该规则所覆盖的样本从训练样本集中剔除。

(3)终止条件。

当未覆盖样本的数目小于用户预设值时,遗传算法停止演化。

采用本文方法实现的中文W E B 文本挖掘原型系统既是一个实验平台,也是一个实用平台。

在该平台上,既可以进行W E B 文本挖掘过程中的向量表示、特征抽取、分类等实验,又可以对采集到的原始W E B 网页按照预定义的类别选择分类器进行自动分类。

作为一个实用平台,系统在设计时考虑了对语料的无关性(即不依赖于语料集的种类,挖掘的对象既可以是原始的W E B 网页,也可以是普通的文本文件),对算法的无关性(即挖掘过程的各个关键环节是相对独立的)。

通过对各种静态数据进行设置,在分类的各个阶何俊杰等:改进W E B 数据挖掘方法及其在个性化推荐中的应用段可以选择不同的算法、参数和数据文件,同时对实验阶段得到的优化算法形成参数集,以便在实际使用时直接利用实验的结果。

采用面向对象的程序设计思想,我们的系统从结构上可以分为三层,如图2所示。

图1 本文改进W E B数据挖掘方法的优化框架图2 中文W E B 文本挖掘原型系统的层次结构图 (1)数据层。

将系统涉及到的各种数据和基本操作、算法封装成类,所有的数据采用基本统一的数据结构。

对于非连续索引的需要经常查询的数据采用散列表的方式,在散列表内部采用单向链表的方式以解决“冲突”问题,对于其它数据则采用结构数组的方式进行存储。

一方面考虑了数据读写、查询的效率,另一方面考虑了尽量减少内存的使用。

(2)功能层。

在数据层的基础上,笔者实现了各种功能模块。

功能模块通过对数据类的操作,实现系统的基本功能,完成各种实验和自动分类过程。

(3)应用层。

完成人机界面、数据组织和参数的管理,并对各种实验和分类过程中的处理步骤进行记录,实现了过程日志的文件输出和分析结果的图形化显示。

通过分析各种数据的依赖性和继承性,保证挖掘过程中数据的一致性。

3 方法测试和应用311 本文方法的测试为了验证本文方法的效率,笔者使用了3个标准的文本数据集来进行实验测试。

(1)20Ne wsgr oup s (20NC )。

20NC 也是一个常用的文本数据集,其中收集了来自20个新闻组的近20000篇新闻。

20NC 共包含18828个文本。

(2)I ndustry Sect or (I S )。

I S 是一个网页数据集,其网页分别来自各种不同工业经济部门的网站。

这个数据集总共包含9652个网页文本,分属于105个不同的类。

(3)网页数据集(W eb )。

W eb 收集自Google 的Open D irect ory Pr oject 项目。

在实验中,我们随机选取了其中35个类,总共5035个网页作为实验数据集。

笔者采用两种典型的测试方法来评价本文W E B 文本挖掘系统的性能。

一种是训练———测试(Train and Test )方法,另一种是k 重交叉校验(k -f old cr oss validati on )方法。

训练———测试方法是经典的评价方法,它将初始样本集合分成训练集和测试集两部分,训练集用来进行特征选择和分类器训练,测试集用来对分类器进行测试。

而k 重交叉校验是将初始样本集分成k 份,每次取其中的k -1份作为训练集,剩下的一份作为测试集,然后取它们的平均值作为最终结果。

笔者将查全率和查准率作为评价本文W E B 文本挖掘系统的两个性能指标。

笔者在处理器为奔腾I V 、主频为214G 、内存为512M 的个人电脑中完成这些实验测试。

为了避免实验过程中的随机性,笔者对每个实验重复进行了20次,取20次实验结果的平均值作为最终的实验结果。

采用本文W E B 文本挖掘系统对3个文本数据集进行实验测试的结果如表1所示。

从表1中可以看出,无论是查全率和查准率,本文W E B 文本挖掘系统所得出的结果都比较理想。

表1 本文W E B 文本挖掘系统的性能评估结果训练———测试方法K 重交叉校验方法查全率查准率查全率查准率20NC 0193018901950192I S 0186018301870185W eb0196019201950193312 本文方法的应用实验的数据来源于高校数字图书馆中读者对图书资源库的访问数据。

在实验中,我们采用隐式的方式(如浏览阅读、下载等)获取读者对图书的兴趣程度,避免了要求读者对图书进行评价这种显式反馈给读者带来的额外负担,如果读者对某本书感兴趣而未作相应评价反馈信息时会导致最后试验数据的不准确。

同时加入了计时功能,读者阅读某本图书的时间多少往往可以反映读者对这本图书的兴趣程度。

在实验中,我们分析了每种评价级别所对应的阅读时间,然后系统就可以由此得到读者对图书的评价信息。

对于用户下载的电子图书则设为读者对此兴趣级别最高的。

W E B 服务器的LOG 日志有着完整的结构,每当用户访问W E B 站点时,所访问的页面、时间、用户I D 等信息,在LOG 日志中都有相应的记录1对于热点的W E B 站点每天可以记录下数以百兆字节的W E B LOG 记录。

利用挖掘工具对42何俊杰等:改进W E B 数据挖掘方法及其在个性化推荐中的应用这些日志文件进行挖掘。

我们可以从中学习用户的访问模式,并根据特定时用户,智能地改进W E B 站点上的信息组织与显示。

对于网站的管理人员来说,他们需要好的自动辅助设计工具,以便根据访问者的兴趣、访问时间来动态的调整W E B 站点上的信息组织与显示,开展个性化的服务,来满足访问用户的需求。

对于用户来说,他们希望利用智能化的工具来发现期望的信息资源,跟踪并分析他们的浏览模式。

而且希望看到的是个性化的页面,希望得到更好的满足各自需求的服务。

本文实现的数字图书馆中电子资源的个性化推荐系统主要包括三个模块:数据预处理模块、模式挖掘模块和模式分析模块。

相关文档
最新文档