[硕士学位论文] 基于web挖掘的web个性化技术研究

合集下载

基于Web挖掘的个性化远程教学系统的研究与实现

基于Web挖掘的个性化远程教学系统的研究与实现

个性 化 网络 远 程教 学 服务 的研究 利 用 了 We b使 用 主要 包 括 数据 过 滤 , 户识 别 和事 务 识别 。 用 挖 掘 技术 .通 过 分析 学 生 以 往 的使 用 模式 预 示 其将 来 ① 数据过滤: 数据过滤主要是检查采集来 的数据 . 的使 用模 式 。 过对 学 生 的访 问 内容 、 留时 间和 频度 将不 恰 当的或 冗余 的数据 项 从 数据 集 中清 除。 这里 主 通 停 等 因素 的分析 .可 以得 到关 于学 生 访 问兴 趣 和 访 问模 要 涉 及 到对 We b服 务 器 端 和 代 理 服 务 器 端 收 集 的 数
② C 0i :oke 用 来 追 踪 用 户 浏 览 过 的 页 面 , 教 学 节奏 策 略等 。其 中最 主要 的是 教 学模 式 策 略 和教 0ke C ois s 通 过 C o i 在 客户 机 器上 储 存信 息 . oke s 当用户 下 次访 问 学 顺 序策 略 该 网站 时 。 这个 信息 会 送 回到服 务 器 , 而识 别 出用 户 从 教 学模 式 策 略决 定 教 学 的方 法 。教 学模 式 是 教 学 f1 oke 也 能储 存 其 他类 型 的数 据 , 页 面是 否访 环 节 的某个 序 列表 , 据知 识 点 的特 点 、 学 要求 以及 2。C o is 如 根 教
③ 用户输入数据 :用户提交 的各种数据能较好反
生 为 中心进行 教 学 的个 性 化 、 制 化 的教 学平 台 . 变 映 用 户 的偏爱 兴 趣 , 个 性 化服 务 的实 现非 常 有用 。 定 改 对 另
过 去远程 教 学平 台千人 一 面 的 以资 源 为 中心 的教 学 方 外 可 以采 用包 侦 测技 术 .它采 用 软件 或 硬 件装 置监 视 式 。应 用基 于 We b使 用挖 掘 的个 性 化 技术 , 师 通 过 网络 通信 情 况 , 从 T PI 教 如 C/ P包 中提 取 数据 。包 侦测 的 学生 作业 、所 提 问题 深 度 、测 试成 绩 以及 系统 提 供 的 优 点 是 能实 时采 集 和分 析这 些 在 日志 文 件里 难 以 获取 We b使用 挖掘 结 果 等帮 学 生安 排进 一 步 的学 习 内容 和 的数 据 。

基于web数据挖掘技术——-web内容挖掘设计与实现

基于web数据挖掘技术——-web内容挖掘设计与实现

摘要WWW"是个丌放的全球性资源,它是世界上最丰富和最密集的信息来源。

随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。

数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。

充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术撮重要的应用。

因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜存心用价值的信启、,具有十分重要的现实意义和广泛的应用前景。

本文首先简要论述了WWW发展的基本现状以及当前存在的一些问题。

随后,简要介绍了数据挖掘技术的基本概念、原理,接着,概要的介绍了本文对于Web数据挖掘所用到的技术一Java和XML技术,在此基础上研究了数据挖掘技术在WWWL的应用,针对Web数据内容挖掘进行了详细地论述。

文中通过一个具体的案例详细论述了实现Web数据内容挖掘的一种方法以及对该方法的分析。

最后,对全文进行了总结。

关键词:WWW,Web数据挖掘,XMLAbstractTheWorldWideWebisadistributedglobalinformationresourcecontainingalargeamountofdatarelevanttoessentiallyalldomainsofhumanactivity.GiventhehjghrateofthevolumeofdataavailableontheWWⅥifindingusefulinformationinsuchalargeamountofdatabecomesamoredifficultprocesseveryday.DataMiningisthetermgiventOtheautomateddiscoveryofnon—obvious,potentiallyusefulandpreviouslyunknowninformationfromlargedatasources.SoobtainingvaluableinformationbyDataMiningtechniquesintelligentlyandautomatically,improvingefficiencyoftheWWWhastremendousapplicationvalues.Inthispaper,wefirstgenerallyintroducetheimprovementofWWWandsomeproblemsunsolved.Andthenwedescribethebasicconceptsandtheoriesofdatamining.ThefollowingisdissertatedtheapplicationofdataminingtechniquestotheWoi’ldWideWeb,anddiscussindetailthecontent、characteristic、problemsunsolvedotlwebconteNminingandwebusagemining.Andthen,wegenerallyintroducethetechniquesofuseforDataMininginthepaper勺aVaandxml.Throughaconcretesample,wedescribeindetailoneofthemethodthatrealizeWebDataMining.Finallywemakeaconclusionofthepaper.Keywords:∥烀?彤WebDataMining,XML独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。

基于Web使用挖掘的个性化网络教育模型研究

基于Web使用挖掘的个性化网络教育模型研究
根据 学 习者 兴趣 的变化 随时进行 调整 . 以实现个 性化 服务 。
we 掘 就是 将传 统 的数 据 挖 掘技 术 和 we 术 结 b挖 b技 合 起来 , 行 We 进 b知 识 的 提取 , 对 包括 We 是 b页 面 内容 、 页 面之 间 的结 构 、 户访 问信 息 等 在 内的 各种 数 据 , 用 用 应
摘 要 : 文提 出 了一 个基 于 W e 本 b使 用挖 掘 的个 性 化 网络 教 育 模 型 , 能够 应 用 数 据挖 掘 的方 法 , 它 从 站 点 上 积 累 下来 的信 息 中提 取 抽 象的 、 在 的 知识 , 实现 远 程教 育 的 个性 化 。 潜 以
关键 词 : 个性 化 网络教 育
2W e . b结 构 挖 掘
在 本 文 提 出 的 模 型 中 , b使 用 挖 掘模 块 的 输 入 包 We
括 系统 的 日志文 件 、 户 与站 点 的交 互 数据 ( 用 户 的 注 用 如
册 信 息 、 疑 信 息 、 试 成 绩 、 业 情 况 等 ) 站 点 文 件 答 考 作 、 (T H ML文 件 )知 识 点 结 构文 件 等 。We 、 b使 用 挖 掘模 块 的
miig 、 b使 用 挖 掘 ( bu aemiig 。I nn )We We sg nn ) 2 1
1 e 内容 挖 掘 . b W
We b内容挖 掘 是 从文 档 内容 或 其描 述 中抽 取 知识 的
过 程 。它 可 以帮 助 用 户过 滤 信 息或 通 过 对 We b上 的数 据
We b使用 挖掘 是 数 据挖 掘 技术 在 We b使 用数 据 上 的 应 用 , 通过 对 We 它 b日志记 录的 挖掘 . 发现 用 户访 问 We b

基于Web使用挖掘的个性化推荐服务研究

基于Web使用挖掘的个性化推荐服务研究

维普资讯

5 O・
齐 齐 哈 尔 大 学 学 报
预 处理结果得 到用 户会话 文件 ,用 户会话是We b使用 挖掘中唯一 具备 自然事 务特征 的元素; 粒度太 但

粗, 为此本文利用分割算法将其转化为更小的事务。 首先进行用户事务模式聚类 , 再进一步将用户事务聚类


图 1 日志预处理过
2 计算推荐集
21 计算候选推荐 集 .
收稿 日期 :20- 10 060 —6
基金项目 :黑龙汀省研 究生创新 科研资 金项 日 ( H编 :YS X O6 1H J 项 JC 2O -4 L )。 作者简 介 :李晓哗 ( 9 1 18一),女 ,辽 宁风城 人 ,在谈硕 士生 ,主要 从事数据挖 掘方而的研 究 。Sl116 【“ 。 z 】2@)『 m 8 l 『
李 晓 晔 ,黄 迎春 ,邓 文新
(. 1 齐齐哈尔大学计算机系 ,黑龙汀 齐齐哈尔 110; . 60 6 2 齐齐哈尔大学计算中心 ,黑龙汀 齐齐哈尔 1 10 606)
日 园
摘要 :本文研究结合网站结构和页而内容以辅助 We 使用挖j ,提高推荐服务质量。并在相关理沦 与研究的基础 b j i I {
∑W ・ S
如 用 访问 R 则 = ; , = 。 访问 似 计 果 户 了UL, 1 0 进行 相 度 算:mt( ) _ 二 一 否则 , ah , =了 c- S — ;

’√, J 、 f 、 j ( 吾 (2 ,
给定一个最小 I配 门限 用于 确定是否 匹配 ,最d l限值 的确定需要根据 访 ILg K . ,l '  ̄ o文件 的统计情 况确定 , - ] 相

基于Web使用挖掘的个性化学习推荐系统

基于Web使用挖掘的个性化学习推荐系统
问题 :
e p r n s s o t a ti fa il d e e t e x e me t h w h ti s e b e a f c i . i s n v
Ke r s ltA et ytm ( S ;p r n i t n eo medt nss m;We sg ii ;We ev e ywod :Mu i gn Ss — e MA ) e oa z i ;rcm n a o yt s l ao i e buaemnn g bS r cs i
wi e e vc s I c n h l e r e sf d r s u c e u s d b y a c l e e ai g p ro a i k p g sb s d o h t W b s r ie . t a ep l an r n o re r q e t y d n mi a y g n r t e n l a e a e n t e h i e e l n s l n
0 引 言
数字化 学习 ( —erig 的快速 发展导 致 了个性化 学 习 ELa n ) n 推荐系统 的发展。E Lann — ri e g系统 为在线学 员提 供越 来越多 的个性化学 习资源 的同时 , 其结构与功能也变得更加 复杂 , 在 线学员 经常会迷失在大 量 的信 息空 间 中, 无法顺 利找 到 自己 所需 的学 习资源 , 而出现了 E Lann 从 . rig推荐 系统 , e 用来帮 助 在线学 员找到所需 的信 息。但现有 的推 荐系统大多存在 以下
( o p t pl ai e ac stt h i gB s e eh o g tu ,Nn b hj n 10 2 hn ) C m ue A pi t nRs r I tu ,Z ea ui s Tcnl yI i t i oZ ea g3 5 1,C i r c o e h ni e jn ns o n te s g i a

基于Web挖掘的个性化服务系统的研究与实现

基于Web挖掘的个性化服务系统的研究与实现

中图分类号:TP311 文献标识码:A 文章编号:1009-2552(2007)10-0142-04基于Web挖掘的个性化服务系统的研究与实现李卓玲,王 健(沈阳工程学院信息工程系,沈阳110136)摘 要:介绍了W eb挖掘在个性化服务系统中的作用,指出了W eb挖掘的基本过程和关键技术,论述了应用Web挖掘技术实现的个性化网络教学系统的体系结构及其主要算法。

关键词:Web挖掘;个性化服务;网络教学R esearch and realization of per sonalizationser vice system based on Web miningLI Zhuo2ling,W ANG Jian(Depa rtment of Inf or mation Sc i ence and Engineer ing,Shenyang Institute o f E ngineer ing,Sheny a ng110136,China) Abstra ct:This paper intr oduces the use of Web mining in the personalized service system,point s out the pr o2 cess and key technologies of Web mini ng,discusses the architecture and major algorit hm of personalized net2 w ork education system based on Web m i ning technology.K ey w or ds:W eb mini ng;personalized service;netw ork education1 个性化服务系统个性化服务是根据用户的使用行为、习惯、偏好和特点来向用户提供满足其个性化需求的一种服务。

基于WEB使用挖掘的网站个性化服务系统的设计

维普资讯
计 算 机 系 统 应 用
20 年 第 1 期 06
基 于 WE 用挖 掘 的 网站 个性 化服 务 系统 的设计 B使
De i fW e st t e s a n or a i r c se sgn o b i wi P r on lI f m t e h on Se vie Sy t m
设遍历方 向向前时 ,l F g为 1遍历方向向后时,l a ; F g为 a
维普资讯
20 年 第 1 期 06
计 算 机 系 统 应 用
所有 用户会话 的 MF P中发现频 繁 出现 的连 续 子序 列 的 问题。
3 2 挖掘频繁遍历路径算法 . 挖掘频繁遍历路 径的过 程是寻找事 务表 中的频 繁
B s d o e a e M i ig a e n W b Us g n n
范利星 张水平 张凤琴 朱 涛 ( 空军工程大学 电讯工程学院 西安 70 7 ) 10 7
摘要 : 在得到 用户浏览模 式的基础上 , 设计 了一种基于 多维关联规 则的分 类方法 , 根据 不同的浏 览模 式对历 史用 户分类 , 并对 不同类 中的用户信息进行分析 , 得到各个类 中的用户模 式。 关键词. b使 用挖掘 关联规 则 分类分析 个性化信息服 务 , We
项集的过程 , 掘用户 频繁遍 历路径 的算法基 于 A n 挖 p-
0i r 算法 , 如表 1 所示 , 5个事 务记录 ( P 。算法 的 有 MF)
执行过程如图 2所示。

图 1 一 个 实 际 的 用 户会 话
个模式 P = {la ….,3 是不同属性 (≤ a ,2, .a } 1
很好 , 用户常常得不到 自己需要的数 据 , 有时甚至是一 些垃圾数据 。如何在 浩如 烟海 的 We b上找 到需要 的 信息 , 比传统的数据库 领域更 加 复杂和 困难。We b站 点服务器每 天产生大量 的 日志 , 中蕴涵 了有 关用户 其

基于Web数据挖掘的个性化学习系统研究


0 引 言
式学 习 ; 在虚拟 的学习环境 中 , 教师和学生 、 学生 与学 生间可 以
b 智能 计算机 通信 技术 的 日益 强大支 撑 了建设 学习型 社会 的需 方便 地进行 同步或 异步的交 互 。数据挖 掘便 是实现 we 网络教育 的重要方法 , 主要 是通过获取学习者在 We b 上的学习 求, 远程教 育借 助它 的灵 活性 与选择性 渐渐 走进人 们身边 , 成 如访 问信 息 、 时间 、 次数及 喜好 等 , 经 过挖 掘流 为学习的一种普遍方式 。 自1 9 9 6 年我 国开 通了“ 中国教育 与科 过程 行为数 据 , 得到学 习者 的模 式规律 , 从 而给学 习者提供 良好 的个 研 计算机 网” , 开放 、 灵活 的 E — l e a r n i n g 便迅速 被人们所 接受并 程处 理 ,
mi ni n g a n d i mp l e me nt at i o n o f p e r s o n a l i z e d s e a r c h e n g i n e a r e d i s c us s e d. Ke y wo r ds : E— l e a r n i n g a p pl i c a t i o n pl a t f o r m ;W e b d a t a mi n i n g;pe r s o n a l i z e d l e a r n i n g; p e r s o na l i z e d s e a r c h e n g i n e

文献标志码 : A
文章 编号 : 1 0 0 6 — 8 2 2 8 ( 2 0 1 3 ) 0 9 — 0 5 — 0 3
Pe r s o na l i z e d l e ar ni ng s ys t e m ba s e d o n We b da t a mi ni ng

基于Web挖掘的个性化教学推荐系统


作者简介 : 刘秀敏 (9 6 ) 吉林长春人 , 士研 究生, 究方 向 : 17 一 , 硕 研 计算机 教育与应用, 多媒体技术 。
计 算机 时代 2 1 年 第 7 0 1 期
・ ・ 5
习方式 。因此 , 通过 学生学习风格 的测试 构建能代表学生 对项 目Im j和 Im j同时作 了评价 , 样它们之 间的相似 本文 t -l t -2 e e 这 特征 的学 习风格 及兴 趣模型 。为 了更 加准确地 测试 出学生 的 性可以用多种方法计算 。本文采用 Pa o—计算公式 : er nr s 学习风格类型 , 采用了所 罗门风格量表和 K l风格量表进 本文 o b 洲 T : 堡 : 行 测试 。由于学 生数 目的急剧增 加和项 目众多 的风 格 量表 导 致学 生评分 数据 的不 完善 , 了数据 的稀疏性 , 得计算 目 产生 使
Tcnc lC lg ) eh ia o ee l
Ab ta t Ai ig t h n t ok la ig e vi n e t fr t e t, we e in n w p ro aie ta hn rc mme d t n sr c: m n a te ew r e r n n r m n o sud n s n o d sg a e e s n lz d e c ig e o n ai o s se .Tho h et te la i t e f su ns nd y tm rug tsi ng h e m ng syl o tde t a mi ig t er W e o i lg , te y tm c n tu t te nn h i b brwsng o s h s se o srcs h mo es d l wi t h

基于WEB挖掘的个性化服务研究

为 中心 的 We b服 务 1 述 了 图 描 We b个 性 化服 务 的实 质 。 图1 b We 个性化服务 的实质
图 2 We b挖 ቤተ መጻሕፍቲ ባይዱ 的分 类
22We . b个 性 化 信 息 推 荐 方 法 信 息 推荐 方 法 是 实 现 We b个 性 化 服 务 的关 键 技 术 . 为 个 因 性 化服 务是 以用 户 为 中 心 . 要 采 用 合 适 的 推 荐 方 式 把 We 需 b资 源 推荐 给 感 兴趣 的 或 与 之 相 匹配 的用 户 。 据 采 用 的方法 不 同 . 根 信 息推 荐 方 法 可 以 分 为 两 类 : 于 规则 的方 法 和 信 息过 滤 方 法 基 221基 于 规则 的方 法 . . 基于 规 则 的 方 法 是 根 据一 组 规 则 推 荐 信 息 。 这些 规则 可 以 由 用 户 定 制 .也 可 以 利 用 基 于 关 联 规 则 的 We b挖 掘 技 术 来 发 现 。利 用 规 则来 推 荐 信 息 依 赖 于 规 则 的 质 量和 数 量 . 缺 点 是 随 其 着 规 则 的 数 量增 多 , 统 将 变 得越 来 越 难 以管 理 。 个 规 则本 质 系 一 上 是 一 个 Ⅱ Tln语 句 , 则 可 以利 用 用 户 静 态 属 性 来 建 立 . -} e 规 也
.. 骤 为 :1 采 集 数 据 . 其 是 用 户 数 据 , 注 册 信 息 、 问 历 史 记 222信 息过 滤 方 法 () 尤 如 访 信 息 过 滤 方 法 可 进 一 步 分 为基 于 内容 过 滤 的 方 法 和协 作 过 录等 ;2 分 析 We () b数 据 , 建 用 户 的访 问模 式 等 ;3 根 据 用 户 创 () 滤 方 法 。 基 于 内 容过 滤 是 通 过 比较 资 源 与 用 户 描 述 文 件来 推 荐 特性 为 其 提 供个 性 化 服 务 。 户 对 系 统 提 供 的 信 息做 出反 馈 , 用 系
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词:web 挖掘、web 个性化、PUCI、web 使用挖掘、web 内容挖掘、主观兴 趣度度量
2
南 京 大 学 硕 士 毕 业 论 文
Abstract
Compares to the huge data on World Wide Web, the individual's capacity of read and grasp is essentially fixed. It’s difficult for people to find what they needs on the web, this is the problem of “information blast”. To resolve this problem, many technologies were put forward to help the user utilize the resource on the web, one of them is web personalization. Web personalization is a new cross technology which relates to web, database, web mining, machine learning, informatics, statistics, et al. Through continuous learns experience of the web site, it improves the manner of the information organization and the information supply so that it can provide information for the user better. It’s primary purpose is to connect the information provider and the information user better, that is helping the user find what they needs as soon as possible on the one hand and helping the provider supply information to the user better on the other hand. Because of the problems of huge data, spatial data, low quality, and so on, the web mining technologies are used more and more in the web personalization field and the web usage mining technologies dominate the data analysis process of web personalization more and more. Firstly, this thesis summarizes the developments of web personalization technologies based on web mining and introduces some excellent web personalization systems based on web mining. And then, this thesis introduces the processes of web personalization based on web mining at length and analyses the web mining technologies that used in web personalization presently from the orientations of clustering, association rules, patterns, et al. This thesis also describes the trends of relative technologies’ development with integrating web content mining technologies and using multi-character. Web mining technologies applied in the web personalization field have taken some characters of the web into account to a definite degree, including huge,
1
南 京 大 学 硕 士 毕 业 论 文
PUCI 采用群体聚类算法作为处理的基础, 融合信息的使用特征和内容特征, 兼顾用户的浏览行为和行为语义, 能够在处理旧有信息时对新加入信息也进行妥 善考虑。此外 PUCI 还引入了信息的主观兴趣特性,力求在适应动态性、实现个 性化的同时能够利用站点的动态性向用户提供更加新颖的信息。 为了适应动态站点的频繁更新,PUCI 在实现时采用了增量式的方法。它对 基础数据、增量数据和淘汰数据三类数据进行了不同的处理,具体方法是:首次 聚类时生成基础数据,然后增量式添加时生成增量数据、补充基础数据并(从基 础数据中)剔除淘汰数据。 本文最后还通过二个基于模拟数据的实验证明了 PUCI 推荐算法在处理 web 动态性时的有效性和 PUCI 增量式实现的可行性。
南 京 大 学 硕 士 毕 业 论 文
基于 web 挖掘的 web 个性化技术研究
Study on the Technologies of Web Personalization Based on Web Mining
作者:丁

玉ห้องสมุดไป่ตู้
专业:计算机应用技术 导师:骆 斌(教 授)
南京大学计算机科学与技术系
3
南 京 大 学 硕 士 毕 业 论 文
unstructured and limited. But what they toke on the dynamic character is fewer. So based on the studies on web personalization technologies, this thesis put forward a framework of web personalization based on web mining, named PUCI (Personalization based on Usage, Content and Interest), which takes dynamic into account while personalizing. PUCI is a recommender system integrating the usage character, the content character and the objective interest character. It can be divided into offline part and online part, comprises the data collection process, the data preparation process, the data analysis process and the recommendation online process. In order to deal with the new information as well as the old information, PUCI adopts a profile clustering algorithm as the basis. Then it integrates the usage character and the content character and gives attention to the behavior meaning as well as the user navigation behavior. All above aside, PUCI inducts the subjective interest character, in order to make use of the dynamic character of the site to supply the user more novel information while personalizing with a dynamic site. By the reason of the dynamic site’s update always, the problem of incremental web mining is addressed in the implementation of PUCI. Different processes are carried out to primary data, incremental data and abandoned data. The method is firstly generating primary data while doing first clustering, and then generating incremental data, reinforcing primary data, and eliminating abandoned data (from primary data) while appending incremental data. At last, this thesis proved the recommendation algorithm’s validity of PUCI while dealing with the dynamic site and the incremental implementation’s feasibility of PUCI through two tests on simulated data.
相关文档
最新文档