[硕士学位论文] 基于web挖掘的web个性化技术研究

合集下载

基于Web挖掘的个性化远程教学系统的研究与实现

个性化网络远程教学服务的研究利用了Ｗｅｂ使用主要包括数据过滤，户识别和事务识别。用挖掘技术．通过分析学生以往的使用模式预示其将来 ① 数据过滤：数据过滤主要是检查采集来的数据．的使用模式。过对学生的访问内容、留时间和频度将不恰当的或冗余的数据项从数据集中清除。这里主通停等因素的分析．可以得到关于学生访问兴趣和访问模要涉及到对Ｗｅｂ服务器端和代理服务器端收集的数
② Ｃ０ｉ：ｏｋｅ用来追踪用户浏览过的页面，教学节奏策略等。其中最主要的是教学模式策略和教０ｋｅＣｏｉｓｓ通过Ｃｏｉ在客户机器上储存信息．ｏｋｅｓ当用户下次访问学顺序策略该网站时。这个信息会送回到服务器，而识别出用户从教学模式策略决定教学的方法。教学模式是教学ｆ１ｏｋｅ也能储存其他类型的数据，页面是否访环节的某个序列表，据知识点的特点、学要求以及２。Ｃｏｉｓ如根教
③ 用户输入数据：用户提交的各种数据能较好反
生为中心进行教学的个性化、制化的教学平台．变映用户的偏爱兴趣，个性化服务的实现非常有用。定改对另
过去远程教学平台千人一面的以资源为中心的教学方外可以采用包侦测技术．它采用软件或硬件装置监视式。应用基于Ｗｅｂ使用挖掘的个性化技术，师通过网络通信情况，从ＴＰＩ教如Ｃ／Ｐ包中提取数据。包侦测的学生作业、所提问题深度、测试成绩以及系统提供的优点是能实时采集和分析这些在日志文件里难以获取Ｗｅｂ使用挖掘结果等帮学生安排进一步的学习内容和的数据。

基于web数据挖掘技术——-web内容挖掘设计与实现

摘要ＷＷＷ＂是个丌放的全球性资源，它是世界上最丰富和最密集的信息来源。

随着ＷＷＷ上信息的爆炸性增长，在如此海量的数据中发现有用的信息变得越来越困难。

数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。

充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术撮重要的应用。

因此，采用数据挖掘技术从ＷＷＷ上提取隐含的、未知的、非平凡的及有潜存心用价值的信启、，具有十分重要的现实意义和广泛的应用前景。

本文首先简要论述了ＷＷＷ发展的基本现状以及当前存在的一些问题。

随后，简要介绍了数据挖掘技术的基本概念、原理，接着，概要的介绍了本文对于Ｗｅｂ数据挖掘所用到的技术一Ｊａｖａ和ＸＭＬ技术，在此基础上研究了数据挖掘技术在ＷＷＷＬ的应用，针对Ｗｅｂ数据内容挖掘进行了详细地论述。

文中通过一个具体的案例详细论述了实现Ｗｅｂ数据内容挖掘的一种方法以及对该方法的分析。

最后，对全文进行了总结。

关键词：ＷＷＷ，Ｗｅｂ数据挖掘，ＸＭＬＡｂｓｔｒａｃｔＴｈｅＷｏｒｌｄＷｉｄｅＷｅｂｉｓａｄｉｓｔｒｉｂｕｔｅｄｇｌｏｂａｌｉｎｆｏｒｍａｔｉｏｎｒｅｓｏｕｒｃｅｃｏｎｔａｉｎｉｎｇａｌａｒｇｅａｍｏｕｎｔｏｆｄａｔａｒｅｌｅｖａｎｔｔｏｅｓｓｅｎｔｉａｌｌｙａｌｌｄｏｍａｉｎｓｏｆｈｕｍａｎａｃｔｉｖｉｔｙ．ＧｉｖｅｎｔｈｅｈｊｇｈｒａｔｅｏｆｔｈｅｖｏｌｕｍｅｏｆｄａｔａａｖａｉｌａｂｌｅｏｎｔｈｅＷＷⅥｉｆｉｎｄｉｎｇｕｓｅｆｕｌｉｎｆｏｒｍａｔｉｏｎｉｎｓｕｃｈａｌａｒｇｅａｍｏｕｎｔｏｆｄａｔａｂｅｃｏｍｅｓａｍｏｒｅｄｉｆｆｉｃｕｌｔｐｒｏｃｅｓｓｅｖｅｒｙｄａｙ．ＤａｔａＭｉｎｉｎｇｉｓｔｈｅｔｅｒｍｇｉｖｅｎｔＯｔｈｅａｕｔｏｍａｔｅｄｄｉｓｃｏｖｅｒｙｏｆｎｏｎ—ｏｂｖｉｏｕｓ，ｐｏｔｅｎｔｉａｌｌｙｕｓｅｆｕｌａｎｄｐｒｅｖｉｏｕｓｌｙｕｎｋｎｏｗｎｉｎｆｏｒｍａｔｉｏｎｆｒｏｍｌａｒｇｅｄａｔａｓｏｕｒｃｅｓ．ＳｏｏｂｔａｉｎｉｎｇｖａｌｕａｂｌｅｉｎｆｏｒｍａｔｉｏｎｂｙＤａｔａＭｉｎｉｎｇｔｅｃｈｎｉｑｕｅｓｉｎｔｅｌｌｉｇｅｎｔｌｙａｎｄａｕｔｏｍａｔｉｃａｌｌｙ，ｉｍｐｒｏｖｉｎｇｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅＷＷＷｈａｓｔｒｅｍｅｎｄｏｕｓａｐｐｌｉｃａｔｉｏｎｖａｌｕｅｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｆｉｒｓｔｇｅｎｅｒａｌｌｙｉｎｔｒｏｄｕｃｅｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆＷＷＷａｎｄｓｏｍｅｐｒｏｂｌｅｍｓｕｎｓｏｌｖｅｄ．Ａｎｄｔｈｅｎｗｅｄｅｓｃｒｉｂｅｔｈｅｂａｓｉｃｃｏｎｃｅｐｔｓａｎｄｔｈｅｏｒｉｅｓｏｆｄａｔａｍｉｎｉｎｇ．ＴｈｅｆｏｌｌｏｗｉｎｇｉｓｄｉｓｓｅｒｔａｔｅｄｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｄａｔａｍｉｎｉｎｇｔｅｃｈｎｉｑｕｅｓｔｏｔｈｅＷｏｉ’ｌｄＷｉｄｅＷｅｂ，ａｎｄｄｉｓｃｕｓｓｉｎｄｅｔａｉｌｔｈｅｃｏｎｔｅｎｔ、ｃｈａｒａｃｔｅｒｉｓｔｉｃ、ｐｒｏｂｌｅｍｓｕｎｓｏｌｖｅｄｏｔｌｗｅｂｃｏｎｔｅＮｍｉｎｉｎｇａｎｄｗｅｂｕｓａｇｅｍｉｎｉｎｇ．Ａｎｄｔｈｅｎ，ｗｅｇｅｎｅｒａｌｌｙｉｎｔｒｏｄｕｃｅｔｈｅｔｅｃｈｎｉｑｕｅｓｏｆｕｓｅｆｏｒＤａｔａＭｉｎｉｎｇｉｎｔｈｅｐａｐｅｒ勺ａＶａａｎｄｘｍｌ．Ｔｈｒｏｕｇｈａｃｏｎｃｒｅｔｅｓａｍｐｌｅ，ｗｅｄｅｓｃｒｉｂｅｉｎｄｅｔａｉｌｏｎｅｏｆｔｈｅｍｅｔｈｏｄｔｈａｔｒｅａｌｉｚｅＷｅｂＤａｔａＭｉｎｉｎｇ．Ｆｉｎａｌｌｙｗｅｍａｋｅａｃｏｎｃｌｕｓｉｏｎｏｆｔｈｅｐａｐｅｒ．Ｋｅｙｗｏｒｄｓ：∥烀？彤ＷｅｂＤａｔａＭｉｎｉｎｇ，ＸＭＬ独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。

基于Web使用挖掘的个性化网络教育模型研究

根据学习者兴趣的变化随时进行调整．以实现个性化服务。
ｗｅ掘就是将传统的数据挖掘技术和ｗｅ术结ｂ挖ｂ技合起来，行Ｗｅ进ｂ知识的提取，对包括Ｗｅ是ｂ页面内容、页面之间的结构、户访问信息等在内的各种数据，用用应
摘要：文提出了一个基于Ｗｅ本ｂ使用挖掘的个性化网络教育模型，能够应用数据挖掘的方法，它从站点上积累下来的信息中提取抽象的、在的知识，实现远程教育的个性化。潜以
关键词：个性化网络教育
２Ｗｅ．ｂ结构挖掘
在本文提出的模型中，ｂ使用挖掘模块的输入包Ｗｅ
括系统的日志文件、户与站点的交互数据（用户的注用如
册信息、疑信息、试成绩、业情况等）站点文件答考作、（ＴＨＭＬ文件）知识点结构文件等。Ｗｅ、ｂ使用挖掘模块的
ｍｉｉｇ、ｂ使用挖掘（ｂｕａｅｍｉｉｇ。Ｉｎｎ）ＷｅＷｅｓｇｎｎ）２１
１ｅ内容挖掘．ｂＷ
Ｗｅｂ内容挖掘是从文档内容或其描述中抽取知识的
过程。它可以帮助用户过滤信息或通过对Ｗｅｂ上的数据
Ｗｅｂ使用挖掘是数据挖掘技术在Ｗｅｂ使用数据上的应用，通过对Ｗｅ它ｂ日志记录的挖掘．发现用户访问Ｗｅｂ

基于Web使用挖掘的个性化推荐服务研究

维普资讯
・
５Ｏ・
齐齐哈尔大学学报
预处理结果得到用户会话文件，用户会话是Ｗｅｂ使用挖掘中唯一具备自然事务特征的元素；粒度太但
一
粗，为此本文利用分割算法将其转化为更小的事务。首先进行用户事务模式聚类，再进一步将用户事务聚类
●
园
图１日志预处理过
２计算推荐集
２１计算候选推荐集．
收稿日期：２０－１００６０ —６
基金项目：黑龙汀省研究生创新科研资金项日（Ｈ编：ＹＳＸＯ６１ＨＪ项ＪＣ２Ｏ－４Ｌ）。作者简介：李晓哗（９１１８一），女，辽宁风城人，在谈硕士生，主要从事数据挖掘方而的研究。Ｓｌ１１６【“ 。ｚ】２＠）『ｍ８ｌ『
李晓晔，黄迎春，邓文新
（．１齐齐哈尔大学计算机系，黑龙汀齐齐哈尔１１０；．６０６２齐齐哈尔大学计算中心，黑龙汀齐齐哈尔１１０６０６）
日园
摘要：本文研究结合网站结构和页而内容以辅助Ｗｅ使用挖ｊ，提高推荐服务质量。并在相关理沦与研究的基础ｂｊｉＩ｛
∑Ｗ・Ｓ
如用访问Ｒ则＝；，＝。访问似计果户了ＵＬ，１０进行相度算：ｍｔ（）＿二一否则，ａｈ，＝了ｃ－Ｓ — ；
。
’√，Ｊ、ｆ、ｊ（吾（２，
给定一个最小Ｉ配门限用于确定是否匹配，最ｄｌ限值的确定需要根据访ＩＬｇＫ．，ｌ＇￣ｏ文件的统计情况确定，－］相

基于Web使用挖掘的个性化学习推荐系统

问题：
ｅｐｒｎｓｓｏｔａｔｉｆａｉｌｄｅｅｔｅｘｅｍｅｔｈｗｈｔｉｓｅｂｅａｆｃｉ．ｉｓｎｖ
ＫｅｒｓｌｔＡｅｔｙｔｍ（Ｓ；ｐｒｎｉｔｎｅｏｍｅｄｔｎｓｓｍ；Ｗｅｓｇｉｉ；Ｗｅｅｖｅｙｗｏｄ：ＭｕｉｇｎＳｓ — ｅＭＡ）ｅｏａｚｉ；ｒｃｍｎａｏｙｔｓｌａｏｉｅｂｕａｅｍｎｎｇｂＳｒｃｓｉ
ｗｉｅｅｖｃｓＩｃｎｈｌｅｒｅｓｆｄｒｓｕｃｅｕｓｄｂｙａｃｌｅｅａｉｇｐｒｏａｉｋｐｇｓｂｓｄｏｈｔＷｂｓｒｉｅ．ｔａｅｐｌａｎｒｎｏｒｅｒｑｅｔｙｄｎｍｉａｙｇｎｒｔｅｎｌａｅａｅｎｔｅｈｉｅｅｌｎｓｌｎ
０引言
数字化学习（ —ｅｒｉｇ的快速发展导致了个性化学习ＥＬａｎ）ｎ推荐系统的发展。ＥＬａｎｎ — ｒｉｅｇ系统为在线学员提供越来越多的个性化学习资源的同时，其结构与功能也变得更加复杂，在线学员经常会迷失在大量的信息空间中，无法顺利找到自己所需的学习资源，而出现了ＥＬａｎｎ从．ｒｉｇ推荐系统，ｅ用来帮助在线学员找到所需的信息。但现有的推荐系统大多存在以下
（ｏｐｔｐｌａｉｅａｃｓｔｔｈｉｇＢｓｅｅｈｏｇｔｕ，Ｎｎｂｈｊｎ１０２ｈｎ）ＣｍｕｅＡｐｉｔｎＲｓｒＩｔｕ，ＺｅａｕｉｓＴｃｎｌｙＩｉｔｉｏＺｅａｇ３５１，Ｃｉｒｃｏｅｈｎｉｅｊｎｎｓｏｎｔｅｓｇｉａ

基于Web挖掘的个性化服务系统的研究与实现

中图分类号:TP311 文献标识码:A 文章编号:1009-2552(2007)10-0142-04基于Web挖掘的个性化服务系统的研究与实现李卓玲,王　健(沈阳工程学院信息工程系,沈阳110136)摘　要:介绍了W eb挖掘在个性化服务系统中的作用,指出了W eb挖掘的基本过程和关键技术,论述了应用Web挖掘技术实现的个性化网络教学系统的体系结构及其主要算法。

关键词:Web挖掘;个性化服务;网络教学R esearch and realization of per sonalizationser vice system based on Web miningLI Zhuo2ling,W ANG Jian(Depa rtment of Inf or mation Sc i ence and Engineer ing,Shenyang Institute o f E ngineer ing,Sheny a ng110136,China) Abstra ct:This paper intr oduces the use of Web mining in the personalized service system,point s out the pr o2 cess and key technologies of Web mini ng,discusses the architecture and major algorit hm of personalized net2 w ork education system based on Web m i ning technology.K ey w or ds:W eb mini ng;personalized service;netw ork education1　个性化服务系统个性化服务是根据用户的使用行为、习惯、偏好和特点来向用户提供满足其个性化需求的一种服务。

基于WEB使用挖掘的网站个性化服务系统的设计

维普资讯
计算机系统应用
２０年第１期０６
基于ＷＥ用挖掘的网站个性化服务系统的设计Ｂ使
ＤｅｉｆＷｅｓｔｔｅｓａｎｏｒａｉｒｃｓｅｓｇｎｏｂｉｗｉＰｒｏｎｌＩｆｍｔｅｈｏｎＳｅｖｉｅＳｙｔｍ
设遍历方向向前时，ｌＦｇ为１遍历方向向后时，ｌａ；Ｆｇ为ａ
维普资讯
２０年第１期０６
计算机系统应用
所有用户会话的ＭＦＰ中发现频繁出现的连续子序列的问题。
３２挖掘频繁遍历路径算法．挖掘频繁遍历路径的过程是寻找事务表中的频繁
ＢｓｄｏｅａｅＭｉｉｇａｅｎＷｂＵｓｇｎｎ
范利星张水平张凤琴朱涛（空军工程大学电讯工程学院西安７０７）１０７
摘要：在得到用户浏览模式的基础上，设计了一种基于多维关联规则的分类方法，根据不同的浏览模式对历史用户分类，并对不同类中的用户信息进行分析，得到各个类中的用户模式。关键词．ｂ使用挖掘关联规则分类分析个性化信息服务，Ｗｅ
项集的过程，掘用户频繁遍历路径的算法基于Ａｎ挖ｐ－
０ｉｒ算法，如表１所示，５个事务记录（Ｐ。算法的有ＭＦ）
执行过程如图２所示。
一
图１一个实际的用户会话
个模式Ｐ＝｛ｌａ …．，３是不同属性（≤ ａ，２，．ａ｝１
很好，用户常常得不到自己需要的数据，有时甚至是一些垃圾数据。如何在浩如烟海的Ｗｅｂ上找到需要的信息，比传统的数据库领域更加复杂和困难。Ｗｅｂ站点服务器每天产生大量的日志，中蕴涵了有关用户其

基于Web数据挖掘的个性化学习系统研究

０引言
式学习；在虚拟的学习环境中，教师和学生、学生与学生间可以
ｂ智能计算机通信技术的日益强大支撑了建设学习型社会的需方便地进行同步或异步的交互。数据挖掘便是实现ｗｅ网络教育的重要方法，主要是通过获取学习者在Ｗｅｂ上的学习求，远程教育借助它的灵活性与选择性渐渐走进人们身边，成如访问信息、时间、次数及喜好等，经过挖掘流为学习的一种普遍方式。自１９９６年我国开通了“ 中国教育与科过程行为数据，得到学习者的模式规律，从而给学习者提供良好的个研计算机网” ，开放、灵活的Ｅ — ｌｅａｒｎｉｎｇ便迅速被人们所接受并程处理，
ｍｉｎｉｎｇａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｐｅｒｓｏｎａｌｉｚｅｄｓｅａｒｃｈｅｎｇｉｎｅａｒｅｄｉｓｃｕｓｓｅｄ．Ｋｅｙｗｏｒｄｓ：Ｅ— ｌｅａｒｎｉｎｇａｐｐｌｉｃａｔｉｏｎｐｌａｔｆｏｒｍ；Ｗｅｂｄａｔａｍｉｎｉｎｇ；ｐｅｒｓｏｎａｌｉｚｅｄｌｅａｒｎｉｎｇ；ｐｅｒｓｏｎａｌｉｚｅｄｓｅａｒｃｈｅｎｇｉｎｅ
・
文献标志码：Ａ
文章编号：１００６ — ８２２８（２０１３）０９ — ０５ — ０３
ＰｅｒｓｏｎａｌｉｚｅｄｌｅａｒｎｉｎｇｓｙｓｔｅｍｂａｓｅｄｏｎＷｅｂｄａｔａｍｉｎｉｎｇ

基于Web挖掘的个性化教学推荐系统

作者简介：刘秀敏（９６）吉林长春人，士研究生，究方向：１７一，硕研计算机教育与应用，多媒体技术。
计算机时代２１年第７０１期
・・５
习方式。因此，通过学生学习风格的测试构建能代表学生对项目Ｉｍｊ和Ｉｍｊ同时作了评价，样它们之间的相似本文ｔ－ｌｔ－２ｅｅ这特征的学习风格及兴趣模型。为了更加准确地测试出学生的性可以用多种方法计算。本文采用Ｐａｏ—计算公式：ｅｒｎｒｓ学习风格类型，采用了所罗门风格量表和Ｋｌ风格量表进本文ｏｂ洲Ｔ：堡：行测试。由于学生数目的急剧增加和项目众多的风格量表导致学生评分数据的不完善，了数据的稀疏性，得计算目产生使
ＴｃｎｃｌＣｌｇ）ｅｈｉａｏｅｅｌ
ＡｂｔａｔＡｉｉｇｔｈｎｔｏｋｌａｉｇｅｖｉｎｅｔｆｒｔｅｔ，ｗｅｅｉｎｎｗｐｒｏａｉｅｔａｈｎｒｃｍｍｅｄｔｎｓｒｃ：ｍｎａｔｅｅｗｒｅｒｎｎｒｍｎｏｓｕｄｎｓｎｏｄｓｇａｅｅｓｎｌｚｄｅｃｉｇｅｏｎａｉｏｓｓｅ．ＴｈｏｈｅｔｔｅｌａｉｔｅｆｓｕｎｓｎｄｙｔｍｒｕｇｔｓｉｎｇｈｅｍｎｇｓｙｌｏｔｄｅｔａｍｉｉｇｔｅｒＷｅｏｉｌｇ，ｔｅｙｔｍｃｎｔｕｔｔｅｎｎｈｉｂｂｒｗｓｎｇｏｓｈｓｓｅｏｓｒｃｓｈｍｏｅｓｄｌｗｉｔｈ

基于WEB挖掘的个性化服务研究

为中心的Ｗｅｂ服务１述了图描Ｗｅｂ个性化服务的实质。图１ｂＷｅ个性化服务的实质
图２Ｗｅｂ挖 ቤተ መጻሕፍቲ ባይዱ 的分类
２２Ｗｅ．ｂ个性化信息推荐方法信息推荐方法是实现Ｗｅｂ个性化服务的关键技术．为个因性化服务是以用户为中心．要采用合适的推荐方式把Ｗｅ需ｂ资源推荐给感兴趣的或与之相匹配的用户。据采用的方法不同．根信息推荐方法可以分为两类：于规则的方法和信息过滤方法基２２１基于规则的方法．．基于规则的方法是根据一组规则推荐信息。这些规则可以由用户定制．也可以利用基于关联规则的Ｗｅｂ挖掘技术来发现。利用规则来推荐信息依赖于规则的质量和数量．缺点是随其着规则的数量增多，统将变得越来越难以管理。个规则本质系一上是一个 Ⅱ Ｔｌｎ语句，则可以利用用户静态属性来建立．－｝ｅ规也
．．骤为：１采集数据．其是用户数据，注册信息、问历史记２２２信息过滤方法（）尤如访信息过滤方法可进一步分为基于内容过滤的方法和协作过录等；２分析Ｗｅ（）ｂ数据，建用户的访问模式等；３根据用户创（）滤方法。基于内容过滤是通过比较资源与用户描述文件来推荐特性为其提供个性化服务。户对系统提供的信息做出反馈，用系

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关键词：web 挖掘、web 个性化、PUCI、web 使用挖掘、web 内容挖掘、主观兴趣度度量
2
南京大学硕士毕业论文
Abstract
Compares to the huge data on World Wide Web, the individual's capacity of read and grasp is essentially fixed. It’s difficult for people to find what they needs on the web, this is the problem of “information blast”. To resolve this problem, many technologies were put forward to help the user utilize the resource on the web, one of them is web personalization. Web personalization is a new cross technology which relates to web, database, web mining, machine learning, informatics, statistics, et al. Through continuous learns experience of the web site, it improves the manner of the information organization and the information supply so that it can provide information for the user better. It’s primary purpose is to connect the information provider and the information user better, that is helping the user find what they needs as soon as possible on the one hand and helping the provider supply information to the user better on the other hand. Because of the problems of huge data, spatial data, low quality, and so on, the web mining technologies are used more and more in the web personalization field and the web usage mining technologies dominate the data analysis process of web personalization more and more. Firstly, this thesis summarizes the developments of web personalization technologies based on web mining and introduces some excellent web personalization systems based on web mining. And then, this thesis introduces the processes of web personalization based on web mining at length and analyses the web mining technologies that used in web personalization presently from the orientations of clustering, association rules, patterns, et al. This thesis also describes the trends of relative technologies’ development with integrating web content mining technologies and using multi-character. Web mining technologies applied in the web personalization field have taken some characters of the web into account to a definite degree, including huge,
1
南京大学硕士毕业论文
PUCI 采用群体聚类算法作为处理的基础，融合信息的使用特征和内容特征，兼顾用户的浏览行为和行为语义，能够在处理旧有信息时对新加入信息也进行妥善考虑。此外 PUCI 还引入了信息的主观兴趣特性，力求在适应动态性、实现个性化的同时能够利用站点的动态性向用户提供更加新颖的信息。为了适应动态站点的频繁更新，PUCI 在实现时采用了增量式的方法。它对基础数据、增量数据和淘汰数据三类数据进行了不同的处理，具体方法是：首次聚类时生成基础数据，然后增量式添加时生成增量数据、补充基础数据并（从基础数据中）剔除淘汰数据。本文最后还通过二个基于模拟数据的实验证明了 PUCI 推荐算法在处理 web 动态性时的有效性和 PUCI 增量式实现的可行性。
南京大学硕士毕业论文
基于 web 挖掘的 web 个性化技术研究
Study on the Technologies of Web Personalization Based on Web Mining
作者：丁
二
玉ห้องสมุดไป่ตู้
专业：计算机应用技术导师：骆斌（教授）
南京大学计算机科学与技术系
3
南京大学硕士毕业论文
unstructured and limited. But what they toke on the dynamic character is fewer. So based on the studies on web personalization technologies, this thesis put forward a framework of web personalization based on web mining, named PUCI (Personalization based on Usage, Content and Interest), which takes dynamic into account while personalizing. PUCI is a recommender system integrating the usage character, the content character and the objective interest character. It can be divided into offline part and online part, comprises the data collection process, the data preparation process, the data analysis process and the recommendation online process. In order to deal with the new information as well as the old information, PUCI adopts a profile clustering algorithm as the basis. Then it integrates the usage character and the content character and gives attention to the behavior meaning as well as the user navigation behavior. All above aside, PUCI inducts the subjective interest character, in order to make use of the dynamic character of the site to supply the user more novel information while personalizing with a dynamic site. By the reason of the dynamic site’s update always, the problem of incremental web mining is addressed in the implementation of PUCI. Different processes are carried out to primary data, incremental data and abandoned data. The method is firstly generating primary data while doing first clustering, and then generating incremental data, reinforcing primary data, and eliminating abandoned data (from primary data) while appending incremental data. At last, this thesis proved the recommendation algorithm’s validity of PUCI while dealing with the dynamic site and the incremental implementation’s feasibility of PUCI through two tests on simulated data.