个性化网络信息检索系统

合集下载

几种常用的Internet个性化信息检索技术的探讨

几种常用的Internet个性化信息检索技术的探讨

动有余的过滤不足己经造成 r 一些负面的影
3智能 代理 包括四 方面的 关键技 术 : 器 响 ,有待 尽快 发 展更 先进 的 人工 智能 技 术予 . 机
主解 ,l 苎决 cce、容术on 访 解。络 息 掘 eM 意 翟 生 索解目 技(hr 内技( e、问以决网 信 挖 cb 溅术 孳决 『 { 艺 荆眦 蓑 M iy 苎 眦 术an) 阶 A 安 ct … ‘ : nt ) w 一 y。
≯ 豢- 信检 息 索个 化Ae挖 推 陡 gt 掘 送 n 机器 技术:机器 指各 人工 领 是 种在 智能
域 中 开发 的 、支 持各 种程 度 智能 的 引擎 。这 些 引擎 包括有 :各种 形式的 推理 引擎 、学 习 引 擎 用 户创建 修 改规 和知识 的 工具 、验证 U 规 则 集 的工具 和 用于 开 发代 理之 间 代 理和 用 户 之 间进行 协 商和 协作 所需 策 略的 工具
海捞针 ,虽然 G o l等优 秀搜索 引擎提供 了 o ge
大 量 的信 息资 源 ,但 仍需 根据 检索 到 的地 址 信 息 ,按 照页 面屏 幕的 提 示 向下追 踪 。特 别
提 供 了有效 的 工具 。 数据 挖 掘的 成功 使研 究 人 员将 数据 挖 掘技 术 用于 因特 网 ,但是 由于
、 、
网 息 源 数 掘。 据 络信 挖掘 于 据挖 数
挖 掘就 是指 从 夫量 数 据( 如数 据 库) 中提 取抽 象 的 、潜 在的 有 用信 息的 过程 ,它是数 据 库
中 知识 发现 KDD 的核 心 ,为大量数据 的利 用
网上信 息极 度 膨胀 导致 查 找信 息 i 如 大 尤

它 w w w上 的 数据 不同 于传统 数据 ,故 产生 了 士 来说 ,难 以 迅速 、准 确 地获 得 有价 值的 网 们 提 供 了智 能代 理所 需 的推 理能 力和 学 习能 个新 的研究 方向一 网络 信息挖 掘。 上信 息 资源 因此 用 户迫 切希 望 找到 一种 能 够 力 网络信 息挖 掘 ,Xg  ̄ g w e b 在 信息 海洋 中 自动 获取 实 用 、准确 、精 炼 的 内容 技 术 指 机 器 用 于推 理 和 学 习 的数 的 数据 挖掘 ,是从 大量 数据 中抽取 处先 前未 信息的 工具 。 据 但 它 不 定就 是知 识 ,它主 要包 括 属于 知 的 、完整 的 、可 信的 、新 颖 的 、有效 的信 智能 代理A 。 t g 检索技术 结 构化 知识 的 规 则 语法 ,大量 非结 构 化的 息 的高 级处 理过 程 。 它是在 已知数 据样 本的 智 能代 理 又称 智能 体 ,它是 在 用 户没 有 通 用 知识和 结 构 化的 数据 内容 作为 代理 系 基 础上 ,通 过 归纳 学 习 、机 器学 习、统 计分 明确 具 体要 求的 情况 下 ,根 据 用 户需 要 ,代 统 能 够 内 核访 问 的 系 统 数 据 也 存 在 于 核 心 析等 方 法得 到数 据 对象 间的 内在 特性 据此 替 用 户进行 各种 复 杂的 工作 ,如信 息查 询 、 中 它提供 代 理 系统 工作 所需 要 的各 种 知识 采 用信 息过 滤技 术 在 网络 中提取 用 户感 兴趣 筛选 及 管理 ,并 能推 测 用 户的 意 图 , 自主制 和 数 据 同时 机 器 也 可 以 直 接 对 其进 行 更 的信 息或 者 更高 层 次的 知识 和规 律 来做 关键 定 、调 整和 执行 工作 计 划 。它使 用 自动 获 得 新 的决 策 。网 络信 息 挖掘 其实 就是 对 文档 的内 的领 域模型 ( we 知 识 、信息处 理 、与用 户 : 如 b 访问技 术 : 访问 是指 代理 与周 围环境 进 容 、要利 用 资源 的 使用 以及 资源 之 间的 关系 兴趣相 关的 信 , e5 、领域 组织 结构 )  ̄N 、用 户 行 交互 代 理 与周 围环 境 的交 互 可以 分为 代 进 行分析 。 模型 ( 如用 户背景 、兴 趣 、行为 、风格 ) 知识 理 应用 之 间的 交互 与 代理 和用 户 的交 互 代 网络信 息挖掘 分为w e b日志挖掘 、w e b 进行信 息搜 集 、索 引、过滤 ( 包括兴 趣过 滤和 理 应用 之 间的 交互 又可 分 为对 本地 环境 与 远 内容挖 掘 w e 结 构挖掘 。具体而 言 ,w e b b 不 良信 息过 滤) ,并 自动 地将 用 户感兴趣 的 、 程环境 的访 问 日志挖 掘是 通 过 分 析 w e 服 务 器 的 日志 文 b 对用 户 有用 的信 息提 交 给用 户 。智 能 代理具 。 安 全机 制是 为 了实 现 于外界 的 安全 访 问 件 对用 户访 问w e 是 服务 器方 留下的 访问 b 有 了不断 学 习 、适应 信 息和 用 户兴趣 动 态变 而 设置 外 界是 代 理的 交互 对 象 ,应 包括 所 记 录 进行 挖 掘 ,从 中可 以得 出用 户 的访 问模 化的能 力,从而提供 个性化 的服 务。 需 要的 原始 信 息源 用 户、代 理所 属 的应 用 式 和 访 问兴趣 ,丈站 点 管理 员提 供 各种利 于 1 、智能代 理A e t g n 意义 系统 其他代理 系统等 。 W e 站点 改进或 可以 带 来经济 效益 的信 息。 b 从用 户 的角 度来 看 ,采 用智 能代 理 技术 = 智能A e t g n主要功能 在 个性 让 服 务模 型 中 可以 利用 日志 挖掘 来 的应 用 服务 系统 在不 间 断地 为他 们 工作 ,用 用于信 IJ 息 服 务的 0 g n 主要 日l, J 智 能A e t j 完 ・nl , , 户的 访 问习惯 ,进 行 个性 化分 析 J ・ J J n 6 — ‘ H H I x . …L L t 视 I I l ’^ 1 l L u J 川 监 几 ,用 ,H W — I/ J J { L J L l J 户只在必要 时才需要 参与 。 成 以 下功 能 : 导航 ,即 告 诉 用 户所 需 要 的 资 处 理 。W e 内容挖 掘包括w e 文 本挖掘 和多 b b 从应 用 的角 度来 看 ,智 能代 理就 是 能 自 源在哪 里 ; 解惑 ,即根据( W b 包括tx 、h ml e t t 等) 动执 行用 户委 托 的任 务 的计 算实 体 ,它 有着 于特 定主题 的问题 ;过滤 ,即按 照用 户指定 的 挖 掘 的 目的 是 对 页 面 信 息进 行聚 类 、 分 类 极其广泛的 应用 。 条件 从流 向 用户 的大 量信 息 中 筛选符 合 条 和 关联 分析 ,以及利 用w e 文 档进 行趋势 预 b 从 技 术的 角度 来 看 ,智 能代 理是 以 各种 件的信 息 并 以不 同级 别 ( 文 、详细摘 要 、 测 、分析 等 ; 全 多媒体信 息挖掘 是对 多媒体文档 技 术 为基 础 ,集 合 了许 多实 用的 应用 特性 , 简单 摘 要 标题 ) 现 给 用 户 ; 理 , 即为 用 ( 呈 整 包括 图像 、声音 、图片等媒 体类型) 的挖 掘。 从而能 自 动执 行用 户委托的任 务 。 户把 已经下 载的资 源进行 分门 别类的 组织 ;发 w e 结 构挖掘是 对 we 页 面超链 接关 系、文 b b 2 、智 能 代理 有两 个 主要技 术 特征 : 智能 现 即从 大 量的 公 共原 始数 据 中筛 选和 提炼 档 内部结 构 、文 档u 1 r种的 目录路径 结构 的挖 f ( tlgne和代理 能力( gn y・  ̄I e iec) n l A ec ) 有价 值 的信 息 向 有关 用 户发布 。这些 都是 掘 。 智能性 指应 用 系统 使 用 推理 、学 习 和其 使信 息服 务 走 向个性 化 主动 服务 不 可缺 少的 四 信息推送 技术 他 技 术来分 析 解释 它 已接 触过 的 或刚 提 交给 功能 目前 在此 方面 己经有 了一 些 能够 使用 I 、推 送方式 它的 各种信 息 和知 识 的能 力 。代 理能 力指 一 的 系统 但 智能 化的 程 度还远 远 不 够 ,且主 频 道式 推送 :频道 式 网络 播送 技 术是 目

基于元搜索引擎的专业式智能网络信息检索系统

基于元搜索引擎的专业式智能网络信息检索系统

基于元搜索引擎的专业式智能网络信息检索系统
盛宪锋;山岚
【期刊名称】《计算机工程与设计》
【年(卷),期】2004(025)001
【摘要】随着网络信息资源的迅速增加和实时更新,如何及时准确地获取自己所需的有用信息是现代网络信息检索技术需要解决的主要问题.介绍了一种基于元搜索引擎的新型专业式智能网络信息检索系统.该系统建立专业词库和用户知识库,结合人工智能的Agent技术,能够很好地对用户的兴趣进行自适应学习,以实现个性化的信息检索,既保证了查全率,又提高了检索结果的查准率.
【总页数】5页(P69-73)
【作者】盛宪锋;山岚
【作者单位】北京化工大学,信息工程与技术学院,北京,100029;北京化工大学,信息工程与技术学院,北京,100029
【正文语种】中文
【中图分类】TP302.1
【相关文献】
1.基于元搜索引擎的个性化信息检索系统 [J], 田晓珍;张敏
2.个性化网络信息智能检索系统设计 [J], 鲍喆君
3.基于元搜索引擎的异构数据检索系统研究 [J], 李雅琼
4.智能元搜索引擎技术在网络信息增值服务中的应用 [J], 刘丽;须文波
5.基于元搜索引擎的数字图书馆网络信息资源检索系统设计 [J], 王玉琼
因版权原因,仅展示原文概要,查看原文内容请购买。

网络信息检索系统的设计与技术分析

网络信息检索系统的设计与技术分析

四 、网络 信息 检 索 的主体 技 术 细 描述 用 户 的个 人情 况 ,其 中第一 面两 种 方 式 :一是 用 户将 自 己感 兴 和相 关技术
个 字段 可 以设 置成 关 键 字 。然 后建 趣 的信 息类 或在 线 文档 分 类后 提 供
( 信 息检 索服 务 的主体 技术 立 用 户 检 索 策 略 表 ( 括 策 略 编 给系 统 ,系 统 从这 些 文档 或信 息类 一) 包
网 络信 息 检索 通 常采 用搜 索 引 号 、策 略 控制 、检索 词控 制 、检索 中发 现用 户 的 兴趣 ; 二是 用户 提 供
擎技 术 ,该 技 术是 为 了解 决 “ 息 时间控 制 、检 索 范 围控 制等 字段 ) 信
自己 的研 究方 向和 其 它 阅读 爱好 等
迷 航 ” 问题而 提 出 的 。它通 过相 应 和 用 户 检 索 评 价 表 ( 括 检 索 编 信 息 ,系 统从 这 些信 息 中发 现 用户 包 的 算法 在 互联 网上搜 索相 关信 息 , 号 、检索 时 间 、检 索词 、检 索 结 果 的兴趣 。但 是 ,由于 用户 的兴趣 并 不 是一 成 不变 的 ,而 用户 一 般 不可
服布 尔 逻辑 模 型信 息 查询 结 果 的无 抽 取 、转换 、清洗 和 加 载 ,集成 后 J 分词、P o i g E ad n 分词和 IT L S C C A 分词 序性 。
的数 据 质量 得 到 了提 高 ,对 异构 数 等多款中文分词模块后,P o ig adn 分
据 源 的处理 也 得 到 了加 强 。在对 数 词 由于其 开源性和 良好 的分词 效果被
的情况 下 ,根 据 用户 需要 ,代 替用 自动 、独 立 地代 理用 户 查找 用 户感 [ 黄少林, 张玉红, 2 ] 王华, 蒋一峰. 基于L cn uet 户 进行 各 种复 杂 的工 作 ,如 信 息检 兴趣 的信息 。 索 、 筛选 及整 理 ,并能 推测 用户 的

个性化网络信息检索模型及其应用研究

个性化网络信息检索模型及其应用研究

【 关键 词】 :搜 索引擎; 个性化服 务 ; 个性化检 索; 个性化检 索模型 ; 代理技 术
1 .引言
Y ho 的 目录更 具 有 科 学 性 。 ao ! 网站 收 录 丰 富 , 索 结果 精 确 度 较 检
在 众 多 检索 工 具 中 .搜 索 引 擎是 一 种 被 众 多 网 站所 推 崇 的 也是 深受 广 大 网 民喜 爱 的 网络 检 索 工 具 某 种 角度 而 言 . 索 从 搜 引擎的出现确实使广大 网民在 繁杂 的网络信息 中能够方便 、 快 捷的查找到 自己所需要 的信息 , 并且 目前也被广泛应用。 但是 由 于 目前 多 数搜 索 引 擎 都 通 过 对 WWW 页 面 进行 索 引 和关 键 词 匹 配来满 足用户的检索请求 , 于克服 以下两个缺点 : 难 其一 , 何 任 个 搜 索 引 擎 的索 引也 无 法 覆 盖 整 个 网络 资 源 . 即其 检 全 牢 是 不 完 全 的 ; 二 。 于 采 用 简单 的关 键词 匹 配 方 法 , 索 引 擎 对 其 由 搜 条 检 索 请求 可能 返 回数 以千 计 的 结 果 .而 且 有 一 大 部 分 是 与 检 索 主题 无关 的链 接 . 需要 用 户 在这 个 基 础 上 再一 次进 行 筛 选 , 增 加 了 用 户 的上 网时 间 与 处 理 效 率 。 因而 . 建立 新 一 代 的 网络 信 息个 性 化 检索 系统 是 人 们 所 期 待 的
提 供 域 名检 索 、 闻 搜 索 等 检 索服 务 。 度 另一 个 相 当 有 特 色 的 新 百
功能是能够 根据用户的检索结果 , 自动 地生成一份 关键词表 . 用 网络信息个性化检索系统实现个性化检索服务 .关键是进 户 可 以 借此 选 择 自己所 需 或 不 需 要 的关 键 词 . 以此 来 提 高 检 索

Web信息检索系统中的个性化技术

Web信息检索系统中的个性化技术

随着现 代 互 联 网 的 快 速 发 展 , 络 信 息 呈 现 高 速 增 长 的 态 网 势, www 正在 成为 人们 可以获取 和利 用 的一 个 巨大 的 信 息资 源 体 。目前 。 各种 We 信 息检索 系统的 广泛使 用就 是一 个 明显 的例 b
证 。广义 的 We b信 息检 索 系统 ( bS ac ytm) 搜 索引 擎 we erhS se 和
化技术和 被动 式个 性 化 技 术。 主动 式 个 性化 技 术 主 要是 指无 需
在 电 子商务 领 域 中 , 们 已 经 进 行 了 大 量 的 个 性 化推 荐 研 人 究 。与此 相反 , 现代 搜索 引擎 目前已 经 成 为人们 日常 生 活中 一个 不 可缺少 的工 具 , 然而个 性化 技术却 并没有 在 We 信息 检 索领域 b 中广 受 关注 , 具有 和现 代电子 商务领 域 中个 , 畦化推 荐 系 统相 似 功 能 的 We 搜索 系统却 很少受 到人们 的注 意 j b 。也就 是 说 , 代 搜 现 索 引 擎尚不 能广 泛地 提供个J 搜索 结果 , 不 同用 户 一个 相 同 性化 对
约减 、 聚类分 析 、 贝页斯 网络等 , 然在 一定 程度 上 能够 解 决缩 放 虽 性 问题 , 而这些 技 术往往 是通过 在 离线 阶段 抽取 出原 始 数据 中 然 的 模 式信 息 , 并在 在 线 阶段 使用 这 些模 式来 得 到推 荐 集 合 , 以 所
整体 效果 并不理 想 。可以这 样说 , 些方法 虽然 可 以 减少 在线 的 这 处 理 开销 , 是常 常 产 生推 荐结 果 不 准确 的 情况 并且 , 但 在线 计 算 的 复杂度 也会 随着模 式的 增多而 增加 。

国内重要的综合性信息检索系统-精选

国内重要的综合性信息检索系统-精选
CALIS的数据资源
➢ 外文数据资源
全文电子书数据库 博硕士学位论文数据库 期刊数据库 特种资源数据库
(只限于集团购买这些数据库的学校校园网用户使用[1])
[1] 教学参考信息子项目.[2009-03-28]. /calisnew/calis_index.asp?fid=3&class=8
、古籍善本、经典文学艺术作品、译著、青少年 读物等 ➢ 图书目录浏览细分到章节,可以按整书、按章节 进行检索、定位、显示,可以按本、按章节下载
第一节 中国知网 (National Knowledge Infrastructure,CNKI)
中国年鉴全文数据库
➢ 内容始于1949年 ➢ 内容覆盖基本国情、地理历史、政治军事外交、
第四章 国内重要的综合性信息检索系统
学习目的与要求
熟悉国内重要的综合性信息检索系统
➢ 中国知网 ➢ 维普信息资源系统 ➢ 万方数据知识服务平台 ➢ CALIS ➢ CSDL ➢ NSTL ➢ CEInet、China InfoBank
掌握各系统的资源构成、服务功能、检索方法
选择合适的信息检索系统,检索特定主题信息
法律、经济、科学技术、教育、文化体育事业、 医疗卫生、社会生活、人物、统计资料、文件标 准与法律法规等各个领域
第一节 中国知网 (National Knowledge Infrastructure,CNKI)
CNKI的检索
➢ CNKI提供导航检索、逻辑式检索和智能辅助检索三种检 索类型
➢ 可检字段:主题、篇名、关键词、摘要、作者、第一作 者、单位、刊名、参考文献、基金、中图分类号
检索前必须选择数据库,可 单选或全选;检索时可通过 设置查询条件、方式来缩小 检索范围

信息检索的特点

信息检索的特点

信息检索的特点信息检索是指从大规模的信息资源中,根据用户的需求,通过计算机系统实现对相关信息的快速检索和提取的过程。

信息检索具有以下特点:1. 高效性:信息检索系统能够快速地从海量的信息资源中找到与用户需求相关的信息。

通过优化索引结构、采用高效的搜索算法以及利用并行计算等技术手段,可以提高信息检索的速度和效率。

2. 多样性:信息检索系统可以检索各种类型的信息,包括文本、图片、音频、视频等多媒体信息。

这些信息可以来自于不同的数据源,如互联网、数据库、数字图书馆等,满足用户多样化的需求。

3. 实时性:随着信息更新速度的加快,用户对于实时信息的需求也越来越高。

信息检索系统可以通过实时抓取和索引技术,及时更新新的信息,并及时呈现给用户。

4. 个性化:不同用户对于同一信息的需求可能存在差异,信息检索系统可以根据用户的个性化需求进行定制化的检索。

通过分析用户的历史查询记录、兴趣偏好等信息,系统可以为用户提供个性化的搜索结果。

5. 面向主题:信息检索系统通常是面向主题的,即用户需要提供一个明确的查询主题或关键词,以便系统对相关信息进行检索。

用户的查询主题可以是一个单词、一个短语,甚至是一个问题,系统会根据查询主题进行相关性匹配,返回与查询主题相关的信息。

6. 信息过载:信息检索的一个重要特点是信息过载。

随着信息的爆炸式增长,用户往往面临着大量的信息,但很难找到满足自己需求的信息。

信息检索系统需要通过聚类、过滤、排序等技术手段,将相关性较高的信息呈现给用户,提高信息的利用价值。

7. 不确定性:用户的查询需求可能存在不确定性,即用户无法准确地描述自己的需求或无法确定自己的需求。

信息检索系统需要通过智能化的搜索算法和推荐技术,尽可能准确地理解用户的需求,并给出相关的搜索结果。

信息检索的特点与标题中心扩展下描述的主要是关于信息检索的高效性和个性化。

在信息爆炸的背景下,用户需要从海量的信息中快速找到满足自己需求的信息。

信息检索的发展趋势

信息检索的发展趋势

信息检索的发展趋势信息检索作为一种重要的信息处理技术,随着互联网的普及和信息化程度的提高,发展迅速。

信息检索的发展趋势主要有以下几个方面:一、个性化和智能化随着用户信息需求的个性化和多样化,信息检索系统需要更加注重用户个性化需求的满足。

个性化推荐技术可以根据用户的喜好、行为模式等特征,为用户提供个性化的信息推荐服务。

同时,智能化的信息检索系统可以通过机器学习、自然语言处理等技术,对用户的查询进行分析,提供更加准确、智能的搜索结果。

二、知识图谱的应用知识图谱是一种将数据和语义联系在一起的结构化数据表示方法,可以用于构建更加智能、全面的信息检索系统。

知识图谱可以通过整合多种数据源,将数据之间的关系进行建模,使得信息检索系统可以更好地理解用户查询的意图,提供更加准确、相关的搜索结果。

同时,知识图谱还可以用于构建问答系统、智能助手等应用,进一步提升信息检索的智能化水平。

三、跨语言信息检索随着全球化的发展,人们对于跨语言信息的需求越来越多。

跨语言信息检索是指将用户的查询翻译成其他语言,再在其他语言的文档中进行检索。

传统的跨语言信息检索往往面临语言差异、翻译失真等问题,但随着机器翻译技术的进步,跨语言信息检索的效果已经得到了明显的改善。

未来的发展趋势将是进一步提升跨语言信息检索的准确性和效率,为用户提供更好的跨语言搜索体验。

四、多模态信息检索随着多媒体数据的快速增长,传统的文本检索已经无法满足用户对于多模态信息的需求。

多模态信息检索是指在多媒体数据中进行信息检索,包括图像检索、视频检索等。

多模态信息检索涉及到跨媒体的语义理解和匹配,需要融合计算机视觉、自然语言处理等多种技术。

未来的发展趋势将是进一步提升多模态信息检索的准确性和效率,实现多模态信息的无缝检索。

总之,信息检索作为一种关键的信息处理技术,随着互联网的不断发展和技术的不断创新,将会呈现个性化、智能化、知识图谱应用、跨语言检索和多模态检索等趋势。

未来的信息检索系统将会更加满足用户的个性化需求,提供更加准确、智能的搜索结果,促进人们更高效地获取和利用信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

●鲍 君(北京师范大学信息管理系 北京 100088)个性化网络信息智能检索系统设计 摘 要:本文结合现有的智能技术,提出了一个个性化网络信息智能检索模型。

该模型能够对用户行为进行学习,从而建立一个反应用户兴趣的用户模型。

而针对网络分布式的特点建立的检索代理模型,则能够通过对大量用户数据的分析积累丰富的知识。

通过用户模型与检索代理模型的交互过程,向用户提供满意的检索结果。

关键词:信息检索;智能代理/检索模型;个性化信息服务Abstract:This paper puts forward a m odel of individual netw ork in formation intelligent retrieval according to the characteristics of distributed netw ork res ources and the users’interest.The system can learn what users need by studying their behaviors during the process of retrieval and then build a m odel for them,which can reflect their interest in certain field.Meanwhile,the retrieval agent,which runs on the server side,can learn abundant knowledge through interacting with a group of people.Therefore,the system can provide users with satis fying results by interaction between the user m odel and the retrieval agent m odel.K eyw ords:in formation retrieval;intelligent agent/retrieval m odel;individual in formation service 因特网的发展,使人们真正感受到信息化时代的气息。

然而,人们却越来越感受到因特网这个“数字时代的图书馆”并不像真正的图书馆那样支持有组织的信息管理和检索。

恰恰相反,其无限性和无序的组织方式,使之更像一个杂乱的信息仓库,各种形式的资源分布在不同的位置上,使其从根本上丧失了结构性,转瞬即逝的普通信息与具有持久价值的重要资料混杂在一起,这一切都对网络资源的利用造成了很大的困难。

搜索引擎的出现,曾一度给人们带来惊喜,并且目前也被广泛应用。

但由于多数搜索引擎处理信息的方法都比较原始,即通过对WWW页面进行索引和关键词匹配来满足用户的检索请求。

这种方法有其自身难以克服的缺点:①任何一个搜索引擎的索引也无法覆盖整个网络资源,因而,其返回结果是不完全的;②由于采用简单的关键词匹配模式,搜索引擎对一条检索请求可能返回数以千计的结果,而且其中常涉及一些无关的网址,用户必须在此基础上对结果进行二次筛选,这不仅增加了用户的负担,同时也降低了处理效率。

因而,人们期待着更为有效的网络检索工具的出现。

新的网络检索工具应尽可能满足不同用户的个性化需求,在检索的准确性和有效性方面达到要求。

1 个性化智能信息检索系统框架系统的总体设计思想是根据用户在特定领域中的兴趣偏好,在客户端定制一个用户模型,通过对用户行为的监测,来不断地修改和维护这一模型,从而提高用户模型与其实际兴趣偏好的吻合度。

用户模型的工作实际上就是对用户兴趣的推导和表征过程。

用户模型的作用主要包括:①获取与用户相关的信息;②对用户的能力和爱好确定表示方法;③预测用户潜在兴趣的转变并做出相应的调整。

用户模型是实现个性化服务的一个重要方面,模型的准确性是系统检索结果相关性高的基础。

用户模型的建立涉及到多个模块的协同工作,主要的功能模块包括:①用户界面;②查询模块;③用户行为监测模块;④知识库;⑤信息库管理模块;⑥智能代理模块。

系统框架如图1所示。

图1 系统总体框架111 用户界面用户界面是用户与系统交互的窗口,优化的界面不仅为用户的操作提供了极大的方便,也为系统更好地接收用户反馈信息提供了基础。

传统的用户界面一般只具有接收用户检索请求和反馈结果的功能。

而作为信息用户与智能信息检索系统的接口,它还应具备获取用户反馈信息和对用户行为进行动态监测的功能。

具体表现为:1)用户个人档案。

当用户首次登录时,系统允许用户通过注册建立起自己的个人档案,内容涉及用户身份、知识背景、兴趣领域等方面的内容。

用户档案的建立可以使系统便于对用户兴趣进行后续分析,且为具有相近兴趣的用户进行分组提供了基本的信息来源。

2)虚拟用户界面。

用户界面是由一系列单独的界面组合而成的整体,包括检索接收界面,交互式学习界面等。

界面之间彼此联系构成了与用户交流的有效平台。

系统可以根据用户的操作特点对界面布局进行动态改造,形成符合用户操作习惯的虚拟界面,突出用户的个性化特征,提高使用效率。

3)检索反馈控制。

用户对系统的返回结果拥有一定的控制权,体现在:用户可根据自身的操作习惯定制结果显示模式(排序方式、详尽程度等),处理方式(浏览、下载、打印等)。

此外,系统还建立了检索结果的评价机制,鼓励用户对检索结果给出量化的评价值,该值会被存储在网页数据库中,以方便系统进行学习,调整网页的相关度,使用户的下一次访问能够得到更为准确的结果。

112 查询模块查询模块处于整个系统的核心位置,在系统运作中起着十分重要的作用。

传统检索系统的主要功能集中在用户查询词与已标引的网页资源的简单匹配上。

这种仅局限在词形层次上的匹配方式,针对网络信息环境,其漏检率很高。

并且,由于缺乏对用户反馈信息的处理,系统的整体检索效率并没有很大的提升空间。

本系统充分考虑到上述问题,对查询模块做出了相应的改进,使其具有智能性,能够对用户的查询请求进行自主性判断,选择合适的处理方案,将最相似的检索结果提交给用户。

当用户从检索界面提交了一个查询请求后,查询模块首先访问知识库中的用户信息表,获取该用户的兴趣点,这里,用户的每一个兴趣点用一组关键词来表征,将其与查询词进行比较,验证它是否属于用户已存在的兴趣:①若属于用户兴趣,则直接利用描述该兴趣的关键词通过信息库管理模块与本地个性化信息库中的资源进行匹配。

系统中个性化信息库同样按照兴趣类存储。

②若查询词不属于任何一个用户已有的兴趣,那么它有可能涉及一个新的知识领域,系统将其提交给智能检索代理进行新的查询操作,并将查询结果按上述规则保存在本地信息库中,从而丰富信息库的内容。

通过访问兴趣表可对用户的查询进行扩充,扩大用户的知识面,丰富检索结果。

由于系统中描述用户兴趣点的关键词是从具有相近任务的智能代理(Agent)那里学习得到的,因而准确率很高,对用户有很好的提示作用。

这是本模块智能性的一个重要体现,它不再局限于用户某一次的检索输入,而是把检索请求进行概念上的扩充,并与用户的检索历史联系起来,这对检索效果的改善将起到至关重要的作用。

并且,检索模块能够根据用户的实时反馈对检索结果进行动态调整,即通过对检索结果重新排序使与用户相关的结果被排在更为显著的位置。

这一点是通过计算网页间的相关度值实现的。

113 用户行为监测模块用户行为监测模块是系统学习的主要手段,它是一种所谓的“被动式”学习,即在没有用户直接参与的情况下,通过对用户行为的观察来理解用户的意图,从而改进系统的服务模式。

这种学习过程对用户是透明的。

本系统中用户行为监测主要有以下几方面功能:1)记录用户对结果显示中每个页面链接的点击次数,用一个权值来代表它的点击频度,用户每点击一次,该权值就作相应的增加,以此来学习各超链接对用户的重要程度。

2)计算用户对页面的浏览时间,时间越长则认为该页面的相关度越高。

3)记录用户对文档特定部分的操作,如对某一部分的复制,往往这些部分含有用户所需的重要内容,模块通过对这些部分进行分析,可以准确抓住用户的兴趣点。

用户行为监测模块通过以上对用户行为的分析,将结果反馈到知识库的相关表中,使用户的下一次查询能够得到更优化的结果。

由于行为监测模块依据用户的实际行为做出兴趣推导,因而,具有客观性,是一种有效的学习方法。

对特定用户历史操作行为的分析过程,也是系统增强对用户的理解的过程,因而奠定了实现个性化服务的基础,同时,也是系统智能化的一个重要表征。

114 知识库智能系统的核心在于对用户的学习,从这个意义上讲,知识库的主要作用即在于记载对用户学习的成果。

体现在对用户兴趣的推导、总结、更新和维护。

为了在划分用户兴趣类别时有据可依,知识库还应起到规范知识体系的作用。

为此,系统中将知识按照一种分级索引模型进行组织,这种分级结构能够促进知识库的有效搜索和对知识库的动态管理。

该模型自然而动态地表达了知识的层次结构。

便于对其进行语义上的扩充,如当用户查询与某个知识点有关的兴趣时,很容易找到其更高层次上的相关知识,从而从概念上对查询作出扩充。

我们在建立知识体系时只将最常用的知识领域列在其中,在用户的使用过程—224—・第27卷2004年第4期・中,系统会根据用户不断提出的新的需求来扩充自身,使其不断完善。

随着用户对系统使用频率的增多,知识库也会因不断注入此用户的思想而变得具有个性特征。

知识库对用户兴趣的学习主要体现在以下方面:①用户可以根据自己的知识背景对知识体系中不适合自己的知识点进行人为修改,但对于已在实践中得到了广泛验证的体系结构,不允许用户修改,以防止用户的误操作,知识库管理程序会给用户设定相应的权限。

这是系统的“主动式”学习,它具有直观性的特点,并且有助于加快系统的学习速度。

②根据用户行为监测模块提交的用户行为分析结果,归纳出用户在一段时间内检索过的兴趣点,增加其在知识库中的权值,以巩固用户这方面的兴趣。

将新增兴趣按知识体系添加到相应位置,并赋予一个较大的权值,而对用户一段时间内没有访问过的兴趣,减少它的权值。

这样,一段时间以后,知识库中的兴趣点将会随用户潜在兴趣的迁移而相应地发生变化,进而实现对用户兴趣的动态追踪。

通过以上两种方式的学习,知识库能够很好地把握用户的兴趣点,并具有根据用户兴趣调整而做出反应的自适应能力,较好地实现了系统与用户的交互。

115 信息库管理模块信息库管理模块的职责是管理本地的个性化信息库(Pers onalized In formation Database,PI D),PI D中的信息按照兴趣类存储。

每个兴趣类都与知识库中的知识点相对应,依照知识库的变化,信息库管理模块会对个性化信息库进行定期检查,把不符合用户兴趣的类及其相应的资源删去,加进用户新产生的兴趣类,并利用智能Agent在网络上寻找相关信息,存储在本地信息库中。

相关文档
最新文档