开源信息检索技术在高校图书馆的应用——以昆明理工大学图书馆为例

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

索技 术在 高校 图书馆的发展与应 用问题 ,为我 国其他 高校 图书馆提供经验借鉴。 关键词 :开源软件; 高校 图书馆 ;信 息检 索;云计 算;we . b20 中图分类号 :6 5 2 文献标识3 :A 5 - 文章编号 :1 7 — 2 9( 0 )0 — 0 9 0 632 1 2 1 1 80 5 - 4
档 中抓取 它们 的内容 来建 立摘 要和索 引 。从本地 硬 盘或 irnt n ae 中查找到的结果可重新再进行检索。Zlel e支持 t i rn v i
多种语言其中包括 中文 。
R dPr h 是 一 个开 源 搜 索 系 统 ,它 能 够 真 正 “ 习” e—i n a a 学 你 所 要 查 找 的 是 什 么 。 R dP ah 可 作 为 你 桌 面 系 统 e .i n a r
得所需资源 ;网络的发展迫使 图书馆不但 要为用户提供满
意 的 数 字 资 源 , 且必 须 提 供 友 好 、快 速 的 检索 界 面 ,这 样 而
知识 的爆炸性增长要求 图书馆必须走数字化之路 。 而发
展数字化 图书馆 的核心 问题是信息、
知识 资源 的组织 、检索与 共享 。由此可见信息检索技术是 图 书馆 的核心技术之一 , 面对海量数据和知识的爆炸性增长以 及读者要求 的不断提高 , 迫使 图书馆必须 提供 秒级 检索结果 显示 ,才能吸 引读者使用图书馆资源 ,爱用图书馆资源。 We 20概念 的成熟和云计算技术 的发展为 图书馆为读 b. 者提供 个性化 ,多样化 的服务提 供了坚实 的基础 。图书馆 20的提 出要求图书馆能从两个方面着手 创新 :一是服务创 . 新 ;二是创 新服务。服务创新是指在原有的服务领 域,利用 We 20 的先进技术、先进理念 开展服务方式 ,服务手 段的 b. 创新 , 提高服务水平 。 而创新服务则是需 要图书馆建立 自己 的有关 We20的各种技术服务平台,为服务创新提供技术 b. 支撑 ,开辟新 的服务领域 ,创建新的服务 项 目,为读者提供
才能不断地吸 引读者 ,实现 图书馆资源的最大效用 2 .。 J
1 高校 图书 t 发 展所面 临 的挑 战和 问题 . 官
1 . 业市 场 的 冲 击 1商
随着搜索 技术 的不 断发展 ,以及搜索市场的壮大 , 商业
搜索引擎公司不断推 出数字 图书馆服务。学术谷歌 , 百度文 库, 新浪爱 问等系统对 图书馆的侵 蚀 日趋 明显 。比如 ,百度 与北大、中科院科学图书馆合作 , 开发 了强大的数字图书搜 索功 能 ,在网上建 立搜 索平台 ;Go ge公 司凭借 其大 量、 ol
些 大 学和 研 究机 构 进 行 自由 式 独 立 研 究 的初 级 阶 段 ,进
入 到形 成 开 源软 件 技 术 联 盟 进行 合 作 开 发 的成 熟 阶 段 I。我 o j 们 完 全 可 以 吸 取 国外 成 熟 的理 念 和 技 术 并在 国 内 试验 和推
广。
Pp i h Dg是一个采用 P P开发的 We H b爬虫和搜索引擎 。 通过对动态和静态页面进行索 引建立一个词汇表。 当搜索查
典 的反 向索 引算法( 与大型的搜索 引擎相 同) , 这就是为什么 它会比其它搜索引擎快 的原 因。 S hn 是一个基于 S L 的全文 检索 引擎 ,可以结合 pix Q
My Q ,otrS L做全文搜索 ,它可 以提供 比数据库本身 S LP s e Q g 更专业的搜索功能 , 使得应用程序更容易实现专业化的全文 检索。S h x特别为一些脚本语言设计搜索 A I接 口,如 pi n P P PP to ,el u y等 ,同时为 My Q H ,y nP rR b h , S L也设计 了一个存
商业公司 , 图书馆特别是高校图书馆 在 自我服务定位与信息 资源建设上需要进行转变。否则 , 随着云计算和 网络技术 的
发展 ,图书馆 的业务将被各大商业公 司所抢 占 。 j
收 稿 日期 :2 1 -0 —2 01 3 2
合理有 效I 。
1 图 书馆 的 内在 问题 _ 3
外 ,是 最重要的是使使用者可 以随时应 自己需要 自订其功
能。
秒钟 内搜索 5 0 .0 0 00 10 0个页面。RS ac ierh是一个索引搜索 引擎, 这就意味着它先将你的 网站做索 引并建立一个数据库 来存储你网站所有页面的关键词以便快速搜索 。 i a h是 Rs r ee
更高层次的服务I。
综观 国内外各大 高校 , 其图书馆所承担的任务概要 归纳
稳定 的资金和先进 的技术与众多高等院校合作 , 开发了大量 的数字化 图书 , 放到 网上供读者阅读。如今的搜索引擎技术 日益成熟 , 并且逐步把 图书馆的业务也融入到了搜索结果 当
中, 用户可以在任何一个 电脑终端 , 就可以享 受到来 自搜索 引擎 提供 的有 关图书和文献的信 息服务 。 面对 强大而高效 的
开 源信 息检 索技 术 在 高校 图书 馆 的应 用
以昆明理 工 大学 图书馆 为例
孔 云 杨 婷
( 明理 工 大 学 图 书 馆 , 云 南 昆明 6 0 9 ) 昆 50 3

要 :本文以 昆明理工大学图书馆 为例,从 高校 图书馆 的角度 ,通过对开源技术的特点及其功能分析 ,探讨 了开源检
询时 , 它将按一定 的排序规则显示包含关键字的搜索结果页 面 。P p g包含一个模板系统并能够索 引 P FWodE cl h Di D , r,xe ,
和 P wro t o e i 文档。P P i P n H dg适用于专业化更强、层次更深
21基于 J V . A A的开源搜 索引擎
逻辑、短语和近义词查询; 支持每个文档多个全文检索域( 默
( n o s iu Wid w ,Ln x与 Ma)的个人搜索 引擎 ,或企业内部 c 网搜索 引擎,或为你的网站提供搜索功能 ,或作为一个 P P 2 搜索 引擎 , 或与 、l v d结合作为 一个知识/ i 文档管理 解决方案 ,
1 We 20时代 对 图 书馆 发 展 的新 要 求 . 2 b.
数据 、 息 、知识 的爆 炸 性 增 长 给 图 书 馆带 来 了戏 剧 性 信
的挑战 , 但也为其发展提供了前所未有 的机遇 。 数字 图书馆 的发展是对传统图书馆的颠覆 ,是未来 图书馆 生存 的必然 , 其发展 的核心 问题是如何更好地对搜集 、 织、检索与利 用 组 好信息资源 。 许多读者在面对 海量信 息时显得手脚无措 ,读 者对 图书馆的服务提出了更高的要求 , 希望能快速准确地获
为 了迎接图书馆面临的外 部危机 , 当历史使命 , 承 图书 馆必须拥有 自己的信息检索技 术和 创新平 台。 然而 , 据估算 ,

基金项 目:本文系云南省教育厅科学研究基金项 目( 项
目编 号 0 Y 0 8成 果 之 一 。 9 08) 作 者 简 介 :孔 云 (9 2 ) ,男 ,云 南 南 华 人 ,硕士 , 18 一 昆 明理 工 大 学 图 书 馆 计 算机 部 。杨 婷 (9 9 ) ,女 ,湖 南 17 一
或搜索你要的 R S聚合信息,或搜索你公司 的系统 ( S 包括
S P,O al 其它 任 何 Da b s Da o re ,或 用于 管 A rce或 t ae t suc ) a / a
理 P F D ,Wod和其它 文档 ,或作为一个提供搜索信息 的 r
认最大 3 2个) ; 支持每个文档多属性 ; 支持断词; 单字节编 支持
5 9
永州人 ,硕士 ,昆明理 工大学图书馆信息咨询部。
2 开 源技术 为图书馆 的发展提 供 了创 新平 台 .
目前 ,国外 对 系 统 开 源 软 件 的 研 究 已经 从 最 初 的 仅 由

复 制来 提 高 可 用性 , 提供 一 套 强 大 D t Sh m 来 定义 字 段 , a ce a a 类 型和 设 置 文 本分 析 ,提 供 基于 We 管理 界 面 b的 22 基 于 P P的 开 源搜 索 引擎 . H 。
第3 2卷 第 8期
21 年 8 01 月
湖南科技学院学报
J u n l fHu a i e st fS in ea dEn i e r g o r a n n Un v ri o ce c n g n ei o y n
Vb -2NO. l3 8
Fra Baidu bibliotek
Au .0 g2 1 1
储 引擎插件 。S hn pix的特性 :高速索 引 ( 在新款 C U上, P 近 1MB 秒) 0 / ; 高速搜索(—G的文本量中平均查询速度不到 01 24 . 秒) ; 高可用性( C U上最大可支持 10 B的文本, 0 文 单 P 0G 1M 0 档) ; 良好 的相关性排名 , 提供 支持分布式搜索; 提供文档摘要 生成; My QL内部 的插件式存储 引擎上搜索 , 提供 S 支持布尔
个 图书 馆 要 实 现 自动 化 , 经 费预 算 少 到 几 十 万 , 其 一般 多
到 几 千 万 。因各 地 财 政 情 况 不 平衡 ,图书 馆 因经 费 不 足 从 而 使 其 自动 化 程 度 不 一 , 甚至 有 些 图书 馆 无 法 实 施 。 费 申请 , 经 体 制 问题 和 信 息 技 术 人 才 匮 乏 等 因素 给 图 书 馆 自动 化 系 统 的 推 广 带 来 了极 大 的 困难 和 挑 战 。
Nt uc h是一个开源 Jv aa实现 的搜索引擎 。它提供了我
们运行 自己的搜 索引擎 所需的全部工具 。包括全文搜索和
We b爬 虫 。
的个性化搜索 引擎 , 利用它打造针对某一领域的垂直搜索引
擎 是最 好 的 选择 。
A ah uee是一个基于 Jv 全文搜索引擎 , p ce cn L aa 利用它 可以轻 易地为 Jv aa软件加入全文搜寻功能 。L cn uee最主要
为教 学、科研 、社会信息共享等方面。从知识无限到知识无 界限, 让每一个读者 都能 方便快捷地获取知识 ,了解和感受 最新科技学术动态是高校 图书馆的重要任务 。 而这 些均需要
读者和 图书馆 问的信息互动来实现 。 因此 , 信息检索技术便 成 为连接读者和 图书馆之 问的纽带和桥梁 。 高校图书馆能否 很好吸 引和服务读者 , 直接依赖于信息检索技术 的运用是否
码与 U F8编码 。 T一 j
23 中文 支持 情 况 .
We S ri b ev e或为你 的应用程序 ( b S ig S c We , w n , WT, l h Fa , s
Moia L,P P,P r或 c/ e)提供搜索后台等等 。 zl- l XU H el #. t N Apce S l ah or是一个 高性 能 ,采用 Jv5 开发 ,基于 aa
全 文 搜 索 引 擎脚 本, 把 所 有 的 关 键 词都 编成 一个 文 档 索 引 它
除 了配置文件里面的定义排除的关键词 R Sac ierh使 用经
Zlel e是一个搜索 引擎 ,它通过 w b方式搜索本地 i rn v i e
硬盘或 it nt上的内容。Zlel e可以从 P F nr e a i rn v i D ,Wod r, E cl o eP it T ,[ ,jv ,C M,z ,rr等文 xe,P w ron,R F x aa H t i a p
RSa h H ier P是一个高效 , cP 功能强大的搜索 引擎 ,特别
适 用于 中小型网站 。R Sac HP非常快 ,它能够在不到 1 ierh P
工作是 替文件的每 一个字作索引 , 索引让搜寻的效率 比传统 的逐字 比较大大提 高,L cn提供 一组解读 ,过滤 ,分析文 ue 件 ,编排和使 用索 引的 A I P ,它的强大之处除了高效和简单
相关文档
最新文档