网络信息检索及其局限性__论文(DOC)
浅析网络信息检索存在的问题和发展方向

浅析网络信息检索存在的问题和发展方向第一篇:浅析网络信息检索存在的问题和发展方向信息检索结课论文信息检索结课论文浅析网络信息检索存在的问题和发展方向摘要:21世纪是以信息技术为核心的知识经济时代,先进的信息作用于各个行业,网络信息检索是目前发展最为迅速,最受人欢迎的信息检索,在互联网上人们轻易地从浩如烟海的信息世界里可以找到自己所需的信息。
本文就网络 1信息检索结课论文信息检索中在搜索引擎,资源组织分类,多媒体检索,个性化需求和用户本身方面存在的问题进行了分析,针对这些问题提出了未来网络信息检索技术的智能化、标准化、个性化三大发展方向。
关键词:网络信息检索搜索引擎多媒体检索智能化标准化个性化随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。
信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。
[1]网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。
相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。
但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。
以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
一、在搜索引擎方面中存在的问题搜索引擎起着网络导航的作用,在给我们提供方便的同时,也存在一些问题。
目前搜索引擎存在缺陷且智能化程度低状况,用户在使用搜索引擎检索信息时,经常会搜索出一些毫不相干的内容,大大降低了检索所需信息的效率。
[2]目录式搜索引擎由于人工分类成本高,费时费力,标引速度慢,使得采集信息的速度远远跟不上网络资源的增长速度,这就造成了目录式搜索引擎所建立的数据库规模较小,某些类目下搜集的信息数量有限而且难以随时更新等缺陷,查全率低。
网络信息检索方法论文素材

网络信息检索方法论文素材在当今互联网高速发展的时代,信息的获取和利用变得越来越重要。
网络信息检索成为了人们获取所需信息的主要途径之一。
本文将介绍一些网络信息检索方法的论文素材,用于帮助研究者和学生进一步了解该领域的相关内容。
一、信息检索的定义和背景1. 信息检索的定义:信息检索是指利用计算机等技术手段,在大规模文本集合中查找符合用户需求的信息的过程。
2. 信息检索的背景:随着互联网的发展,信息爆炸式增长成为了一个亟待解决的问题。
传统的信息检索方法已经无法满足人们对于高质量信息的需求,因此需要研究和开发更加高效准确的网络信息检索方法。
二、网络信息检索的常见方法1. 基于关键词的信息检索:基于关键词的信息检索是最常见的一种方法。
用户通过输入关键词,系统会从大量文本中匹配与之相关的信息,并进行排序呈现给用户。
2. 信息检索的排序算法:排序算法在信息检索中起到了关键作用。
常见的排序算法包括基于文本相关性的TF-IDF算法、基于链接分析的PageRank算法以及基于机器学习的排序算法等。
3. 改善搜索结果的方法:为了提供更好的搜索结果,研究者们提出了一些改善搜索结果的方法。
其中包括查询扩展、聚类分析、用户反馈等。
4. 基于内容的信息检索:基于内容的信息检索是一种通过分析文本内容来查找相关信息的方法。
通过提取文本中的关键信息和特征来进行匹配和排序。
三、网络信息检索的挑战和发展方向1. 挑战:网络信息检索面临着诸多挑战,其中包括信息过载、信息质量、多语言检索、个性化需求等。
如何更好地应对这些挑战是值得研究者深入探讨和研究的问题。
2. 发展方向:网络信息检索的发展趋势包括语义搜索、个性化搜索、跨语言搜索、移动信息检索等。
这些方向将进一步提高搜索结果的质量和效率,满足用户的多样化需求。
四、总结网络信息检索作为互联网时代的核心技术之一,对于人们获取所需信息起到了重要作用。
本文提供了网络信息检索方法论文素材,内容包括信息检索的定义和背景、常见的信息检索方法、改善搜索结果的方法以及网络信息检索的挑战和发展方向。
搜索引擎的信息搜索局限性探究-搜索引擎论文-图书档案学论文

搜索引擎的信息搜索局限性探究-搜索引擎论文-图书档案学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——摘要:如何有效地利用海量的信息资源, 如何在广阔信息的海洋中寻找有用的信息是一个较难的任务, 解决这些问题的最有效的工具是搜索引擎。
社会网络信息搜索的最重要的手段是搜索引擎, 其主要功能是高效准确地进行信息搜索, 迅速帮助用户找到必要的信息。
关键词:搜索引擎; 信息检索; 搜索引擎功能性; 搜索引擎局限性;1 搜索引擎概述1.1 搜索引擎工作原理搜索引擎的基本工作原理基本包括三个过程:第一, 在互联网上发现和收集网页信息;与此同时, 建立与相关信息对应的索引数据库;然后, 根据关键字输入对于用户, 搜索者可以快速检索索引数据库中的对应信息, 评估相关度, 并评估要输出的结果。
1.2 搜索引擎的分类自1993搜索引擎问世以来, 世界上已有3000多家搜索引擎。
并且不断地更新。
英文搜索引擎比较具有代表性的是Google, Yahoo, Opentext等。
中文搜索引擎较著名的有百度, 搜狐, 新浪等。
2 搜索引擎的局域性分析2.1 检索数据库更新困难谷歌搜索引擎的爬虫系统, 可以获得每一秒100个以上的网站, 每天可以抓住80000个网站, 其速度是远超于该索引数据库的更新速度, 两者之间存在着相互对立的矛盾。
2.2 标引深度不够是大部分搜索引擎存在的问题当今, 在搜索结果中仅提供了简单的搜索关键字和搜索关键字的Web信息是绝大部分搜索引擎的主要问题, 而绝大部分用户需要的是更详细的和明确的信息, 这与用户的需求产生矛盾, 特别是对搜索关键字在特定文献数据库的搜索引擎的搜索较多时, 搜索出的结果很难达到用户满意的程度。
2.3 大部分的搜索引擎的查准率和查全率不高在生活中利用搜索引擎发现的结果大部分是繁多的网页的地址链接, 用户只有逐个筛选繁多的网页, 还可以从繁多的网址中选出一部分信息来满足自己所需要的有用的信息。
网络信息检索及其局限性论文DOC

现代网络信息检索未来的发展趋势姓名:学号:班级:摘要:随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。
【关键词】网络信息信息检索搜索引擎资源共享1 网络信息检索简介随着信息化工程的整体推进, Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。
1.1 信息检索概念信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。
人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
1.2 网络信息检索的原理网络信息检索工具是网络信息检索技术的实物体现。
目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
①布尔逻辑模型这是一种简单而常用的严格匹配模型。
用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。
标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。
利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
②模糊逻辑模型它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
③概率模型它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
信息检索应用的不足之处

信息检索应用的不足之处
信息检索应用是一种普遍使用的技术,用于在大量文本数据中寻找特定信息。
尽管这种技术在许多领域得到了广泛应用,但它仍然存在一些不足之处。
首先,信息检索应用通常只能根据关键词来搜索文本内容。
这种搜索方式可能会导致结果的不准确性,尤其是当关键词的含义不明确或者存在歧义时。
例如,当我们搜索“银行”时,可能会得到与金融机构无关的结果,如河岸上的银行。
其次,信息检索应用往往无法理解文本背后的含义。
它只能对文本进行字面上的匹配,而无法理解文本的上下文、语境以及隐含意义。
这种局限性可能会导致搜索结果的不完整性,甚至产生误导性的结果。
第三,信息检索应用往往无法处理复杂的查询需求。
例如,当我们需要搜索一篇文章中关于“狗”和“猫”的相互关系时,传统的信息检索应用往往无法满足这种需求。
最后,信息检索应用中的算法和模型往往基于人工构建的规则和语料库。
这种方式可能会导致算法的局限性,无法满足特定领域的需求,例如医学或法律领域。
因此,虽然信息检索应用在许多领域应用广泛,但它仍然存在一些不足之处。
未来,我们需要不断改进和创新技术,以满足更加复杂和多样化的查询需求。
- 1 -。
关于信息检索与利用的论文

关于信息检索与利用的论文一.Internet 查询因特网是一个无边无际的信息海洋,每天都有新的网站出现,大量网页每时每刻都在更新,内容包罗万象。
想要找到所需的资料,简直如同大海捞针。
如何从浩如烟海的信息中迅速准确地获取自己需要的信息,需要借助于网页搜索工具。
一、搜索引擎网页搜索工具即搜索引擎,按其工作方式主要分为全文搜索引擎和目录索引类搜索引擎。
全文搜索引擎,如Baidu、Google,它们都是从因特网上提取的各个网站的信息而建立的索引数据库,当用户查询时,它在数据库中检索与用户查询条件相符的相关记录,然后将结果返回给用户。
目录索引类搜索引擎,如新浪,搜狐,是将收取到的各个网站的信息按照目录,建立数据库供人们分类查找,因此这种搜索方式也被称作分类搜索。
1.全文搜索引擎的使用方式也称为“关键词查询”,比如我们要查找勾股定理的证明方法,则“勾股定理”、“证明”、“方法”,这几个词就是关键词。
在搜索框内输入这几个词,然后点击“搜索”按钮(或直接按回车键),系统就会自动查找与勾股定理的证明方法相匹配的信息,并且在页面上将这些信息提供给你。
2.录索引类搜索引擎采用罗列目录的方式,引导搜索者依据分类目录查找需要的信息。
以“搜狐”网站为例,网页上的专题目录都是“链接”点,从主目录到子目录,层层深入,直到找到更具体的信息。
如果您想查找有关中国篮球方面的信息,就可以采用分类查找,也即目录查询方式。
在搜索的目录提示中依次点击进入“体育>篮球>中国男篮”,这时页面上面列出的是所有与“中国男篮”相关的信息和网站。
全文搜索引擎和目录索引类搜索引擎各有优缺点。
全文搜索引擎操作方便,但它所依赖的自动化的信息检索技术,经常不能提供恰好符合实际需求的信息;目录索引类搜索引擎相对要准确一些,但使用起来稍微麻烦一些。
实际上,当前许多搜索网站都设置了两种搜索方式,供用户选择。
二、搜索小技巧在搜索时,使用者经常会遇到以下两种情况:一是搜索返回的条目成千上万,二是搜索返回的条目太少或没有。
网络信息检索及其局限性

该模 型 是 在 贝 叶斯 概 率 原 理 的基 础 上 提 出来 的 ,对 词 条 和 文档 间 的 分 检 索 工 具标 引 的准 确 度 都 无 法 达 到 设 计 要 求 ,检 索工 具 往 往 在 反 内在 联 系 进行 研 究 之后 ,通 过 词 条 和 词 条 之 间 和 以及 词 条 和 文档 之 馈 垃 圾信 息 的 过程 中也 会 将 部 分 有 价 值 的 信 息 丢 掉 , 某些情况下 , 垃 间 的概 率 相 依 性来 检 索信 息 。 ② 布 尔 逻 辑模 型 。 根据检索项在文档 中 圾信 息 会 覆 盖所 有 有价 值 的信 息 。 ④ 查 询 方式 较 少 。 当前 的很 多搜 索 的布 尔 逻 辑 关 系 提 交查 询 ,搜 索工 具 按 照 提 前 组 建 的倒 排 文档 结 构 引擎 , 在查询方式上都过于单一, 而 且 都 需 要 用 户提 供 关键 词 来 查 询 来确定查询 结果。 ③ 模糊逻辑模型。 处理查询结果 的过程 中引入模糊 或 采 用 分 类查 询 的 方法 。 这样 , 只 能就 某 一 关键 词 或概 念进 行 笼 统 检 逻辑 比较 , 同时 根 据 先 后 次 序 将 查 询 结 果排 列 出来 。 索, 因 此使 查 询 结 果相 关 性 很 差 。 ⑤ 检 索 对 象 的 数 据 结 构 单 一 。由于 2搜 索引擎 现在 大 多 网 站 使用 传 统 的关 系数 据 库 对 信 息 进 行组 织和 存 储 , 因此 搜索引擎 , 又 称 检 索 引擎 , 指的是在 I n t e r n e t 上运行 , 通 过 对 信 其 使 用 的 搜 索 引擎 也 是 基 于 关 系 数 据 库 的 ,这种 数 据 库 非常 擅 长 处 息 资 源进 行 检 索来 提供 所 需数 据 的服 务 系统 。 当前, 大 部 分 人 们 都 利 理 结构化 的数据 , 但对非结构化的数据 的处理 能力很弱。 ⑥交互性不 用搜 索 弓 l 擎 来 检 索 网络 信 息 。 和 其他 检 索 工 具 比 起来 , 它 这 种 检 索 工 够 。 大 部 分 搜 索 引擎 和 用 户 之 间 无 法 建 立其 很 好 的交 互 性 , 在 协 作 方 具 的检准率、 检 全率远远高于其他检 索工具 , 具 有 极 强 的利 用 价 值 , 面 比较 欠 缺 , 对 用 户信 息 很 陌 生 , 不对用户查询 的信息进行记录 , 无 且 就 目前 情 况 而言 , 它的市场强劲非常广阔。 法 对 用 户 的 反 馈信 息进 行 处理 ,也 就 无 法 与 用 户 之 间达 成 良好 的交 2 . 1搜 索引擎 的功 能 ①模 糊检 索。对 网络资源进行检 索时, 系 互来提高检索效率。 统 检 索 用 户 提供 的 关键 词 以 及 与 冠军 按 此相 似 的词 语 , 同时 返 回 包 3 _ 2 多媒 体 信 息 检 索 的局 限 虽 然 眼 下 已经存 在 只 针 对 声 音 、 视 含关键 词 , 或这些相似词 的检索结果。 ②布 尔逻辑检 索。 用户可通过 频 和 图 像 等 媒体 的检 索 技术 ,但 仍 未 研 究 出能 检 索 多 媒体 信 息 的搜 N O T 、 AN D、 OR进 行 关 键 词 的 搭 配检 索。 ③ 截词检索。 截 取 词 条 的某 索引擎 , 具体体现在以下几点 : ① 检索效果不好。 就 目前情况而言 , 大 部 分来 进行 检 索 。 在 搜 索 引擎 中 , 用户提供包含 “ ?” 、 “ ’ 通配符 的 部 分 多 媒体 搜 索 引擎 的查 准 率 都 无 法 满 足 用 户 的 需 求 , 用户 不得 不 检 索项进 行检 索。 ④ 限定词检索。 它用来规定检 索项 中必须 出现或是 从 众 多 图 像 结 果 中 自己筛 选 出所 需 的信 息 资 源 。 这很费时 , 而 且 有 时 必须 不 出 现某 些 关键 词 。 根 本 检 不 出 想 要 的 东 西。 究 其 原 因 , 一是 查 询 方式 少 , 二是 在 于 对 图 2 . 2 搜 索 引 擎 的工 作 原 理 搜 索 引擎 的 检 索 机 制 一 般 包 括 数 据 像 的标 引 深度 不 到位 , 所以, 必 须 进 一 步 完 善 图像 检 索及 相 关 的索 引 组 织机 制 、 数 据 采 集 和 标 引 机 制 和 用 户 检 索 机制 。 机制。 ②用户查询接 口单一。 科 学的多媒体检 索系统 , 人 处于主动地 ( 1 ) 数 据 组 织据 组 织 机 制 是 对 wv v  ̄ / 页 面 信 息 进 行 整 合 ,使 其 更 位 , 用 户 的查 询 接 口直观 易 用 , 可 提 供 足 够 的 交互 能 力 , 用 户 能 可 以 加简单 、 规范 , 同时构建相应 的索引数据库。② 数据采集和标引机制 对检 索参 数进 行 适 当 的调 整 之 后 ,将 图 像 的语 义感 知 准 确 的表 达 出 根 据 相 关规 律 及 一 定 的 方法 来 搜 索 网络 上 的 v v w ̄ v站 点 ,同 时 将 搜 来, 并 从 中 取 得 较 好 的 结 果 。 当前 , 多 媒体 搜 索 引擎 用 户 查 询 接 口呈 索结 果存入搜 索引擎 临时的数据库 内。⑧ 索 引数据库是信息检索的 现单一的发展趋势 , 很多引擎仅 能通过关键词或提 问框进行查询。 ⑧ 先决 条件 ,检 索结 果是 否符 合 要 求 在 很 大 程 度 上 去 觉 与 索 引 数据 的 信 息 的 自动加 工 与人 工 标 引不 够 。 目前 多 媒体 搜 索 引擎 的研 究 网 0 刚 准确 性, 数据库质量主要取决于搜索引擎的数据 采集及标 引机制。 ④ 起 步 , 尤其 是 图 像信 息 的 加 工 , 人工干预 虽能提高查准率 , 但 可 被 人 用户 检 索机 制 通过 相 应 的 方 式 对 引擎 的 索 引数 据 库 进 行 检 索 ,从 中 工标 引 的 非 常 有 限 , 同时 , 因 为人 工 标 引 需 要付 出很 多劳 动 而 使 检 索 获取 有价 值 的 网页 或 站 点。 范 围 受 到 限制 ,因 此 , 当前 亟 待 解 决 的 一 个 问题 是 快 速 标 引 图像 信 2 . 3 搜 索 引擎 的分 类 目前 的 中 文 搜 索 引 擎 主 要 有 三 种 类 型 : 目 息, 并 对 其 进 行 合 理 的分 类 。 录 式搜 索 引擎 、 机 器 人 搜 索 引 擎和 元搜 索 引擎 。 当前 , 基 于 内容 的 检 索 技 术 多应 用于 对静 态 图 像 的 检 索 , 对 动 态 ① 目录 式 搜 索 引 擎 , 是通过半人 工、 人 工 的办 法 采 集信 息 , 组 建 图像 的检 索还 没 有 多少 行 之 有 效 的方 法 。 但 随着 宽 带 网络 的逐 步 实 ��
现代科技信息检索中存在的问题及对策研究

现代科技信息检索中存在的问题及对策研究现代科技的快速发展为人们提供了便利的信息检索渠道,然而在信息海量的背后也存在着一些问题。
本文将就现代科技信息检索中存在的问题及对策进行研究,以期为信息检索提供更好的解决方案。
一、存在的问题1. 信息过载:随着互联网的发展,信息的数量呈现爆炸式增长,用户在检索信息时往往会遭遇到信息过载的问题,无法筛选出真正有用的信息。
2. 信息质量参差不齐:在互联网上,大量的信息来源于个人发布,其真实性、准确性难以保证,用户很难判断信息的可信度。
3. 信息检索的不精确性:传统的信息检索往往只是通过关键词的匹配来进行搜索,容易导致搜索结果与用户真正需求的不符。
4. 隐私泄露问题:在进行信息检索的过程中,用户的个人信息常常会被泄露给不法分子,造成用户的权益损失。
二、对策研究1. 过滤算法的改进:通过引入更加智能的过滤算法,可以筛选出更精确的信息,帮助用户减轻信息过载的压力。
2. 数据源的筛选和审核:建立信息发布者认证机制,对信息的来源和真实性进行审核,保证信息的质量和可信度。
3. 搜索引擎的优化:将人工智能技术引入搜索引擎,实现对用户检索意图的更好理解,提供更精准的搜索结果。
4. 数据加密和隐私保护:引入专业的数据加密技术,保障用户检索过程中的隐私安全,防止个人信息泄露。
三、案例分析以谷歌为例,谷歌在信息检索领域已经取得了很大的成绩。
谷歌利用自家的搜索引擎技术,通过分析用户的搜索历史以及行为,为用户提供个性化的搜索结果。
谷歌对搜索结果进行了严格的排名和筛选,保证了搜索结果的质量和可信度。
谷歌也采取了严格的隐私保护措施,保障了用户的隐私安全。
国内的百度搜索引擎也在信息检索领域进行了不少探索。
百度通过大数据分析和人工智能技术,为用户提供更加智能化的搜索结果,并且加强了对数据源的审核和筛选工作,提高了搜索结果的质量和可信度。
四、结论随着信息技术的快速发展,信息检索领域也面临着诸多挑战,但同时也有了更多的对策和解决方案。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代网络信息检索未来的发展趋势姓名:学号:班级:摘要:随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。
【关键词】网络信息信息检索搜索引擎资源共享1 网络信息检索简介随着信息化工程的整体推进, Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。
1.1 信息检索概念信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。
人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
1.2 网络信息检索的原理网络信息检索工具是网络信息检索技术的实物体现。
目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
①布尔逻辑模型这是一种简单而常用的严格匹配模型。
用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。
标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。
利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
②模糊逻辑模型它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
③概率模型它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
2 搜索引擎搜索引擎是目前使用最为频繁的一种网络信息检索工具。
与其他工具相比,它的检全率和检准率都比较高,具有很强的使用价值和广泛的应用前景。
2.1 搜索引擎的工作原理作为一种www站点资源和其它网络资源进行组织和检索的检索工具,搜索引擎的检索机制一般包括数据采集和标引机制、数据组织机制和用户检索机制,基本构成如图1所示。
①数据采集标引机制按照一定规律和方式对网络上www站点进行搜索,并将搜索到的www页面信息存入搜索引擎的临时数据库中。
②数据组织据组织机制的主要功能是对www页面信息进行整理以形成规范的页面索引,并建立相应的索引数据库。
③索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效果,而搜索引擎的数据采集标和标引机制又是决定数据库质量的关键技术。
④用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的www站点或页面。
2.2 搜索引擎的分类按照用户查找的途径划分,可将搜索引擎分为如下几种:①基于关键词的搜索引擎主要通过使用自动采集软件来对网络上的数据进行采集标引,建立成索引数据库。
它主要采用自动搜索和标引方式来建立和维护其索引数据库,供用户查询使用。
②基于分类目录的搜索引擎一般依赖于按照某种分类标准进行人工编排的分类体系。
③联合式搜索引擎是基于关键词的搜索引擎的另外一种表现形式,是后者与基于类目的搜索引擎的一种结合。
2.3 搜索引擎的功能目前Internet上的搜索引擎种类繁多,虽然各种搜索引擎都有自己的不同信息采集标引机制,在其他一些方面各具特色,但其基本功能却是相似的。
①布尔逻辑检索这一功能使得用户能使用AND、OR和NOT来进行关键词的搭配检索。
②模糊检索在用户进行检索的过程中,系统会对跟用户提供的关键词相似的词语进行检索,并返回包含关键词或是这些相似词的检索结果。
③截词检索这种检索形式利用检索词的某一部分来进行检索。
在搜索引擎中,用户提供包含“?”或是“*”通配符的检索项来进行检索。
④限定词检索这种检索加减号检索,它用来规定检索项中必须出现或是必须不出现某些关键词。
3 大量相关信息检索叶继元等教授认为,信息检索是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。
“人—机系统”,“各种方法”是指利用关键词、主题词、概念分析方法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。
信息检索包括存储与检索两个部分。
存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。
这里要理解概念分析。
概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。
信息检索的发展主要是和谐社会,促进社会协调发展,对社会的进步有积极地推动作用,它同时丰富了人们的视野,为社会科学研究提供了丰富的材料和强有力的说服力,使查找资料更容易方便。
索引的研究、编制与文献流通形式变化息息相关。
以计算机为主体的新技术在信息流通领域广泛应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。
索引理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。
索引是利用文献的工具,与文献流通形式的变化息息相关。
10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化。
以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。
自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因。
它的发展体现在以下几个方面:3.1 智能化智能化包括网络搜索软件的智能化和搜索引擎的智能化。
搜索信息方法有两种:由Web 站点及页面的创建者在搜索引擎站点上为其页面登记的URL地址;由网络搜索软件自动收集上新信息得到的URL地址,后一种搜索信息的方法就表现了搜索软件的智能化。
智能化的搜索引擎具有一定的推理能力,会考虑用户年龄、性别、地域、文化程度等差异,根据用户的网络行为来判断他们的爱好,并决定信息的取舍。
智能化是网络信息检索未来发展的主要方向。
3.2 可视化可视化指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
它具有交互性、多维性、可视性等特点。
信息检索中的可视化,就是将数据库中不可见的语义关系用图像形式可视化显示,并表达用户检索过程。
3.3 多样化信息检索多样化表现在可以检索的信息形态有文本、声音、图像、动画;检索工具向多国化、多语种化方向发展;网上检索工具的服务多样化等。
3.4 简单化搜索引擎的发展,网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体等技术逐步完善,都将使信息检索变得越来越简便快捷。
3.5 深入化信息检索深入化包括:提高检索深度,即由相关性检索向直接性检索发展;检索内容向综合化与专业化发展。
用户可以预先选择自己的信息源,向各种用户满意的信息源提问索取特定类型的信息,还可以对命中结果进行进一步限定,要求只提供权威性的可靠结果以提高查准率。
3.6 友好化友好化包括用户检索界面友好化和检索结果提供方式友好化两种,以方便用户进行浏览、选择和利用。
3.7 多语种化提供多种语言的检索服务,满足全世界各种语言用户的需要,是信息检索的一大发展方向。
除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。
学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设。
4 信息多样化——我国网络化信息服务的发展趋势在网络环境下,用户可获得信息的量和种类随着局域网和广域网的不断发展而巨增,面对分散、无序、更选变换的信息海洋,太多数用户不像以往那样关心信息文献量的问题,而是越来越重视图书馆(或情报中心)所提供的网上信息的浓度。
精品化的信息服务是以信息的浓缩加工使之成为高质量的信息产品为保证,使用户一旦进入自己的业务之中,就不再寻找替代物。
4.1 信息服务社会化信息服务社会化,主要是指用户信息需求的社会化及越来越多的信息在网络环境中广泛交流。
4.2 信息服务一体化信息服务一体化,对信息用户而言,主要是指能够集参考咨询功能、文献检索功能和文献提供功能为一体的最理想的信息服务体系。
4.3信息服务集成化其一是指提供服务的网络化信息资源的全面性和丰富性;其二是指能够满足用户对信息类型和信息媒体多样化的需求。
4.4 信息服务精品化是指向用户提供浓缩化、综合化的高质量的信息服务。
5 虚拟馆藏——因特网上信息的组织管理网络化最大的优势就是信息资源丰富,但因特网上的信息具有在地理上分散、组织上松散、数据类型多、随机变化大等特点,使得网上信息的查询、组织和管理,成为人们最关心的问题。
如何为读者提供更加便利的网上信息服务,是用户与管理层最关心的问题。
因而,未来网络化图书馆的发展和建设,不能忽视网络信息资源的查询、组织管理利用。
5.1 因特网上信息资源的种类和特点通过国际互联网可以利用的各种信息资源是因特网最重要的资源,根据网络发展的实际情况,从信息内容看,几乎无所不包:既有学术、教育、产业和文化等领域的各种重要信息也有与大众工作和生活息息相关的多样化信息;有严肃主题的知识性和教育性信息,也有体育、娱乐方面的实时信息:更有经济、金融和商业信息等等。
从时效性看,可以分为五大类:实时信息;动态信息;全文期刊;书目数据库;电子报纸。
5.2 因特网信息查询工具为了有效地查询和利用网上信息,人们研制了许多查询工具。
概括地说,主要有四大类,以下列出查询工具的类型,主要的查询工具服务器名以及特点:5.2.1 Gopher菜单式检索系统:主要查询工具是Vcronlca系统。
它包括许多 Gopher 服务器,如:sci] ,特点是菜单指引式检索,使用简单明了。
5.2.2 Ftp匿名文件查询工具:主要的查询工具如Archie等。
它有许多匿名ftp服务器,如:,Ftp 服务器出现较早,使用广泛,下载文件方便。
5.2.3 关键词数据库检索:主要的查询工具 Wais。
服务器如,对索引查询和按内容找文章有较强的功能。
5.2.4 超级文本检索系统:查询工具 Yahoo Infosc-ck.等。
有许多WWW服务器如JJJ4)7649J ,特点是利用超媒体技术,功能强大,使用最方便和广泛的检索工具。