第5章-搜索引擎4
5搜索引擎

这里的""是半角符号,也就是英文的引号
例:“冬天来了,春天还会远吗”
检索结果页面
谷歌的检索方法与技巧
2、高级检索
例如:检索过去一年教育网上 有关北京数字图书馆的简体中 文网页
检索结果界面
谷歌的检索方法与技巧
3、特色搜索
(1)类似结果
单击“类似结果”时,Google 侦察兵便开始寻找与
第二代搜索 目录搜索
搜索引擎的工作原理
因 特 网
爬行器 (蜘蛛)
索引生成器 (网页数据库)
查询检索器 (用户查询)
搜索引擎的概念 搜索引擎是一种网络信息资源检索工具,是以 各种网络信息资源为检索对象的查询系统。
它像一本书的目录,Internet各个站点的网址 就像是页码,可以通过关键词或主题分类的方式 来查找感兴趣的信息所在的WEB页面。
(3)智能搜索引擎:FSA 、Eloise 和 FAQFinder。
你用过哪些搜索引擎?
第6章
2. 常用搜索引擎介+”。 如:“女排 世界杯 2011” (2)以“-”表示逻辑“非”
例如:查找关于机械制造方面的论文 机械制造 filetype: pdf
检索结果太多, 调整检索策略
Intitle:机械制造 filetype:pdf
约有110条结果
2. 常用搜索引擎介绍
(三)
第6章
2. 常用搜索引擎介绍
搜索引擎
(四)
第5章
搜索引擎
3. 搜索引擎的实际运用
基本步骤:
谷歌的检索方法与技巧
(5)不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做 小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”, 得到的结果都一样。 (6)手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一 个网页。例如,要查找武汉科技大学城市学院的主页,只需在 搜索字段中输入“武汉科技大学城市学院”,然后单击“手气 不错”按钮。Google 将直接带您进入该官方主页 /csxy/index.html
非文学翻译理论与实践(第二版)

目录分析
第一章翻译概 述
第二章文学与 非文学翻译
第三章简明英 语和简明英语
运动
第四章简明英 语的基本原则
第五章搜索引 擎、电子辞书 及其在翻译中
的运用
第六章英语词 典和电子语料 库在翻译中的 运用
第七章译文臃肿和减 肥方法
第八章新旧信息和信 息流动
第九章主动语态、被 动语态和强势动词
第十章句子的长短和 简繁
非文学翻译理论与实践(第二 版)
读书笔记模板
01 思维导图
03 目录分析 05 读书笔记
目录
02 内容摘要 04 作者介绍 06 精彩摘录
思维导图
本书关
动词
全书
强势
版
翻译
实践 翻译
句子
理论
译文
长短
英语
核心
方法
句法
内容摘要
内容摘要
《非文学翻译理论与实践》归纳了非文学翻译的特点,提出以英文写作的基本原则指导汉英翻译实践,详述 如何利用传统及新兴工具辅助翻译,介绍了译文处理的基本方法,以及文化成分的翻译、翻译改写、原文纠错、 批判性思维等专业译员需要掌握的高级技能,并指出法律翻译应注意的问题。《非文学翻译理论与实践》全书脉 络清晰,译例丰富,读者可按书索技,实用性强。
第十一章核心 句分析:克服 句法障碍的有
效手段
第十二章语篇 的衔接
第十三章隐喻、 1
俗语等文化词 语的翻译
第十四章段落 2
与篇章的布局 和重组
3
第十五章酌情 改写原文
4 第十六章原文
错误的识别与 翻译方法
5 第十七章批判
性阅读与批判 性思维:译文 连贯的保障
第十八章译文 的修改
信息检索提纲

注:考试时,务必带上2B铅笔、橡皮擦,签字笔。
信息检索复习提纲注:本提纲有部分答案较多的题目没打出来,请自己按照页数查找书本第一章绪论1、信息素养的概念、具体内容(内涵)答:信息素养的内涵:信息道德、信息能力(信息素养的核心)、信息知识、信息意识2、搜商的概念答:狭义:人们运用搜索引擎的能力广义:运用物质工具进行搜索的能力最广义:人们所有搜索行为的智力3、信息检索的意义答:1、信息检索是大学生必备的基本素质2、信息检索是科学研究的重要前提3、信息检索是培养创新型人才的重要基础4、信息检索是个人终身学习的基本保障4、信息、知识、情报和文献的定义、关系:p10-12信息的基本特征:客观性、时效性、价值性、传递性、共享性、开发性情报的属性:知识型、传递性、效用性构成文献的基本要素:物质载体,记录手段,记录符号,知识内容5、一些文献类型的特征号码(ISBN:国际通用的图书或独立刊物(含不定期出版的连续出版物)代码,ISSN:国际标准刊号(期刊),CN国内统一刊号(报刊代码),GB2763-87 :食品安全国家标准,GB:强制性国家标准,GB/T:国家推荐性标准,ISO:国际标准化组织,IEC:国际电工委员会)6、文献的几种划分类型,按文献的载体形式划分(手写型文献、印刷型文献、缩微型文献、声像型文献、机读型文献);按文献的加工深度划分(零次文献:私人笔记/论文草稿/设计草稿/、一次文献:个人专著/大多数期刊论文/科技报告/专利说明书/会议论文、二次文献:文摘/目录/题录/索引、三次文献:综述/百科全书/年鉴/);按文献的出版形式划分11种(除图书,报纸,期刊,其他8种为特种文献)P15-267、图书、期刊的类型及特点P18、P19图书类型:阅读性用书;参考工具书;检索工具书;期刊类型:学术性、技术性刊物;检索性刊物;其它类型刊物;(按性质和用途分)图书特点:内容全面系统,基础理论性强,论点成熟可靠,不足之处是图书的撰写、编辑、出版所需要的时间较长,传递信息速度慢,内容相对陈旧期刊特点:信息量大、品种多,出版周期短、报道速度快,连续出版,内容新颖,能及时反映国内外当前的科技水平等。
internet第05章2搜索引擎

2、使用搜索引擎
2.3 检索功能 ❖ 布尔逻辑检索 ❖ 精确匹配——双引号 ❖ 限定词检索
13
2.3.1布尔逻辑检索
❖ 逻辑“与”(and):“同时包含”关系 。 ❖ 逻辑“或”(or) :“分别包含”关系。 ❖ 逻辑“非”(not) :“排除其他”关系。 几乎所有的搜索引擎都具有布尔逻辑功能。
• 搜索引擎并不真正搜索互联网,它搜索的 实际上是预先整理好的网页索引数据库。
• 搜索引擎不能真正理解网页上的内容,它 只能机械的匹配网页上的文字。
5
1、搜索引擎 (Search Engine)介绍
❖ 1.2、历史 ❖ 最早现代意义上的搜索引擎出现于1994年7
月。Michael Mauldin 创建的Lycos。 ❖ 同年四月,yahoo门户网站诞生,使网络搜索
28
Filetype示例
29
30
3.5 Google其它特色示例
❖ 计算器 ❖ 类似网页 ❖ 网页快照 ❖ 缩略图
31
计算器功能
32
计算器功能
33
类似网页
34
网页快照
❖ Google 在访问网站时,会将看过的网页复制一份网 页快照,以备在找不到原来的网页时使用。单击 “网页快照”时,您将看到 Google 将该网页编入 索引时的页面。Google 依据这些快照来分析网页是 否符合您的需求。
9
一、搜索引擎 (Search Engine)介绍
❖ 1.4.3元搜索引擎: 通过一个统一用户界面帮助用户在多个搜索引擎 中选择和利用合适的(甚至是同时利用若干个)搜 索引擎来实现检索操作,是对分布于网络的多种 检索工具的全局控制机制。
❖ MetaCrawler() ❖ Dogpile() ❖ Mamma() ❖ 万纬()
搜索引擎概述

搜索结果展现
2.1.2 搜索引擎的发展史
4
1990年,加拿大麦吉尔大学(McGill University)计算机学院的Alan Emtage研发了 Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在 各个FTP主机中的文件的服务。Archie搜集的信息资源被公认为搜索引擎的雏形。
出了中国市场,在国内暂时无法访问。
谷歌首页
2.1.4 常用的搜索引擎介绍
17
5.雅虎
雅虎(Yahoo!)是美国著名的门户网站之一,其服务范围包括搜索引擎、电子邮件、新闻等, 服务业务遍及24个国家和地区。
Yahoo是最早实行“分类目录”的搜索数据库,也是目前重要的搜索服务网站之一。
雅虎首页
2.1 认识搜索引擎 2.2 搜索引擎的工作原理 2.3 搜索引擎的使用方法 2.4 本章实训
10
3.元搜索引擎
元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块、搜索结果显示 模块。
元搜索引擎的工作原理
2.1.3 搜索引擎的分类
11
4.垂直搜索引擎
垂直搜索引擎(Vertical Search Engines)更专注于特定的搜索领域和搜索需求,如图片 搜索、视频搜索、法律搜索、专利搜索、论文搜索等,它是对通用搜索内容的细分。直搜索引擎。2.2.1 蜘蛛爬行 Nhomakorabea20
当网络蜘蛛爬行到某个网站时,会首先检查网站的根目录下是否存在Robots文件,如果 有,则会根据其约定不抓取禁止抓取的网页。
进入允许抓取的网站后,网络蜘蛛会采用如下3种策略爬行网站中的所有网页。
深度 优先
宽度 优先
最佳优先
2.2.1 蜘蛛爬行
信息检索与分析第3-5章

4.查找数值、公式、规格、条例、专业知识
• 查考数值、公式、规格、条例、专业知识的数据库主要有: • 1)中国科学数据库(http:// /) 由中国科学院创建。内容涵盖了多种学科,提供了大量具有重要 科学价值和实用意义的科学数据和资料。 • 2)贝尔斯坦/盖墨林化学数据库Beilstein/Gemlin Cross Fire • 3)物质的物理化学参数数据库 (/CUU/Constants/index. html)。 • 4)化学元素周期表(/chemistry/webelements/) 查找此类信息的印刷本参考工具书宜采用手册、表册。手册也有叫 “指南”、“便览”、“须知”、“大全”;包括综合性《读者百科 词典》、《世界知识手册》等和专科性《农业技术实用手册》、《世 界经济手册》等。此外,还有表册,如《常用数学公式大全》、《电 子学数据表与公式手册》。
• • • • • • 1.分类查询 2.关键词查询 3.多次查找 4.按照地域查询 5.查询最新信息 6.其它搜索技巧
1.Google高级检索技巧
• 1)短语检索 • 2)字段限定检索 (1) 限定网站 【实例】输入“金庸 site:”搜索中文教育科研网站() 上所有包含“金庸”的页面。 (2) 限定网页 【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声 笑”。
(3)使用字段限定
• ① intitle title是网页的标题, intitle: A指所有搜索结果的title中都要包含“关键词A”。 • ② site site是限定在某类站点或某个网站内搜索。 例如“论坛搜索引擎 site: ”,是在sowang这个网站内搜索 “论坛搜索引擎”的网页。 • ③ filetype filetype是限定文件类型。 用法是“关键词A filetype:文件格式后缀名”。 如“个人年终总结 filetype:doc”,搜索结果全都是word文件的个人年 终总结。 • ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文字符B”。 例如“搜索引擎 inurl:ssyq ”,是检索在url中含有ssyq的网页中关于 “搜索引擎”的信息。
搜索引擎概述

数据库、在索引数据库中搜索排序、对搜索结果 进行处理和排序。
①从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程
序,自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所 有网页收集回来。
搜索引擎的原理
②建立索引数据库
由分析索引系统程序对收集回来的网页进行分析
Pinkerton 开始了他的小项目 WebCrawler ( Brian Pinkerton Announces the Availability of WebCrawler )。
1994年1月,第一个既可搜索又可浏览的分类目录
EINet Galaxy(Tradewave Galaxy)上线。除了网 站搜索,它还支持Gopher和Telnet搜索。
2000年1月,前Infoseek资深工程师李搜索引擎Be3 搜索引擎的分类
搜索引擎按其工作方式主要可分为3种:
全文搜索引擎(Full Text Search Engine)
1.4 搜索引擎的信息检索模型
布尔逻辑模型
布尔型信息检索是最简单的信息检索模型,用户
利用布尔逻辑关系构造查询并提交,搜索引擎根 据事先建立的倒排文件确定查询结果。
标准布尔逻辑模型为二元逻辑,并可用逻辑符
“and”、“or”、“not”来组织关键词表达式。布 尔型信息检索模型的查全率高,查准率低。
1995年12月DEC的 AltaVista登场亮相,大量的创新
功能使它迅速到达当时搜索引擎的顶峰。 AltaVista是第一个支持自然语言搜索的搜索引擎, AltaVista是第一个实现高级搜索语法的搜索引擎。
1995年9月26日,加州伯克利分校CS助教Eric
第5章 电子商务系统商务逻辑层设计

5.2 商务支持平台设计
商务支持平台的出现使得企业能够将更 多的精力集中于其核心业务的构建 通常可以把企业的所有业务分为核心业 务和辅助性业务 所谓核心业务是指企业的主业,通常是 企业特有的,而辅助性业务则是大部分 企业都需要的,也是商务支持平台所实 现的功能
14
5.2 商务支持平台设计
3
5.1概述
电子商务系统逻辑层设计的主要任务是 从电子系统的总体目标出发,根据系统 分析阶段对系统的逻辑功能的要求,并 考虑到经济、技术和运行环境等方面的 条件,确定系统逻辑层的结构和各组成 部分的技术方案,提出系统的实施计划, 确保总体目标的实现
4
5.1概述
电子商务系统的商务逻辑层设计是系统设计的核心部分。 因此,它的设计过程是整个电子商务系统设计的重点。由 于电子商务种类很多,因此应用软件的功能也是差异很大 的。从技术设计角度,采用UML进一步对企业核心业务进 行系统设计。与设计阶段的工作相比,应用软件设计工作 有以下几点不同: (1)设计阶段解决的是“如何做”的问题,而分析阶段 解决的是“做什么”的问题。 (2)设计阶段的成果是物理模型,是实现的蓝图。 (3)分析阶段脱离技术细节,可针对不同的设计来进行, 而设计工作针对特定的实现来进行,通用性低。
(2)连接/传输管理 主要目标在于满足系统可扩充性的需要, 用以实现电子商务系统和其他系统之间 的互联以及应用之间的互操作,包括异 构系统的连接及通信、应用间的通信接 口和应用与数据库之间的连接接口。
16
5.2 商务支持平台设计
(3)事务管理 保证分布式环境下事物的完整性、一致性和原 子性、缩短系统的响应时间,提高交易过程的 实时性。 (4)网站管理 网站是电子商务系统的客户服务接口,网站管 理的基本作用是为站点维护、管理和性能分析 提供技术支持手段,主要实现系统状态的监控、 系统性能调整、用户访问授权、客户访问历史 记录等功能。通过网站管理功能,可以记录客 户的访问数据,了解用户需求
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立 (1)词典的建立 词典的建立比较简单,比如,同名词典就是把几个同 名词放在一行,各个词之间用空格隔开。实际上,每一 行只有第一个词是主题词,该词所在行的其它词就是它 的同名词。毫无疑问,这样会增加词典的冗余,但是, 这种组织方式会大大地提高查找词的速度(这是因为这 些是按第一个字的汉语拼音字母的顺序来排序的),并 且词典一般是以文本文件的格式存在的,它所占的空间 很小。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立 (1)词典的建立 一般地,同义词典、上位词典、下位词典、派生词典 都是按这种方式来组织的。对定义词的词典来说,将词 罗列出来就可以了。在建立词典的时候,为了提高查找 词的速度,一般对词典按汉语拼音顺序和首字索引结构 进行组织。
智 能 化 搜 索 引 擎原 理
4.智能化搜索引擎的技术
(2)短语识别 用短语描述查询请求的情况很常见。譬如查询条件 “北京的气温”,“北京”和“气温”存在一定的关系, 但如果不将“北京”和“气温”联合起来作为一个短语 查询那么除了选出关于“北京的气温”的文档之外,还 将查出有关“北京”和“气温”的文档。因此,短语识 别也是智能化引擎所关注的一个技术。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立
(4)关键字分析器 第二步:分析修饰词,这一步确定修饰词是否应该抛 弃。此例中,名词修饰名词。故这个修饰词是需要的。 第三步:对主关键词作进一步处理。到同名词典、同 义词典、派生词典中分别查“科学家”的同名词、同义 词、派生词。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立
(4)关键字分析器 第四步:对修饰词作进一步处理(若没有修饰词,或 修饰词已经被抛弃,则这一步可以省略)。到同名词词 典中去查找“中国”的同名词,得到“中华人民共和国” 这一词。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立 (4)关键字分析器 第五步:得到语意分析后的词。分析后的词应该包括 这几个部分:主关键字、修饰词(修饰词的同名词)+主 关键字、修饰词(修饰词的同名词)+主关键字的同名词、 修饰词(修饰词的同名词)+主关键字的同义词、修饰词 (修饰词的同名词)+主关键字的派生词。在这里,我们 得到的语意分析后的词语是:“科学家”、“中国科学 家”、“中华人民共和国科学家”这三个词。
智 能 化 搜 索 引 擎原 理
3.智能化搜索引擎的特征 (1)网络蜘蛛的智能化 网络蜘蛛通过启发式学习采取最有效的搜索策略,选 择最佳时机获取从Internet上自动收集、整理的信息。 此外,智能搜索引擎还应具有跨平台工作和处理多种 混合文档结构的能力。 同时,智能搜索引擎还应具有高的召回率和准确率。 最后,智能搜索引擎应该可以支持多语言搜索,允许 用户可以用中文输入查询英文或其他语言的信息。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立 (3)语意分析器的建立 是由一个个词及对这些词按一定的规则所建立的索引 二部分组成。一般的,搜索引擎是用非完全二叉树结构 来组织这些索引,但这样常常会导致大量的I/O开销。 从形式上来说,它又是由系统部分、用户部分组成。 同理,系统部分用于定义稳定的、适合于各个领域的语 意分析。而用户部分用于定义适合一段时间的或适合于 某一个领域的语意分析,这二个部分分别与系统词典、 用户词典相对应。
智 能 化 搜 索 引 擎原 理
3.智能化搜索引擎的特征
(3)搜索引擎人机接口的智能化 智能搜索引擎可以通过自然语言和用户交互。它采取 诸如语义网络等智能技术,通过汉语分词、句法分析以 及统计理论有效地理解用户的请求,甚至能体会出用户 的弦外之音,最大程度地了解用户的需求。
智 能 化 搜 索 引 擎原 理
智 能 化 搜 索 引 擎原 理
2.智能化搜索引擎的原理 信息丢失的核心是搜索引擎没有正确地理解用户的检 索要求。文海捞针实际上是一个搜索结果的排序问题。 另外,智能检索还包括歧义信息和检索处理。 智能化搜索引擎采用“以网对网”的二级映射模式 (关键字一innernet—internet)代替传统的一级映射模式 (关键字一internet),innernet,即知识库。在实现上 采用多级智能化搜索代理体系代替现在的单一搜索。根 本原理在于拥有比全文检索更为丰富的知识库和能较好 地进行文档相关度排序的多级搜索代理。
智 能 化 搜 索 引 擎原 理
4.智能化搜索引擎的技术
在搜索过程中经常还会碰到这样的情况,用户本身有 时候也不清楚自己究竟需要获取什么信息。因此,让用 户对返回的结果进行选择,挑出真正所需,然后根据用 户挑出的文档,对查询条件进行修正,进行二次查询是 一种非常有效的手段。此外,还有一些其他的人工智能 方法,譬如可以将知识库和推理机应用到搜索引擎中等, 所有这些都是实现信息时代对搜索引擎智能化挑战的有 效手段。
智 能 化 搜 索 引 擎原 理
3.智能化搜索引擎的特征 (2)为特定用户提供相关信息 智能搜索引擎能通过观察用户的行为,了解用户的兴 趣爱好,另外能通过不断的训练学习增长智能。通过每 次用户对引擎返回的信息进行评价,智能搜索引擎可以 根据用户的评价调整自己的行为。智能搜索引擎还能对 搜索结果进行合理的解释。智能搜索引擎还应具有主动 性,即信息推送能力,可以在任何特定的时候用各种方 法与用户取得联系。搜索引擎还可根据用户特定时刻的 位臵信息,选择恰当的方法与用户通信。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立
innernet网,通俗地说,它就是由一个或多个相关的 词典组成的反映人的知识网络及相关工具的系统;通过 它,搜索引擎就不仅可以对汉语语言进行正确的切分, 还可以对用户输入的关键字进行合理的词意分析和扩展, 从一定意义上讲,它是人类知识在一定范围(或领域)内 的一个缩影。
4.智能化搜索引擎的技术
(1)汉语分词技术 关键词查询的前提是将查询条件分解成若干关键词, 同时一些关键词表示文档。英文比较简单,中文需要人 为切分。此外汉语中存在大量的歧义现象。简单的分词 往往会歪曲查询的真正含义。因此,可以根据语料库进 行总结,获得每个词的出现概率以及词与词的关联信息, 就可能有效地排除各种歧义,大幅度提高分词的准确性, 从而准确地表述查询请求和文档信息。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立 (4)关键字分析器 第一步:找出输入关键词中的主关键词,根据定义词 的词典,知道这个关键字是名词,并且这个关键字可被 切分成 “中国/科学家”这两个词,根据汉语语法规则, 名词的主关键字一般是最后一个词,前面的词是修饰这 个主关键词的。所以,这个关键词中“科学家”是主关 键词。当用户输入的关键词只是一个词,那它本身就是 主关键字。
信息检索技术
LOGO
Information security management
上节回顾
垂直搜索
本节内容
1 2 3 4
智能化搜索引擎原理
智能化搜索引擎实现
Agent
开源搜索引擎资源
智能化搜索引擎
传统的文本信息检索一般使用召回率、准确率 来对检索效果进行量化评价,但是在海量的互联 网信息检索上用召回率与准确率来衡量检索效果 是否合适?比如,在一些场合,高的召回率返回 的成千上万网页对用户实在是一个沉重的负担, 在网页爆炸性增长的今天,没有那一个用户有时 间和精力来一一浏览搜索引擎查到的每一个网页。
4.智能化搜索引擎的技术
(4)文档信息压缩 存储文档信息的Word矩阵如果不经过压缩处理,将 需要巨大的存储容量。采取诸如SVD(Singular Value Decomposition,奇异值分解)等矩阵分解技术,构 造出新的基向量组,从该向量组中挑出若干主要基向量 构成新的向量空间,将原来的向量向新的向量空间投影, 这样便可以大大减少存储量,有效地提高处理速度。
智能化搜索引擎的实现
1.innernet网(又称为知识库、词典系统)的建立 (3)语意分析器的建立 最下层的叶子结点存放的是搜索引擎到索引库里进行 搜索的关键字,汉语中,不同字开头的词的数目变化很 大,同音异形的现象也很普遍。在设计词表的数据结构 时,要考虑访问效率和存储利用率。故排序规则是:对 关键字的首字使用汉语拼音字母排序,然后再使用 Hash算法,这样,当关键字的首字是同音异形时,它 们的地址是不相同的。在此基础上,再结合词的重要性、 使用频率及后继字的汉语拼音字母顺序等方式进行排序。
智能化搜索引擎的实现
对于一个智能化的搜索引擎而言,想同时提高召回率 与准确率是比较困难的。具体说来,它需要解决好以下 几个问题: ①innernet网(又称为知识库、词典系统)的建立; ②对汉语词语进行正确的切分;是建立索引数据库的 基础,也是建造一个优秀的搜索引擎的基础,而要对汉 语进行正确的切分,就需要词典系统的支持。 ③自动文摘的生成; ④检索结果的排序; ⑤智能化多级智能检索代理的实现。
智 能 化 搜 索 引 擎原 理
1.传统搜索引擎技术的局限性 传统的搜索引擎,存在 “文海捞针”和“信息丢失” 问题。 “信息丢失”由以下四个深层次的问题引起的。这四 个问题都与词汇紧密相关。 第一个是“忠实表达”问题。第二个是“表达差异” 问题。第三个是“词汇孤岛”问题。第四个是“机械式 匹配”问题。 由此可以看出,传统的搜索引擎缺乏对知识进行处理 的能力和理解知识的能力,对要检索的信息仅仅采用某 类检索模型到预先建好的索引文件中去检索。它采用的 是一级映射模式。
智 能 化 搜 索 引 擎原 理
4.智能化搜索引擎的技术 (3)处理同义词 处理同义词的一种方法是人工构造同义词表。对专用 领域的搜索引擎,这种方法是非常有效的。另外一种方 法是从语料库中自动取得同义词关系。给出一个查询的 关键词,引擎能主动“联想”到与其同义或意思相近的 词。