第1章 搜索引擎概述

合集下载

5搜索引擎

5搜索引擎

这里的""是半角符号,也就是英文的引号
例:“冬天来了,春天还会远吗”
检索结果页面
谷歌的检索方法与技巧
2、高级检索
例如:检索过去一年教育网上 有关北京数字图书馆的简体中 文网页
检索结果界面
谷歌的检索方法与技巧
3、特色搜索
(1)类似结果
单击“类似结果”时,Google 侦察兵便开始寻找与
第二代搜索 目录搜索
搜索引擎的工作原理
因 特 网
爬行器 (蜘蛛)
索引生成器 (网页数据库)
查询检索器 (用户查询)
搜索引擎的概念 搜索引擎是一种网络信息资源检索工具,是以 各种网络信息资源为检索对象的查询系统。
它像一本书的目录,Internet各个站点的网址 就像是页码,可以通过关键词或主题分类的方式 来查找感兴趣的信息所在的WEB页面。
(3)智能搜索引擎:FSA 、Eloise 和 FAQFinder。
你用过哪些搜索引擎?
第6章
2. 常用搜索引擎介+”。 如:“女排 世界杯 2011” (2)以“-”表示逻辑“非”
例如:查找关于机械制造方面的论文 机械制造 filetype: pdf
检索结果太多, 调整检索策略
Intitle:机械制造 filetype:pdf
约有110条结果
2. 常用搜索引擎介绍
(三)
第6章
2. 常用搜索引擎介绍
搜索引擎
(四)
第5章
搜索引擎
3. 搜索引擎的实际运用
基本步骤:
谷歌的检索方法与技巧
(5)不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做 小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”, 得到的结果都一样。 (6)手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一 个网页。例如,要查找武汉科技大学城市学院的主页,只需在 搜索字段中输入“武汉科技大学城市学院”,然后单击“手气 不错”按钮。Google 将直接带您进入该官方主页 /csxy/index.html

搜索引擎概述 PPT课件

搜索引擎概述 PPT课件

页面相关性
关键字匹配度:是指网页中的内容与用户所查询关键字之间的 匹配程度,主要是2个因素:
• 页面中是否包含关键字 • 关键字在页面中出现的次数
关键字密度:
• 关键字出现的次数与该网页总词汇量的比例
页面相关性
关键字分布: • 关键字在网页中出现的位置 • 关键字在网页中出现的位置会影响到关键字的分布 值
网页分析
网页分析主要包括:
正文信息提取:主要是对标签和注释等信息的过滤 切词/分词:对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的 信息列表
• 匹配分词:和预设的海量词汇的“辞典”中的词比较,如果有匹配的 词,则为命中
• 统计分词:根据相邻的2个或者多个字(词)出现的概率判断这2个字 (词)是否会形成一个词。
为保证采集的资料最新,它还会回访已抓 取过的网页。
这个工作是搜索引擎所有工作的基础
页面收录原理
URL列表 抓取页面 提取URL 存储原始页面
进入搜索引擎URL列表的方法
搜索引擎还允许用户自己提交网站(一般只需要提交首页或者网站域 名即可) 通过与别的网站建立链接关系即“外链”
页面存储
搜索引擎在存储原始页面时,不单只存储原始页面,还会存储其他的 附加信息,例如:文件类型、文件大小、最后修改时间、URL、IP地 址、抓取时间等
关键字的权重标签 • 关键字是否使用了HTML标签实现了不同的视觉效 果(如加粗、颜色变换等)
页面相关性计算公式: • R(relevance)=M(match)+D(density)+P(position)+T( html Tag) • R(相关性)= M(相同性)+ D(密度)+ P(位置 )+ T(HTML标签)

搜索引擎详解

搜索引擎详解

搜索引擎详解一、搜索引擎的定义搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

百度和谷歌等是搜索引擎的代表。

二、搜索引擎的发展过程及特点用户的大众化,和信息量的高速增长,向用户提出了一个问题,及普通用户面对海量及不断增长的信息资源,如何快速有效的找到所需的资源?为了解决该问题人们开始了对各种各样的网络信息检索工具的研究。

1、搜索引擎的雏形(1)匿名FTP文件检索工具-----Archie,是网络上出现最早的信息检索工具,是由加拿大蒙特利尔的麦基尔大学的大学生开发的。

它依靠基于脚本的采集程序自动搜索匿名FTP站点的文件,然后对有关信息进行索引,供使用者以文件名进行查询。

(2)Gopher空间检索工具-----Veronica & Jughead是受Archie启发而开发的,与Archie相比,Veronica出来能够检索文件外,也能够检索网页。

(3)网络上的第一只蜘蛛-----World Wide Web Wanderer是美国麻省理工大学开发的,最初是用来统计互联网上的服务器数量,后继发展,它可以同步抓取网络地址,抓取的URL形成第一个Web数据库,其成为了搜索引擎的先锋,优点是能够自动处理并积累数据库,缺点是耗费网络带宽。

(4)HTTP版本的“Archie”-----ALIWEB是由美国Martijin Koster 创造的类似“蜘蛛”的自动搜索引擎。

通过人工采集信息,很好的解决了网络带宽滥用的问题,不过数据库的规模较小。

2、基于网络机器人的标题搜索引擎基于该思想的搜索引擎有代表性的有:英国施特灵大学的JumpStation、美国科罗拉多大学的WWWW以及NASA的Responsitory--Based Softenwarehouse Engineering Spider。

搜索引擎百科

搜索引擎百科

搜索引擎百科搜索引擎是互联网时代的重要工具,它们通过收集、整理和展示网页信息,帮助用户高效地查找需要的内容。

本文将介绍搜索引擎的定义、发展历程、工作原理以及对社会的影响。

一、定义搜索引擎是一种互联网技术,通过建立全球性的网络索引库,实现对互联网上信息的搜索、索引和呈现。

搜索引擎的目标是根据用户提供的关键词,展示与之相关的网页。

二、发展历程1. 早期搜索引擎早期的搜索引擎如Archie、Gopher等,主要用于检索FTP和存档文件。

随着互联网的迅速发展,研究人员迎来了一个新的挑战,即如何有效地搜索和组织海量互联网信息。

2. 首批商业搜索引擎1990年代中后期,一些商业搜索引擎如AltaVista、Yahoo!等相继出现。

它们通过机器人抓取网页内容,并建立索引库,用户可以通过关键词搜索获取信息。

3. 谷歌的崛起1998年,谷歌成立,通过创新的PageRank算法,提供了更准确和高效的搜索结果。

谷歌的成功经验在于不仅仅关注关键词匹配度,还注重网页的权威性和链接质量,提供更有价值的搜索结果。

4. 移动搜索的兴起随着智能手机的普及,移动搜索成为新的趋势。

谷歌、百度等搜索引擎都推出了移动搜索应用,为用户提供随时随地的信息检索能力。

三、工作原理1. 爬虫抓取搜索引擎使用网络爬虫,也称为蜘蛛或机器人,自动访问网页并抓取页面内容。

爬虫根据链接关系进行遍历,将抓取到的页面存储到索引库中。

2. 索引建立搜索引擎通过建立索引,将抓取到的网页内容进行组织和存储。

索引通常包括网页标题、URL、正文内容等关键信息,以方便后续的搜索和检索。

3. 检索与排序当用户输入关键词进行搜索时,搜索引擎会根据建立好的索引库进行匹配,并根据一定的排序算法,将相关度较高的网页展示给用户。

常用的排序算法包括PageRank、TF-IDF等。

四、对社会的影响1. 信息检索便利搜索引擎解决了信息过载的问题,使得用户能够快速地找到所需信息。

无论是学术研究、生活服务还是娱乐信息,都可以通过搜索引擎轻松获取。

四年级信息技术搜索引擎课件

四年级信息技术搜索引擎课件
果进行排序。
02 搜索引擎的使用技巧
关键词的选择
01
02
03
关键词的提炼
从问题中提取核心信息, 转化为简练的关键词。
避免冗余
避免使用重复或无意义的 关键词,提高搜索效率。
使用特定关键词
针对特定领域或主题,使 用专业术语或常用关键词 。
搜索结果的筛选
查看搜索结果数量
了解搜索结果的大致数量 ,判断是否需要进一步筛 选。
示给用户的系统。
搜索引擎是互联网的基础应用,是网民 获取信息的重要工具。
搜索引擎已广泛运用于人们的日常生活 、学习和工作中,能够帮助用户快速找
到所需的信息。
搜索引擎的分类
全文搜索引擎
全文搜索引擎是从网页中提取信息建立网页数据库而形成 的,当用户查询条件与网页数据库中数据匹配时,系统会 提供相应的网页给用户。
分类目录型
以人工方式收集信息,通过编辑员对信息 进行分类和编制,用户通过关键词搜索, 然后从预先编制的目录中查找相关信息。
Yahoo!
代表
优点
信息准确、导航效果好。
缺点
信息量少、覆盖面窄、更新速度慢。
第二代搜索引擎
文本检索型
通过爬虫程序自动抓取互联网上的网页,建立索引数据库,用户通过 关键词搜索,返回与关键词相关的网页。
加速信息传播
搜索引擎的出现使得信息传播速度大大加快,人 们可以快速地获取到全球范围内的信息。
扩大信息覆盖面
搜索引擎通过爬取互联网上的大量网页,将各种 信息整合在一起,为用户提供更全面的信息。
提高信息获取效率
用户可以通过搜索引擎快速找到自己需要的信息 ,节省了大量时间和精力。
搜索引擎对个人生活的影响
目录索引类搜索引擎

第一章:概述20090915

第一章:概述20090915

3、PR值 (1)概念 PR值,即PageRank,网页的级别技术。取自Google 的创始人Larry Page,它是Google排名运算法则(排名公 式)的一部分,用来标识网页的等级/重要性。级别从0到 10级,10级为满分。PR值越高说明该网页越受欢迎(越重 要)。 (2)影响pr的因素: ① 与pr高的网站做链接 ②内容质量高的网站链接 ③加入搜索引擎分类目录
7、CPC ( Cost-Per-Click )点击广告: 点击广告:
按照点击付费的广告 8、CPA (Cost Per Action)每行动成本 CPA计价方式是指按广告投放实际效果,即按回应的有 效问卷或定单来计费,而不限广告投 放量。 9、CPS ( Cost-Per-Sale ) 引导销售: 引导销售: 按照每次销售进行一定比例或者具体数额的提成 10、 CPM (Cost Per Mille,或者Cost Per Thousand;Cost Per Impressions) 每千次印象费用。广告条每显示1000次 (印象)的费用。
一、什么是搜索引擎
搜集
搜索引擎指能够自动从互联网上信息,经过整理以后,提供给用户进 行查阅的系统。
二、搜索引擎的工作原理
1、搜集信息:由于互联网上的数据量非常庞大,搜索引擎的信息搜集 基本都是自动完成的。搜索引擎利用被称为网络蜘蛛的自动搜索程序 来连上每一个网页上的超链接。从少数几个网页开始,连到数据库上 所有到其他网页的链接。 2、整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎 不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。 这样,搜索引擎不用重新翻查它所有保存的信息就能迅速找到所要的 资料。 3、接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户 返回信息。搜索引擎能够按照每个用户的要求检查自己的索引,在极 短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回 主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达 所需的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页 的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

搜索引擎的基本概念

搜索引擎的基本概念

搜索引擎140403121定义搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。

其实,搜索引擎涉及多领域的理论和技术:数字图书馆、数据库、信息检索、信息提取、人工智能、机器学习、自然语言处理、计算机语言学、统计数据分析、数据挖掘、计算机网络、分布式处理等,具有综合性和挑战性。

工作原理搜索引擎的基本上分为四个步骤:1.爬行和抓取搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛。

搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。

搜索引擎会跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。

这些新的网址会被存入数据库等待抓取。

所以跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一。

搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。

2.索引蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程既是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

3.搜索词处理用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。

搜索词的处理必须十分快速。

4.排序对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。

再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。

没有SEO的帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。

SEOSEO是由英文Search Engine Optimization缩写而来,中文意译为“搜索引擎优化”。

搜索引擎的基本概念

搜索引擎的基本概念

第6章 Internet信息检索工具——搜索引擎6.1 搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的。

如何快速准确地在网上找到需要的信息已变得越来越重要。

搜索引擎(Search Engine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息。

1. 搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。

它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。

一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。

当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。

搜索引擎既是用于检索的软件又是提供查询、检索的网站。

所以,搜索引擎也可称为Internet上具有检索功能的网页。

搜索引擎也是目前Internet对信息资源进行组织的主要方式。

搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。

由于不需要人们的介入,速度得以大大的提高。

其覆盖面和及时性也得以大大的提高。

Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。

它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止。

在记录新的RUL 时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
向量空间模型用检索项的向量空间来表示用户的
查询要求和数据库文档信息。查询结果是根据向 量空间的相似性而排列的
向量空间模型可方便地产生有效的查询结果,能
提供相关文档的文摘,并对查询结果进行分类, 为用户提供准确的信息
18/62
概率模型
基于贝叶斯概率论原理的概率模型利用相关反馈的 归纳学习方法,获取匹配函数,这是一种较复杂的 检索模型
的网页索引数据库
真正意义上的搜索引擎,通常指的是收集了Internet上几千万到几十亿个
网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全 文搜索引擎
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页
都将作为搜索结果被搜出来
2/62
1.1.2 搜索引擎的原理
可以分为四步:(简答题)世 界上最大的中文搜索引擎
为中文用户度身定做
关键词自动提示:用户输入拼音,就能获得中文关 键词正确提示
27/62
1.6.4 北大天网搜索
北大天网搜索引擎简介
“天网资源检索系统”(即天网搜索)是中国教育 和科研计算机网示范工程应用系统课题之一,是国 家“九五”重点科技攻关项目“中文编码和分布式 中英文信息发现”的研究成果,由北京大学计算机 系网络研究室设计开发,并于1997年10月29日正式 在中国教育和科研网(CERnet)向广大Internet用 户提供Web信息导航服务

数据量
内容相关性 安全性 个性化和智能化
搜索引擎按其工作方式主要可分为三种:
全文搜索引擎(Full Text Search Engine)
目录索引搜索引擎(Search Index/Directory)
元搜索引擎(Meta Search Engine)
可能题型:填空,选择,判断,简答
对搜索结果进行处理和排序:所有相关网页针对该关键词
的相关信息在索引库中都有记录,只需综合相关信息和网页 级别形成相关度数值,然后进行排序,相关度越高,排名越 靠前。最后由页面生成系统将搜索结果的链接地址和页面内 容摘要等内容组织起来返回给用户
4/62
1.2 搜索引擎的历史与发展趋势
搜索引擎至今已经经历了三代发展阶段: 第一代搜索引擎出现于1994年,主要特征为集中式检索
1994年7月20日,数据量为54000的Lycos正式发布。除了相
关性排序外,Lycos还提供了前缀匹配和字符相近限制, Lycos第一个在搜索结果中使用了网页自动摘要
Infoseek(Steve Kirsch Announces Free Demos Of the
Infoseek Search Engine)是另一个重要的搜索引擎。 Infoseek沿袭Yahoo!和Lycos的概念,它具有友善的用户界 面和大量的附加服务,而使它成为一个强势搜索引擎
这种模型在查询结果处理中加入模糊逻辑运算,将
检索的数据库文档信息与用户的查询要求进行模糊 逻辑比较,按照相关的优先次序排列查询结果
模糊逻辑模型可以克服布尔型信息检索模型在查询
中其结果具有无序性的问题。例如,查询“搜索引 擎”,则出现关键词“搜索引擎”多的文档将排列 在较前的位置上
17/62
向量空间模型
7/62
1995年,第一个元搜索引擎Metacrawler出现。用户只
需提交一次搜索请求,由元搜索引擎负责转换处理后 提交给多个预先选定的独立搜索引擎,并将从各独立 搜索引擎返回的所有查询结果,集中起来处理后再返 回给用户
1995年12月DEC的 AltaVista登场亮相,大量的创新功能
从互联网上抓取网页:利用能够从互联网上自动收集网页
的Spider系统程序,自动访问互联网,并沿着任何网页中 的所有URL爬到其它网页,重复这过程,并把爬过的所有 网页收集回来。 建立索引数据库:由分析索引系统程序对收集回来的网页 进行分析,提取相关网页信息(包括网页所在URL、编码 类型、页面内容包含的关键词、关键词位置、生成时间、 大小、与其它网页的链接关系等),根据一定的相关度算 法进行大量复杂计算,得到每一个网页针对页面内容中及 超链中每一个关键词的相关度(或重要性),然后用这些 相关信息建立网页索引数据库
使它迅速到达当时搜索引擎的顶峰。AltaVista是第一 个支持自然语言搜索的搜索引擎,AltaVista是第一个 实现高级搜索语法的搜索引擎
8/62
检索结果处理技术 (选择题,填空题或简答)
纯净搜索引擎
元搜索引擎 集成搜索引擎 垂直搜索引擎
9/62
1.3 搜索引擎的分类
搜索引擎和常规意义上的全文检索主要区别:
第1章 搜索引擎概述
随着互联网的飞速发展,人们越来越依靠网络来
查找他们所需要的信息
由于网上的信息源数不胜数,如何有效地去发现
我们所需要的信息,就成为一个很关键的问题, 为了e在全球
市场突飞猛进
仅在开源社区SourceForge上,搜索引擎的项目就
10/62
1.3.1 全文搜索引擎
通过从互联网上提取的各个网站的信息(以网页文
字为主)而建立的数据库中,检索与用户查询条件 匹配的相关记录,然后按一定的排列顺序将结果返 回给用户
全文搜索引擎有全文搜索、检索功能强和信息更新
速度快等优点,但同时也有其不足之处,虽然提供 的信息多而全,然而可供选择的信息太多反而降低 了相应的命中率,导致层次结构不清晰,往往给人 一种繁多杂乱的感觉
13/62
1.3.4 分布式搜索引擎
分布式搜索引擎按区域、主题或其他标准创建分布式索引
服务器,索引服务器之间相互可以交换中间信息,且查询可 以被重新定向
由于分布式搜索引擎将索引数据库划分到几个分布的数据
库中,每个数据库变得小一些,但所有搜索引擎覆盖的范围 变大,且很少有信息重复,而作为分布式系统特性之一的可 扩充也是分布式搜索引擎的优点之一
目前,因特网上的信息发布格式多种多样,这就要
求搜索引擎支持多种文件格式。从实际情况看,所 有的搜索引擎都支持HTML格式,而对于其他文件 格式的支持则不同的搜索引擎有不同的规定,最多 的能支持200多种文件格式
Байду номын сангаас
22/62
信息预处理要做的工作:
关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算
核心技术:超链分析
超链分析技术,是新一代搜索引擎的关键技术,已 为世界各大搜索引擎普遍采用。在学术界,一篇论 文被引用得越多就说明其越好,学术价值就越高。 超链分析就是通过分析链接网站的多少来评价被链 接的网站质量,这保证了用户在搜索时,越受 用户欢迎的内容排名越靠前
26/62()搜索然而分布式搜索引擎需要多个索引数据库协同工作,实现
较困难,因此目前尚未有真正的、实用的分布式搜索引擎
14/62
1.4
搜索引擎的信息检索模型
布尔逻辑模型
模糊逻辑模型
向量空间模型
概率模型
可能题型:填空,选择,判断,简答
15/62
布尔逻辑模型
布尔型信息检索是最简单的信息检索模型,用户
11/62
1.3.2 目录索引搜索引擎
目录索引虽然有搜索功能,但在严格意义上算不上是
真正的搜索引擎,仅仅是按目录分类的网站链接列表 而已。用户完全可以不用进行关键词(Keywords)查 询,仅靠分类目录也可找到需要的信息 与全文搜索引擎的区别在于它是由人工建立的,通过 “人工方式”将站点进行了分类,不像全文搜索引擎 那样,将网站上的所有文章和信息都收录进去,而是 首先将该网站划分到某个分类下,再记录一些摘要信 息
1.6 主要搜索引擎介绍
Google的不足
其数据的更新速度无法进一步提高
无法搜索动态生成的网页
中文状态下的Google没有成人内容过滤功能 目前对中国的用户还不支持“OR”和“*”等符号
的使用
可能题型:填空,选模最大的中文搜索引擎,致力于向 人们提供最便捷的信息获取方式
第二代搜索引擎系统大约出现在1996年,大多采用分布
式检索方案,即多个微型计算机协同工作来提高数据规 模、响应速度和用户数量
第三代搜索引擎系统出现在1998年到2000年间,这一时
间是搜索引擎空前繁荣的时期
它的发展的三大特点
(可能为简答、判断、选择、填空) 5/62
1.2.1 搜索引擎的发展史
自动方式通常是由网络机器人来完成的。“网络机器人”
是一种自动运行的软件,其功能是搜索因特网上的网站或 网页
一般来说,人工方式收集信息的准确性要远优于“网络机
器人”,但其收集信息的效率及全面性要低于“网络机器 人” 21/62
1.5.2 信息预处理技术
信息预处理包括信息格式支持与转换以及信息过滤
12/62
1.3.3 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他 多个引擎上进行搜索,并将结果返回给用户。著 名的元搜索引擎有InfoSpace、Dogpile、Vivisimo 等,中文元搜索引擎中具代表性的有北斗搜索。 在搜索结果排列方面,有的直接按来源引擎排列 搜索结果,如Dogpile,有的则按自定的规则将结 果重新排列组合,如Vivisimo
利用布尔逻辑关系构造查询并提交,搜索引擎根 据事先建立的倒排文件确定查询结果
标准布尔逻辑模型为二元逻辑,并可用逻辑符
“and”、“or”、“not”来组织关键词表达式。布 尔型信息检索模型的查全率高,查准率低
目前大多搜索引擎均使用布尔逻辑检索模型,查
询结果一般不进行相关性排序
16/62
模糊逻辑模型
19/62
1.5 搜索引擎的关键技术
信息收集和存储技术
信息预处理技术
信息索引技术
可能题型:填空,选择,判断,简答
相关文档
最新文档