搜索引擎概述

合集下载

5搜索引擎

5搜索引擎

这里的""是半角符号,也就是英文的引号
例:“冬天来了,春天还会远吗”
检索结果页面
谷歌的检索方法与技巧
2、高级检索
例如:检索过去一年教育网上 有关北京数字图书馆的简体中 文网页
检索结果界面
谷歌的检索方法与技巧
3、特色搜索
(1)类似结果
单击“类似结果”时,Google 侦察兵便开始寻找与
第二代搜索 目录搜索
搜索引擎的工作原理
因 特 网
爬行器 (蜘蛛)
索引生成器 (网页数据库)
查询检索器 (用户查询)
搜索引擎的概念 搜索引擎是一种网络信息资源检索工具,是以 各种网络信息资源为检索对象的查询系统。
它像一本书的目录,Internet各个站点的网址 就像是页码,可以通过关键词或主题分类的方式 来查找感兴趣的信息所在的WEB页面。
(3)智能搜索引擎:FSA 、Eloise 和 FAQFinder。
你用过哪些搜索引擎?
第6章
2. 常用搜索引擎介+”。 如:“女排 世界杯 2011” (2)以“-”表示逻辑“非”
例如:查找关于机械制造方面的论文 机械制造 filetype: pdf
检索结果太多, 调整检索策略
Intitle:机械制造 filetype:pdf
约有110条结果
2. 常用搜索引擎介绍
(三)
第6章
2. 常用搜索引擎介绍
搜索引擎
(四)
第5章
搜索引擎
3. 搜索引擎的实际运用
基本步骤:
谷歌的检索方法与技巧
(5)不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做 小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”, 得到的结果都一样。 (6)手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一 个网页。例如,要查找武汉科技大学城市学院的主页,只需在 搜索字段中输入“武汉科技大学城市学院”,然后单击“手气 不错”按钮。Google 将直接带您进入该官方主页 /csxy/index.html

搜索引擎

搜索引擎

目录索引:
目录索引也称为:分类检索, 是因特网上最早提供WWW资源查 询的服务,主要通过搜集和整 理因特网的资源,根据搜索到 网页的内容,将其网址分配到 相关分类主题目录的不同层次 的类目之下,形成像图书馆目 录一样的分类树形结构索引。 目录索引无需输入任何文字, 只要根据网站提供的主题分类 目录,层层点击进入,便可查 到所需的网络信息资源。
第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给 用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大, 虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都 是根据日、周、月阶段性不同幅度的更新。 选择 与网站内容相关 搜索次数多,竞争小 主关键词,不可太宽泛 主关键词,不太特殊 商业价值 提取文字 中文分词 去停止词 消除噪声 去重 正向索引 倒排索引 链接关系计算 特殊文件处理
移动互联网搜索的必然使命,就是:提供精准到个人的搜索。可以说前三代搜索引擎,都是基于PC互联网 的搜索,而精准到个人需求的移动互联网搜索,为“第四代搜索引擎”,那么,最有可能实现自于亚马逊、淘宝这些掌握 了大量个人信息的商业巨头,或者来自于跨界研究行为心理学、消费心理学、社会心理学等背景的IT研究机 构或IT创业团队,因为这些公司或机构,对人们的行为习惯背后的“动机”与“特征”更加了如指掌。
元搜索引擎
元搜索引擎(METASearch Engine) 接受用户查询请求后,同时在多 个搜索引擎上搜索,并将结果返 回给用户。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo等, 中文元搜索引擎中具代表性的是 搜星搜索引擎。在搜索结果排列 方面,有的直接按来源排列搜索 结果,如Dogpile;有的则按自定 的规则将结果重新排列组合,如 Vivisimo。

四年级信息技术搜索引擎课件

四年级信息技术搜索引擎课件
果进行排序。
02 搜索引擎的使用技巧
关键词的选择
01
02
03
关键词的提炼
从问题中提取核心信息, 转化为简练的关键词。
避免冗余
避免使用重复或无意义的 关键词,提高搜索效率。
使用特定关键词
针对特定领域或主题,使 用专业术语或常用关键词 。
搜索结果的筛选
查看搜索结果数量
了解搜索结果的大致数量 ,判断是否需要进一步筛 选。
示给用户的系统。
搜索引擎是互联网的基础应用,是网民 获取信息的重要工具。
搜索引擎已广泛运用于人们的日常生活 、学习和工作中,能够帮助用户快速找
到所需的信息。
搜索引擎的分类
全文搜索引擎
全文搜索引擎是从网页中提取信息建立网页数据库而形成 的,当用户查询条件与网页数据库中数据匹配时,系统会 提供相应的网页给用户。
分类目录型
以人工方式收集信息,通过编辑员对信息 进行分类和编制,用户通过关键词搜索, 然后从预先编制的目录中查找相关信息。
Yahoo!
代表
优点
信息准确、导航效果好。
缺点
信息量少、覆盖面窄、更新速度慢。
第二代搜索引擎
文本检索型
通过爬虫程序自动抓取互联网上的网页,建立索引数据库,用户通过 关键词搜索,返回与关键词相关的网页。
加速信息传播
搜索引擎的出现使得信息传播速度大大加快,人 们可以快速地获取到全球范围内的信息。
扩大信息覆盖面
搜索引擎通过爬取互联网上的大量网页,将各种 信息整合在一起,为用户提供更全面的信息。
提高信息获取效率
用户可以通过搜索引擎快速找到自己需要的信息 ,节省了大量时间和精力。
搜索引擎对个人生活的影响
目录索引类搜索引擎

第四章 搜索引擎

第四章 搜索引擎
优点:返回结果信息量更大,更全 缺点:用户要做过多筛选
本章内容
一、搜索引擎的概述 二、搜索引擎的检索方法和技巧(重点) 三、常用的搜索引擎简介 四、如何能有效检索 五、搜索引擎目前存在的问题和未来趋势
二、搜索引擎的检索方法和技巧※
(一)搜索引擎的检索方法 1、单词检索 2、词组检索 3、布尔逻辑检索 4、截词检索 5、限定检索 6、字母大小写 7、名词检索 8、检索结果的显示
强制搜索
如果要对忽略的关键字进行强制搜索,则需要在该关键 字前加上明文的“+”号。 比如:搜索关于www起源的一些历史资料搜索:则我们可 以用下面的检索式进行搜索:
+www +的历史 internet
另一个强制搜索的方法是把上述的关键字用英文双引号 引起来。 例如上面的够访问超过10亿的中文网页.
首本检索
布尔逻辑算法 在结果中检索 相关搜索 错别字提示 汉语拼音提示
检索结果
检索结果 标题 文件格式 摘要 网查信息 针对教育网站搜索(),专门 有大学搜索()
(二)谷歌(http:)
特点:具有界面简洁、检索精确度高、质量高等优 点
概况
Sergey Brin
Larry Page
概况
Google名字的由来: Googol表示10的100次幂, 这一术语体现了公司整合网上海量信息的远 大目标。
三、常用的搜索引擎简介(一)() (二)Google() (三)北大天网() (四)雅虎 (中文版: .cn
英文版:)
高级检索
Intitle
把搜索范围限 定在网页标题 中,“intitle:” 和后面的关键 词之间不要有 空格。 如:intitle:周杰伦
高级检索
site: 搜索范围限定在特定站点中,可以提高查询效

《认识搜索引擎》课件

《认识搜索引擎》课件

语义搜索
语义搜索是指搜索引擎能够理解自然语言,对用户输入的语义进行深入分析和理 解,从而提供更加准确和相关的搜索结果。例如,当用户输入一个较为复杂的查 询语句时,语义搜索能够理解用户的意图,并返回与该意图相关的搜索结果。
语义搜索的发展将进一步推动搜索引擎的自然语言处理技术,使用户能够更加自 然地表达自己的需求,提高搜索结果的准确性和相关性。
多模态搜索
多模态搜索是指搜索引擎能够接受多种媒体数据(如文本、图像、音频、视频等)作为输入,并返回与该输入相关的多种媒 体数据作为结果。例如,用户可以上传一张图片或一段视频进行搜索,搜索引擎将返回与该图片或视频相关的文本、图片、 视频等结果。
多模态搜索的发展将进一步拓宽搜索引擎的应用场景,使用户能够更加方便地获取多种媒体数据的信息,提高信息获取的多 样性和丰富性。
结果筛选
查看搜索结果的相关性
01
根据搜索结果与查询主题的相关程度,筛选出最符合需求的网
页或信息。
查看搜索结果的权威性
02
选择来自权威网站或知名媒体的结果,以获取更可靠的信息。
使用搜索结果的高级筛选功能
03
利用搜索引擎提供的高级筛选功能,如过滤不相关的结果、按
时间排序等,提高筛选效率。
04
搜索引擎的未来展望
反垃圾信息法
垃圾信息泛滥
搜索引擎作为信息传播的重要平 台,容易受到垃圾信息的侵扰, 影响用户体验和搜索引擎的正常
运营。
反垃圾信息法规
各国政府纷纷出台反垃圾信息法 规,要求搜索引擎采取有效措施
防止垃圾信息的传播。
反垃圾技术发展
随着技术的发展,搜索引擎应不 断加强反垃圾技术的研究和应用 ,提高垃圾信息的识别和过滤能 力,为用户提供更加纯净的搜索

09-电子教材_搜索引擎

09-电子教材_搜索引擎

1.5 搜索引擎1.5.1 搜索引擎概述1.搜索引擎概念搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

它包括信息搜索、信息整理和用户查询三部分组成。

搜索引擎之所以能在短短几年时间内获得如此迅猛的发展,最重要的原因是搜索引擎为人们提供了一个前所未有的查找信息资料的便利方法。

搜索引擎最重要也最基本的功能就是搜索信息的及时性、有效性和针对性。

2.搜索引擎分类搜索引擎可以分成以下几类。

(1)全文搜索引擎全文搜索引擎是目前应用最广泛的搜索引擎,典型代表有Google搜索、百度搜索。

它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

(2)目录式搜索引擎目录索引的典型代表主要有Yahoo!、新浪分类目录搜索。

它是以人工方式或半自动方式搜集信息,由搜索引擎的编辑员查看信息之后,依据一定的标准对网络资源进行选择、评价,人工形成信息摘要,并将信息置于事先确定的分类框架中而形成的主题目录。

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。

用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。

(3)元搜索引擎元搜索引擎接受用户查询请求后,通过一个统一的界面,同时在多个搜索引擎上搜索,并将结果返回给用户。

著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。

在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

第三章 搜索引擎及其使用

第三章 搜索引擎及其使用


字段限定检索:在搜索引擎中,字段检索大多表现 为前缀限制形式,如属于主题字段限制的有:Title、 Subject、 Keywords、 Summary等;属于非主题字段 限制的有:Image 、Text等。此外,搜索引擎还提供 了新的、带有典型网络检索特征的字段限制类型,如 主机名(host)、域名(domain)链接(link)、URL 限制(url)、新闻组(Newsgroup)和E-mail限制等。
在检索框中输入检索词
选择检索范围:网页、图片、新闻、论坛或 点击 “Google搜索”按钮 点击“手气不错”按钮。搜索结果则自动将你带到Google查询到 的第一个网页,你将看不到其他搜索到的结果,省时方便。
自动使用“and”进行查询. Google只会返回那些符合
您的全部查询条件的网页。不需要在关键词之间加上

特殊型搜索引擎是专门搜集特定的某一方
面的和某些类型的信息,如专门搜集有关电话、
人名、地名、地址信息的名录搜索引擎。专门
搜索图像信息的图片搜索引擎,专门搜索音乐 的MP3的音乐搜索引擎等。 返回


开始搜索之前,首先应当考虑选择哪个搜 索引擎。每个搜索引擎都有自己的信息采集原 则,知道了搜索引擎都收集那些信息,将有助 于找到合适的信息。 由于存储和展示网站内容的方式不同,你可 以在不同的情况下用“分类目录”或“搜索引 擎”查找信息.
索引数据库
根据用户输入的查询条件,在索引库 中快速检出文档,进行文档与查询的 相关度评价,对将要输出的结果进行 排序,并将查询结果返回给用户。
检索器与用户接口
搜索引擎的关键技术
搜索引擎的关键技术:信息搜集技术、索引技术、检索器 与结果处理技术。 信息搜集技术 目录导航式搜索引擎的信息搜集技术 网络机器人技术 索引技术 索引类型: 目录索引、文本索引(关键词索引)、链索引、站 点索引 检索器与结果处理技术 检索器提供的查询接口形式(目录导航式、关键词检索) 按频次排定次序、按页面被访问度排序、二次检索等

internet第05章2搜索引擎

internet第05章2搜索引擎
12
2、使用搜索引擎
2.3 检索功能 ❖ 布尔逻辑检索 ❖ 精确匹配——双引号 ❖ 限定词检索
13
2.3.1布尔逻辑检索
❖ 逻辑“与”(and):“同时包含”关系 。 ❖ 逻辑“或”(or) :“分别包含”关系。 ❖ 逻辑“非”(not) :“排除其他”关系。 几乎所有的搜索引擎都具有布尔逻辑功能。
• 搜索引擎并不真正搜索互联网,它搜索的 实际上是预先整理好的网页索引数据库。
• 搜索引擎不能真正理解网页上的内容,它 只能机械的匹配网页上的文字。
5
1、搜索引擎 (Search Engine)介绍
❖ 1.2、历史 ❖ 最早现代意义上的搜索引擎出现于1994年7
月。Michael Mauldin 创建的Lycos。 ❖ 同年四月,yahoo门户网站诞生,使网络搜索
28
Filetype示例
29
30
3.5 Google其它特色示例
❖ 计算器 ❖ 类似网页 ❖ 网页快照 ❖ 缩略图
31
计算器功能
32
计算器功能
33
类似网页
34
网页快照
❖ Google 在访问网站时,会将看过的网页复制一份网 页快照,以备在找不到原来的网页时使用。单击 “网页快照”时,您将看到 Google 将该网页编入 索引时的页面。Google 依据这些快照来分析网页是 否符合您的需求。
9
一、搜索引擎 (Search Engine)介绍
❖ 1.4.3元搜索引擎: 通过一个统一用户界面帮助用户在多个搜索引擎 中选择和利用合适的(甚至是同时利用若干个)搜 索引擎来实现检索操作,是对分布于网络的多种 检索工具的全局控制机制。
❖ MetaCrawler() ❖ Dogpile() ❖ Mamma() ❖ 万纬()
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索结果展现
2.1.2 搜索引擎的发展史
4
1990年,加拿大麦吉尔大学(McGill University)计算机学院的Alan Emtage研发了 Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在 各个FTP主机中的文件的服务。Archie搜集的信息资源被公认为搜索引擎的雏形。
出了中国市场,在国内暂时无法访问。
谷歌首页
2.1.4 常用的搜索引擎介绍
17
5.雅虎
雅虎(Yahoo!)是美国著名的门户网站之一,其服务范围包括搜索引擎、电子邮件、新闻等, 服务业务遍及24个国家和地区。
Yahoo是最早实行“分类目录”的搜索数据库,也是目前重要的搜索服务网站之一。
雅虎首页
2.1 认识搜索引擎 2.2 搜索引擎的工作原理 2.3 搜索引擎的使用方法 2.4 本章实训
10
3.元搜索引擎
元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块、搜索结果显示 模块。
元搜索引擎的工作原理
2.1.3 搜索引擎的分类
11
4.垂直搜索引擎
垂直搜索引擎(Vertical Search Engines)更专注于特定的搜索领域和搜索需求,如图片 搜索、视频搜索、法律搜索、专利搜索、论文搜索等,它是对通用搜索内容的细分。直搜索引擎。2.2.1 蜘蛛爬行 Nhomakorabea20
当网络蜘蛛爬行到某个网站时,会首先检查网站的根目录下是否存在Robots文件,如果 有,则会根据其约定不抓取禁止抓取的网页。
进入允许抓取的网站后,网络蜘蛛会采用如下3种策略爬行网站中的所有网页。
深度 优先
宽度 优先
最佳优先
2.2.1 蜘蛛爬行
21
1.深度优先策略
深度优先策略是早期使用较多的网络蜘蛛爬行 策略。在网站中,当网络蜘蛛发现一个链接后,网 络蜘蛛就会沿着这个链接爬到下一个网页,然后在 这个网页中又沿着新发现的链接爬下去,直到没有 未爬行的链接,再返回到第一个网页,沿着另一条 链接继续爬行。当不再有新的超链出现时,整个爬 行过程结束。如图所示,为深度优先爬行策略,其 中的数字为网络蜘蛛爬行网页的顺序。
搜狗搜索首页
2.1.4 常用的搜索引擎介绍
16
4.谷歌 谷歌(Google)是目前被公认的全球最大的搜索引擎,是互联网上最受欢迎的网站之一,在
全球范围内拥有无数的用户。Google允许以多种语言进行搜索,有多达30余种语言可供选择。 Google以简单、干净的页面设计和最有关的搜索结果赢得了用户的认同。但目前Google退
假设的6个页面内容
关键字ID 1 2 3 4 5 6 7
关键词 手机 小米 华为 苹果 评测
2019年 新款
对关键词按照重要性进行排序后的结果
2.2.3 网页处理
29
6.建立索引库
在实际搜索中搜索引擎是通过关键词来查找包含它的页面,因此正排索引就需要扫描每一个页 面来判断其是否包含该关键词,这样计算量就会非常大,因而搜索引擎还会将正排索引重新构建为 倒排索引,将页面对应到关键词的映射转换为关键词到页面的映射。
2.2.2 抓取建库
24
网络蜘蛛在经过较长时间的爬行后,就可以爬行完互联网上的所有网站,但这些网站资 源极其庞大,而且其中还夹杂着大量的垃圾网站,再加上搜索引擎的资源有限,通常只会抓 取其中的部分网页到数据库中。
网络蜘蛛到达一个网页后,会对其内容进行检测,判断其中的信息是否为垃圾信息,如 大量的重复内容、乱码以及与已收录的内容高度重复等。检测通过后,搜索引擎会对有价值 的网页进行收录,将网页的信息存储到数据库中。
垂直搜索引擎的工作原理
2.1.3 搜索引擎的分类
12
4.垂直搜索引擎
相比于其他无序化的搜索引擎,垂直搜索引擎更加专业和深入,进而保证所收录信息的完 整性和及时性,且其返回的结果重复率低、相关性强、查准率高。垂直搜索引擎最大的特点有 如下几点。
最大特点



行业色彩
2.1.4 常用的搜索引擎介绍
13
1.全文搜索引擎 全文搜索引擎又可以分为两类。
拥有自己的检索程序
能够自己从互联网中抓 取网页建立数据库,从 自身的数据库中调用搜 索结果。
7
租用其他搜索引擎的数据库
这种搜索引擎不能够创 建自己的数据库,无法 满足用户的需求,现已 逐渐被第一类搜索引擎 所替代。
2.1.3 搜索引擎的分类
8
2.目录搜索引擎
2.2.1 蜘蛛爬行
23
3.最佳优先策略
最佳优先策略指网络蜘蛛到达一个网页时,将网页中的所有链接收集到地址库中,并对 其进行分析,从中筛选出重要性较高的链接进行爬行。影响链接重要性的因素主要有网页权 重、网站规模和反应速度等。当某个链接的网页权重值越高、网站规模越大、反应速度越快 时,就会优先被抓取。
360搜索首页
2.1.4 常用的搜索引擎介绍
15
3.搜狗搜索
搜狗搜索是搜狐公司于2004年推出的第三代互动式中文搜索引擎。其致力于中文互联网信息 的深度挖掘,帮助中国上亿互联网用户加快信息获取速度,为用户创造价值。
其中音乐搜索具有小于2%的死链率,图片搜索具有独特的组图浏览功能,新闻搜索具有能够 及时反映互联网热点事件的看热闹首页,地图搜索具有全国无缝漫游功能。
6.建立索引库
搜索引擎会记录每一个关键词等信息,并根据这些信息计算出每个关键词的重要性,再按照重 要性对关键词进行排序。然后搜索引擎会将页面及其对应的关键词构建为正排索引并存储到索引库。
文档ID 1 2 3 4 5 6
网页内容 小米手机 2019年新款手机 华为手机 苹果手机 小米手机评测 华为手机评测
自动搜 集信息
资源
提供检 索服务
工作 原理
建立 索引
2.1.2 搜索引擎的发展史
5
随着互联网的出现,为了方便查询互联网中的网页信息,真正的搜索引擎也应运而出,并 随着互联网的发展不断地发展和进步。总体说来,搜索引擎分为4代。
1
2
3
4
分类目录时代
文本检索时代
整合分析时代
用户中心时代
2.1.3 搜索引擎的分类
2.2.1 蜘蛛爬行
19
数据抓取系统是搜索引擎最重要组成系统之一,主要负责互联网信息的搜集、保存和更 新等,它就像蜘蛛一样在互联网上爬来爬去,因此也被叫做网络蜘蛛(spider)或机器人 (bot)。
搜索引擎抓取网页时会同时运行多个蜘蛛程序,从一些重要的种子网址开始,通过其网 页上的超链接,不断发现新的网址并抓取,并不断重复这个过程,尽最大可能抓取到更多网 页。由于互联网中每时每刻都存在网页被修改、删除或出现新的超链接的可能,所以对于百 度这样的大型搜索引擎来说,还要不断地对过去抓取过的页面进行更新。
关键字ID 1 2 3 4 5 6 7
关键字 手机 小米 华为 苹果 评测 2019年 新款
文档ID1 1 1 3 4 5 2 2
文档ID2 2 5 6
文档ID3 3
6
倒排索引简化表
文档ID4 4
文档ID5 5
文档ID6 6
2.2.3 网页处理
30
7.链接分析
搜索引擎在对页面进行排序时,还需要引入网页以外的标准来衡量网页。在这些网页以外的标 准中,链接分析是最为重要的,搜索引擎会分析链接到这个网页的所有外部链接,这些外部链接的 数量和质量都能反映该网页的质量,以及和关键词的相关度。
如图所示,这段HTML代码,在经过结构化网页后,剩下的用于排名的文字为“2019年新款运 动鞋”。
2.2.3 网页处理
26
2.分词
分词是中文搜索引擎所特有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔 的,而中文的词与词之间则没有任何分隔符,所以搜索引擎必须首先将一句话分解成若干个词语。
第2章
搜索引擎概述
2.1 认识搜索引擎 2.2 搜索引擎的工作原理 2.3 搜索引擎的使用方法 2.4 本章实训
2.1.1 搜索引擎的定义
3
搜索引擎(Search Engine)指根据一定的策略,运用特定的计算机程序从互联网上搜集信 息,再对信息进行组织和处理后,为用户提供检索服务,最后将用户检索的相关信息展示给用 户的网站系统。简而言之,搜索引擎通过收集并整理互联网上众多网页中的关键词并进行索引, 进而建立索引数据库。当用户搜索某个关键词时,所有页面内容中包含该关键词的网页都将被 作为搜索结果展现出来。
6
1.全文搜索引擎
全文搜索引擎(Full Text Search Engine)是目前应用较广泛的主流搜索引擎。
国外搜索引擎Google国内的和360搜索全文搜索引擎从互联网中提取各个网站的信息(以网页文字为主),建立起网页数据库, 并检索与用户搜索条件相匹配的记录,按一定的排列顺序返回结果。
2.1.3 搜索引擎的分类
基于字典的分词法
基于理解的分词法
基于统计的分词法
2.2.3 网页处理
27
3.去停止词
无论是中文还是英文,出现频率高,对页面内容没有任何影响的词,被称为停止词。因为它们 对句子的主要意思没什么影响,所以搜索引擎会去掉这些词。这样就可以使索引数据的主题更为突 出,也可以减少一些无谓的计算量。
4.降噪
与网页主题完全不相关的内容都属于噪声,而搜索引擎需要识别并消除这些噪声,其基本方法 是:根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,剔除无关区域的 内容,剩下的就是页面主体内容。
8.数据整合
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型。用户在搜索 结果中,但只能通过其说明性文本进行处理。不同的数据格式被分别存储,但是在建立索引以及排 序时,往往又会联系与数据相关的内容,以判断其相关性与重要性,然后最终形成一个有力于向人们提供“简单,可中国宋朝词务器上把所搜索信息返回给当地用户, 使用户享受极快的搜索体验。
相关文档
最新文档