搜索引擎分类及工作原理
搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于帮助用户查找互联网上相关信息的工具。
它通过收集、整理和索引互联网上的网页,并根据用户的搜索关键词提供相关的搜索结果。
搜索引擎的工作原理可以简单地分为三个主要步骤:爬取、索引和检索。
1. 爬取(Crawling):搜索引擎通过自动化程序(爬虫或蜘蛛)从互联网上获取网页内容。
爬虫会从一个初始的网页开始,通过解析网页中的链接,逐步爬取更多的网页。
爬虫会按照一定的规则遍历互联网上的网页,并将它们保存在搜索引擎的数据库中。
2. 索引(Indexing):在爬取完网页后,搜索引擎会对这些网页进行处理和分析,并创建一个索引数据库。
索引是一个包含了网页关键词和网页相关信息的巨大数据库。
搜索引擎会对每个网页的标题、正文、链接等内容进行分析,并提取出关键词和关键词的相关信息。
这些关键词和相关信息将被存储在索引数据库中,以便后续的搜索过程中能够快速地找到相关的网页。
3. 检索(Retrieval):当用户输入搜索关键词后,搜索引擎会根据索引数据库中的信息来查找相关的网页。
搜索引擎会根据用户的搜索关键词在索引数据库中进行匹配,并返回与关键词相关的网页列表。
搜索引擎会根据一定的算法对这些网页进行排序,以便将最相关的网页排在前面。
搜索引擎还会根据用户的搜索历史、地理位置等因素进行个性化的搜索结果展示。
为了提供更准确和相关的搜索结果,搜索引擎还会使用一些算法和技术来进行优化。
其中包括:1. 关键词匹配算法:搜索引擎会根据用户输入的关键词和网页的关键词进行匹配。
匹配算法会考虑关键词的重要性、位置和频率等因素,以确定网页与用户搜索意图的相关性。
2. 页面排名算法:搜索引擎会根据网页的质量和相关性对搜索结果进行排序。
常用的页面排名算法包括PageRank算法,它通过分析网页之间的链接关系来评估网页的重要性和权威性。
3. 语义分析技术:搜索引擎会对用户的搜索意图进行深入理解,并尝试理解用户查询的含义。
搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于在互联网上搜索和获取信息的工具。
它通过采集、整理和索引互联网上的网页内容,并根据用户的搜索关键词提供相关的搜索结果。
搜索引擎的工作原理可以分为四个主要步骤:爬取、索引、排序和展示。
1. 爬取(Crawling):搜索引擎使用一种称为网络爬虫(Web Crawler)的程序来自动访问互联网上的网页。
爬虫从一个起始网页开始,通过解析网页中的链接,逐步爬取更多的网页。
爬虫会按照一定的规则和策略来确定爬取的网页范围,并将爬取到的网页内容保存下来供后续处理。
2. 索引(Indexing):爬取到的网页内容需要被整理和组织,以便能够快速地进行搜索。
在索引阶段,搜索引擎会对爬取到的网页进行分析和处理,提取出网页的关键信息,例如标题、正文、链接等。
然后,搜索引擎会将这些信息存储到一个巨大的数据库中,这个数据库被称为索引(Index)。
索引是搜索引擎的核心组成部份,它包含了互联网上绝大部份网页的信息。
3. 排序(Ranking):当用户输入搜索关键词后,搜索引擎会根据索引中的数据进行匹配和排序,以确定与搜索关键词相关的网页。
搜索引擎使用一系列的算法和评价指标来对搜索结果进行排序,以提供用户最相关和最实用的信息。
常见的排序算法包括PageRank、TF-IDF、BM25等。
这些算法会根据网页的相关性、权威性、可信度等因素对搜索结果进行评估和排序。
4. 展示(Display):排序完成后,搜索引擎会将排名靠前的搜索结果展示给用户。
搜索结果通常以列表的形式呈现,每一个搜索结果都包含了网页的标题、摘要和URL等信息。
用户可以点击搜索结果来访问相应的网页。
搜索引擎还会提供一些额外的功能和过滤选项,例如图片搜索、新闻搜索、地图搜索等,以满足用户的不同需求。
除了以上的基本工作原理,搜索引擎还会不断地更新和改进自己的算法和技术,以提供更准确、更全面的搜索结果。
搜索引擎也会考虑用户的搜索习惯和行为,通过分析用户的点击和反馈数据来优化搜索结果的质量和准确性。
搜索引擎分类和原理

一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。
11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。每个部分均采用N+1的冗余设计,1台服务器时刻处于备用状态。因而整个系统能在99.9%的时间内提供高可用性和高稳定性的服务。
12.高可配置性使得搜索服务能够满足不同用户的需求。在搜索调度、相关性评价、内容过滤、显示方式等方面均为客户提供了可配置手段,使系统具有服务,由他们自行决定搜索结果的显示方式,加入自己的广告和公司图标(logo)。
8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
《搜索引擎》 讲义

《搜索引擎》讲义在当今数字化的时代,搜索引擎已经成为我们获取信息的重要工具。
无论是查找学术资料、解决生活中的疑问,还是了解最新的新闻动态,搜索引擎都能在瞬间为我们提供大量的相关内容。
那么,搜索引擎究竟是如何工作的?它又有着怎样的发展历程和未来趋势呢?接下来,让我们一起深入探讨搜索引擎的奥秘。
一、搜索引擎的定义与工作原理搜索引擎,简单来说,就是一种用于在互联网上搜索信息的工具。
它通过使用复杂的算法和技术,对互联网上的网页进行索引和分类,然后根据用户输入的关键词或短语,快速找到与之相关的网页,并按照一定的规则进行排序,将最相关、最有用的结果展示给用户。
搜索引擎的工作原理主要包括以下几个步骤:1、抓取网页搜索引擎会使用一种称为“网络爬虫”的程序,自动地在互联网上浏览和抓取网页。
网络爬虫会从一些已知的网页开始,然后顺着网页中的链接不断地访问新的网页,将它们的内容下载下来。
2、索引网页抓取到的网页会被进行分析和处理,提取出其中的关键词、标题、描述等信息,并建立一个索引。
这个索引就像是一本书的目录,方便搜索引擎在接收到用户的查询时能够快速地找到相关的网页。
3、处理查询当用户在搜索引擎中输入关键词或短语时,搜索引擎会对用户的输入进行分析和理解,然后在之前建立的索引中查找与之匹配的网页。
4、排序结果找到相关的网页后,搜索引擎会根据一系列的因素对这些网页进行排序。
这些因素包括网页的内容质量、相关性、网页的权威性和可信度、用户的浏览历史和偏好等。
5、展示结果最后,搜索引擎将排序后的结果展示给用户。
通常,用户会看到一个包含网页标题、描述和链接的列表,用户可以点击感兴趣的链接进一步查看网页的详细内容。
二、搜索引擎的发展历程搜索引擎的发展可以追溯到上世纪 90 年代。
早期的搜索引擎功能比较简单,只能对网页中的关键词进行匹配,搜索结果的准确性和相关性也比较差。
随着技术的不断进步,搜索引擎逐渐变得更加智能和强大。
其中,谷歌的出现可以说是搜索引擎发展的一个重要里程碑。
搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于从互联网上获取信息的工具,它通过采集、索引和排序网页来提供用户所需的搜索结果。
搜索引擎的工作原理可以分为以下几个步骤:网页抓取、网页索引和搜索结果排序。
1. 网页抓取:搜索引擎通过网络爬虫程序(也称为蜘蛛、机器人)从互联网上抓取网页。
网络爬虫会按照一定的规则自动遍历互联网上的网页,并将抓取到的网页内容保存在搜索引擎的数据库中。
爬虫程序会从一个初始网页开始,然后通过网页中的链接逐步遍历其他网页,形成一个庞大的网页索引。
2. 网页索引:网页索引是搜索引擎的核心组成部份,它是一个包含大量网页信息的数据库。
搜索引擎会对抓取到的网页进行处理,提取出网页的关键词和其他相关信息,并将这些信息存储在索引中。
索引的目的是为了加快搜索引擎的检索速度和准确性。
当用户输入关键词进行搜索时,搜索引擎会根据索引中的信息进行匹配,找到与关键词相关的网页。
3. 搜索结果排序:当用户输入关键词进行搜索后,搜索引擎会根据一定的算法对索引中的网页进行排序,以便将最相关的网页展示给用户。
搜索引擎的排序算法通常会考虑多个因素,如关键词的匹配程度、网页的权威性和用户的搜索习惯等。
通过不断优化算法,搜索引擎可以提供更准确、相关的搜索结果。
除了以上的基本工作原理,搜索引擎还会根据用户的搜索行为和反馈信息进行改进和优化。
例如,搜索引擎会记录用户的搜索历史和点击行为,以便更好地理解用户的需求,并根据用户的反馈信息对搜索结果进行调整。
总结起来,搜索引擎的工作原理主要包括网页抓取、网页索引和搜索结果排序。
通过不断优化算法和采集用户反馈,搜索引擎可以提供更准确、相关的搜索结果,匡助用户快速获取所需的信息。
搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于帮助用户在互联网上查找信息的工具,通过收集、索引和展示网页内容,为用户提供相关的搜索结果。
搜索引擎的工作原理可以分为以下几个步骤:网页抓取、索引建立和搜索结果展示。
1. 网页抓取搜索引擎通过网络爬虫(也称为蜘蛛、机器人)自动访问互联网上的网页,并将网页内容下载到搜索引擎的服务器上。
爬虫按照一定的规则遍历网页,通过链接跳转和网页分析等方式获取更多的网页。
爬虫会定期访问已抓取的网页,以便更新搜索引擎的索引。
2. 索引建立在网页抓取后,搜索引擎会对网页内容进行处理和分析,提取出网页中的关键词、标题、摘要等信息,并将这些信息存储在索引数据库中。
索引数据库是搜索引擎的核心组成部分,它包含了大量的网页信息和相关的索引信息。
索引数据库会根据关键词的频率、位置和其他相关度因素对网页进行排序和分类。
3. 搜索结果展示当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会根据用户的搜索词在索引数据库中进行匹配和排序。
搜索引擎会根据网页的相关度对搜索结果进行排序,并将最相关的网页展示给用户。
搜索引擎还会根据用户的搜索历史、地理位置和其他个性化因素对搜索结果进行调整和个性化推荐。
搜索引擎的工作原理涉及到多个技术和算法,以下是一些常用的技术和算法:1. 爬虫技术爬虫技术是搜索引擎获取网页内容的基础。
爬虫会按照一定的规则和策略遍历网页,通过链接跳转和网页分析等方式获取更多的网页。
爬虫还会处理网页中的链接,将新的网页添加到待抓取队列中。
爬虫的设计和实现需要考虑到网页的数量、抓取速度和网络资源的限制等因素。
2. 关键词匹配算法关键词匹配算法是搜索引擎对用户搜索词和网页内容进行匹配的核心算法。
关键词匹配算法会根据关键词的频率、位置和其他相关度因素对网页进行排序和分类。
常见的关键词匹配算法包括向量空间模型(VSM)、BM25和TF-IDF等。
3. 网页排名算法网页排名算法是搜索引擎对搜索结果进行排序的算法。
搜索引擎分类与工作原理

搜索引擎分类与工作原理搜索引擎是一种用于从互联网上收集信息并按相关性进行排序的软件工具。
根据不同的分类标准,搜索引擎可以分为多种类型,例如传统搜索引擎、垂直搜索引擎和元搜索引擎。
传统搜索引擎是指最常见的搜索引擎,如Google、Bing和Yahoo等。
它们的工作原理可以总结为三个主要步骤:1. 爬取和索引网页:搜索引擎会使用称为“爬虫”或“蜘蛛”的程序在互联网上爬取网页。
爬虫会按照设定的规则和算法逐个访问网页,并将其内容保存在搜索引擎的数据库中,以便后续的搜索和排序。
2. 建立倒排索引:搜索引擎会对爬取的网页内容进行处理,将关键词和对应的网页链接建立倒排索引。
倒排索引是一种数据结构,它将每个关键词和包含该关键词的网页链接关联起来,以便在用户进行搜索时能快速地找到相关网页。
3. 排名和排序:在用户输入搜索关键词后,搜索引擎会根据事先设定的算法对倒排索引中的网页进行排序,并将最相关的网页排在前面展示给用户。
搜索引擎的排序算法考虑了很多因素,包括关键词出现频率、网页质量、外部链接等。
垂直搜索引擎是专门针对某个特定领域或主题进行搜索和排序的搜索引擎。
它们的工作原理与传统搜索引擎类似,但爬取和索引的网页通常是特定领域相关的网页,使得搜索结果更加精确和专业。
元搜索引擎是一种同时使用多个不同搜索引擎的搜索工具。
它的工作原理是将用户的搜索请求发送给多个搜索引擎,并将它们的搜索结果进行整合和排序后展示给用户。
这种方式可以提供更全面和多样化的搜索结果,但也会增加搜索的时间和计算开销。
综上所述,搜索引擎根据分类标准的不同可以分为传统搜索引擎、垂直搜索引擎和元搜索引擎。
它们的工作原理都是通过爬取、索引和排序网页来提供相关的搜索结果。
每种搜索引擎都有其特点和应用场景,用户可以根据自己的需求选择适合的搜索引擎来获取所需的信息。
搜索引擎分类与工作原理

搜索引擎分类与工作原理搜索引擎是互联网应用中最重要的工具之一,主要用于根据用户输入的关键词,在互联网上查找和获取与关键词相关的信息。
根据搜索引擎的工作原理和特点,可以将其分为以下几类:基于关键词的搜索引擎、基于内容的搜索引擎和基于推荐的搜索引擎。
基于关键词的搜索引擎是目前应用最广泛的搜索引擎类型。
这种搜索引擎通过用户输入的关键词,在互联网上查找包含这些关键词的网页,并按照一定的排名算法将搜索结果返回给用户。
这种搜索引擎主要依靠关键词匹配来进行搜索,但是也会考虑其他因素,例如网页的质量和权重等。
基于内容的搜索引擎是一种比较新型的搜索引擎,它不仅仅根据关键词进行搜索,还会对网页的内容进行分析和理解。
这种搜索引擎利用自然语言处理和人工智能等技术,能够理解用户输入的上下文和意图,从而提供更加精准和准确的搜索结果。
例如,用户可以直接输入一个问题,而不是简单的关键词,搜索引擎会根据问题的语义和含义来查找相关的答案。
基于推荐的搜索引擎是根据用户的个人兴趣和行为,向用户推荐相关的内容和信息。
这种搜索引擎通过分析用户的搜索历史、点击记录和社交网络等数据,来推测用户的兴趣和需求,并根据这些信息来个性化地定制搜索结果。
基于推荐的搜索引擎可以提供更加个性化和定制化的搜索体验,但也引发了用户隐私保护的问题。
这些不同类型的搜索引擎在工作原理上也存在差异。
基于关键词的搜索引擎主要通过建立庞大的索引库,对网页进行关键词的索引和储存,当用户输入关键词时,搜索引擎会在索引库中快速定位到相关的网页。
基于内容的搜索引擎则需要利用自然语言处理、机器学习和语义分析等技术,对网页的内容进行理解和分析。
基于推荐的搜索引擎则依赖于用户行为数据的处理和分析,通过建立用户画像和推荐算法来实现个性化的搜索体验。
总结起来,不同类型的搜索引擎具有不同的特点和工作原理,但它们的目标都是为了提供更好的搜索服务,让用户能够快速、准确地找到所需的信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎的分类及工作原理姓名:XXX 班级:XXX摘要:这篇论文是关于搜索引擎的分类及原理的分析。
在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。
它是一个集中了千千万万个站点的地方,主要功能是给人们搜索这些站点。
它还会分门别类的把一些好的站点列出来,以方便人们查找资料,有了搜索引擎你就能很容易的找到你想要的内容或站点,因此掌握好使用搜索引擎对于任何上网的用户至关重要。
一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
关键词:搜索引擎工作原理分类蜘蛛搜集网站1.前言获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
2.搜索引擎分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
2.1全文搜索引擎全文搜索引擎是从网站提取信息建立网页数据库。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
2.2目录索引首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
2.3 元搜索引擎 (META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。
在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo3 搜索引擎的原理全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。
它为保证采集的资料最新,还会回访已抓取过的网页。
网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。
我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。
不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。
分类目录一般都有专门的编辑人员,负责收集网站的信息。
随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。
如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。
所有这些收录的站点同样被存放在一个“索引数据库”中。
用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。
需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。
分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。
所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。
而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前搜索引擎的工作原理可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
3.1 从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
3.2 建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.3在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。
这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。
大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。
但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。
我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。
而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
3.4 在做网页的提取过程中详细的原理如下3.4.1 关键词的提取所谓“目标网页”指的是搜索引擎设计覆盖的网页范围.例如Google是全球,天网是全中国.随便取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),我们可以看到其中的情况纷乱繁杂.除了我们从浏览器中能够正常看到的文字内容外,还有大量的HTML标记.据统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4 倍.另外,由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含许多和主要内容无关的信息.这些情况既给有效的信息查询带来了挑战,也带来了一些新的机遇,这里我们只是指出,为了支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征.从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表.于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词.对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来.在那之后,一篇网页主要就由一组词来近似代表了,p = {t1,t2, …, tn}.一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现.从效果和效率考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”,"在"等没有内容指示意义的词,称为“停用词”.这样,对一篇网页来说,有效的词语数量大约在200个左右.3.4.2重复或转载网页的消除与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,因此我们看到Web上的信息存在大量的重复现象.据统计,网页的重复率平均大约为4.也就是说,当你通过一个URL在网上看到一篇网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容.这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会.但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”.因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务.3..4.3链接分析前面提到,大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇.从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”,即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量.而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的.有了HTML标记后,情况还可能进一步改善,例如在同一篇文档中,<H1>和</H1>之间的信息很可能就比在<H4>和</H4>之间的信息更重要.特别地,HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用.例如“传世群英传外挂”这几个字在传奇归来外挂的主页上是没有的,因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作为结果.3.4.4 网页重要程度的计算搜索引擎返回给用户的,是一个和用户查询相关的结果列表.列表中条目的顺序是很重要的一个问题.由于面对各种各样的用户,加之查询的自然语言风格,对同样的q0返回相同的列表肯定是不能使所有提交q0的用户都满意的(或者都达到最高的满意度).因此搜索引擎实际上追求的是一种统计意义上的满意.人们认为Google目前比百度好,是因为在多数情况下前者返回的内容要更符合用户的需要,而不是所有情况下都如此.如何对查询结果进行排序有很多因素需要考虑,后面将有深入的讨论.这里只是概要解释在预处理阶段可能形成的所谓“重要性”因素.顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的.如何讲一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法就是“被引用多的就是重要的”.“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功体现.除此以外,人们还注意到网页和文献的不同特点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接.从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标.这些指标有的可以在预处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服务阶段最终形成结果排序的部分参数.总结:搜索引擎只能搜到它网页索引数据库里储存的内容。