搜索引擎工作的基础流程与原理

合集下载

搜索引擎基本工作原理

搜索引擎基本工作原理目录1工作原理2搜索引擎3目录索引4百度谷歌5优化核心6SEO优化▪网站url▪ title信息▪ meta信息▪图片alt▪ flash信息▪ frame框架1工作原理搜索引擎的基本工作原理包括如下三个过程：首先在互联网中发现、搜集网页信息；同时对信息进行提取和组织建立索引库；再由检索器根据用户输入的查询关键字，在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并将查询结果返回给用户。

1、抓取网页。

每个独立的搜索引擎都有自己的网页抓取程序爬虫（spider）。

爬虫Spider顺着网页中的超链接，从这个网站爬到另一个网站，通过超链接分析连续访问抓取更多网页。

被抓取的网页被称之为网页快照。

由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。

2、处理网页。

搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。

其中，最重要的就是提取关键词，建立索引库和索引。

其他还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3、提供检索服务。

用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

搜索引擎基本工作原理2搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。

搜索引擎的自动信息搜集功能分两种。

一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上搜索信息的工具，它能够根据用户输入的关键词，在互联网上找到相关的网页、文件或者其他资源。

搜索引擎的工作原理可以分为以下几个步骤：1. 网页抓取：搜索引擎会通过网络爬虫程序自动抓取互联网上的网页内容。

网络爬虫会按照一定的规则遍历互联网上的链接，将抓取到的网页保存下来。

2. 网页索引：抓取到的网页内容会被搜索引擎进行索引处理。

索引是一个包含了大量关键词和网页相关信息的数据库。

搜索引擎会将网页的标题、正文、链接等信息提取出来，并建立索引以便后续的检索。

3. 关键词处理：当用户输入关键词进行搜索时，搜索引擎会对关键词进行处理。

这个过程包括去除停用词（如“的”、“是”等无实际意义的词语）、同义词处理、词干提取等。

关键词处理的目的是将用户输入的关键词转化为更准确的搜索条件。

4. 检索排序：搜索引擎会根据索引中的信息，将包含用户关键词的网页进行排序。

排序算法会综合考虑网页的相关性、权威性、页面质量等因素，以确定搜索结果的排序。

5. 结果展示：搜索引擎将排序后的搜索结果展示给用户。

通常，搜索引擎会将搜索结果分为多个页面，每一个页面显示若干个搜索结果。

用户可以通过翻页或者点击相关链接来查看更多的搜索结果。

6. 搜索反馈：搜索引擎会根据用户的行为和反馈信息来优化搜索结果。

例如，用户点击某个搜索结果的次数越多，搜索引擎就会认为该结果与用户的搜索意图更相关，将其排名提高。

除了以上的基本工作流程，搜索引擎还会应用一些技术来提高搜索效果，例如：1. 自然语言处理：搜索引擎会利用自然语言处理技术来理解用户的搜索意图，从而提供更准确的搜索结果。

例如，用户输入“天气如何”时，搜索引擎可以理解用户想要获取天气信息，并直接显示相关的天气预报。

2. 图象搜索：搜索引擎可以通过图象识别技术，让用户直接上传图片进行搜索。

搜索引擎会分析图片的内容，并找到与之相关的网页或者其他资源。

3. 语音搜索：搜索引擎可以通过语音识别技术，实现用户通过语音输入关键词进行搜索。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上搜索信息的工具，它能够根据用户输入的关键词，在海量的网页中快速找到相关的内容。

搜索引擎的工作原理涉及到多个步骤和技术，下面将详细介绍搜索引擎的工作原理。

1. 网页抓取与索引搜索引擎首先需要从互联网上抓取网页，并将这些网页进行索引。

抓取是指搜索引擎自动访问互联网上的网页，并将网页内容下载到自己的数据库中。

索引是指将抓取到的网页进行分析和整理，提取出网页的关键信息，如标题、摘要、关键词等，并建立相应的索引结构，以便后续的检索。

2. 关键词提取与分析用户在搜索引擎中输入的关键词是搜索引擎进行搜索的依据。

搜索引擎会对用户输入的关键词进行分析和处理，提取出其中的关键信息。

关键词提取与分析是搜索引擎的核心技术之一，它能够识别出关键词中的主题和意图，并根据这些信息进行后续的搜索和排序。

3. 搜索与排序算法搜索引擎根据用户输入的关键词，在索引中进行搜索，并找到与关键词相关的网页。

搜索算法是搜索引擎的核心技术之一，它能够根据网页的相关性和质量，对搜索结果进行排序。

搜索算法通常包括关键词匹配、网页质量评估、用户反馈等多个因素，以保证搜索结果的准确性和相关性。

4. 网页排名与展示搜索引擎会根据搜索结果的相关性和质量，对网页进行排名，并将排名靠前的网页展示给用户。

网页排名是根据搜索算法计算得出的，排名靠前的网页通常与用户的搜索意图更为相关。

搜索引擎还会对搜索结果进行展示，包括网页标题、摘要等信息，以便用户快速浏览和选择。

5. 搜索结果反馈与优化搜索引擎会根据用户的搜索行为和反馈信息，对搜索结果进行优化。

用户的点击行为、停留时间等信息会被搜索引擎记录下来，并用于优化搜索结果的排序和展示。

搜索引擎还会根据用户的反馈信息，对搜索算法进行调整和改进，以提供更准确和相关的搜索结果。

总结：搜索引擎的工作原理涉及到网页抓取与索引、关键词提取与分析、搜索与排序算法、网页排名与展示、搜索结果反馈与优化等多个步骤和技术。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于帮助用户查找互联网上相关信息的工具。

它通过收集、整理和索引互联网上的网页，并根据用户的搜索关键词提供相关的搜索结果。

搜索引擎的工作原理可以简单地分为三个主要步骤：爬取、索引和检索。

1. 爬取（Crawling）：搜索引擎通过自动化程序（爬虫或蜘蛛）从互联网上获取网页内容。

爬虫会从一个初始的网页开始，通过解析网页中的链接，逐步爬取更多的网页。

爬虫会按照一定的规则遍历互联网上的网页，并将它们保存在搜索引擎的数据库中。

2. 索引（Indexing）：在爬取完网页后，搜索引擎会对这些网页进行处理和分析，并创建一个索引数据库。

索引是一个包含了网页关键词和网页相关信息的巨大数据库。

搜索引擎会对每个网页的标题、正文、链接等内容进行分析，并提取出关键词和关键词的相关信息。

这些关键词和相关信息将被存储在索引数据库中，以便后续的搜索过程中能够快速地找到相关的网页。

3. 检索（Retrieval）：当用户输入搜索关键词后，搜索引擎会根据索引数据库中的信息来查找相关的网页。

搜索引擎会根据用户的搜索关键词在索引数据库中进行匹配，并返回与关键词相关的网页列表。

搜索引擎会根据一定的算法对这些网页进行排序，以便将最相关的网页排在前面。

搜索引擎还会根据用户的搜索历史、地理位置等因素进行个性化的搜索结果展示。

为了提供更准确和相关的搜索结果，搜索引擎还会使用一些算法和技术来进行优化。

其中包括：1. 关键词匹配算法：搜索引擎会根据用户输入的关键词和网页的关键词进行匹配。

匹配算法会考虑关键词的重要性、位置和频率等因素，以确定网页与用户搜索意图的相关性。

2. 页面排名算法：搜索引擎会根据网页的质量和相关性对搜索结果进行排序。

常用的页面排名算法包括PageRank算法，它通过分析网页之间的链接关系来评估网页的重要性和权威性。

3. 语义分析技术：搜索引擎会对用户的搜索意图进行深入理解，并尝试理解用户查询的含义。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于在互联网上查找和获取信息的工具。

它通过收集、索引和排序互联网上的网页，以便用户可以通过关键词搜索来获取所需的信息。

搜索引擎工作原理可以分为四个主要步骤：爬取、索引、排名和呈现。

1. 爬取搜索引擎的第一步是通过网络爬虫程序（也称为蜘蛛或机器人）自动访问互联网上的网页。

爬虫程序从一个起始网页开始，然后通过网页上的链接递归地爬取更多的网页。

爬虫程序会遵循一定的规则，例如不爬取重复的网页、不爬取特定类型的网页等。

2. 索引当爬虫程序爬取到网页后，搜索引擎会将网页的内容进行分析和索引。

索引是搜索引擎的核心组成部分，它将网页的关键词和其他相关信息存储在数据库中，以便后续的搜索操作。

搜索引擎使用复杂的算法来确定关键词的重要性和相关性，并为每个网页分配一个权重值。

3. 排名当用户输入关键词进行搜索时，搜索引擎会根据索引中的信息进行匹配和排序。

搜索引擎会根据关键词和网页的相关性、权重值以及其他因素来确定搜索结果的排名。

排名算法是搜索引擎的核心竞争力之一，不同的搜索引擎采用不同的排名算法，例如Google的PageRank算法。

4. 呈现搜索引擎将排名最高的搜索结果呈现给用户。

搜索结果页面通常包括标题、摘要和链接等信息，以便用户可以快速浏览和选择适合自己的搜索结果。

搜索引擎还提供了一系列的搜索筛选和排序选项，以帮助用户进一步缩小搜索范围。

总结：搜索引擎工作原理包括爬取、索引、排名和呈现四个主要步骤。

搜索引擎通过爬虫程序自动访问互联网上的网页，并将网页的内容进行分析和索引。

当用户进行搜索时，搜索引擎会根据索引中的信息进行匹配和排序，并将排名最高的搜索结果呈现给用户。

搜索引擎的工作原理涉及复杂的算法和技术，旨在为用户提供准确、相关和有用的搜索结果。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于在互联网上搜索和获取信息的工具。

它通过采集、整理和索引互联网上的网页内容，并根据用户的搜索关键词提供相关的搜索结果。

搜索引擎的工作原理可以分为四个主要步骤：爬取、索引、排序和展示。

1. 爬取（Crawling）：搜索引擎使用一种称为网络爬虫（Web Crawler）的程序来自动访问互联网上的网页。

爬虫从一个起始网页开始，通过解析网页中的链接，逐步爬取更多的网页。

爬虫会按照一定的规则和策略来确定爬取的网页范围，并将爬取到的网页内容保存下来供后续处理。

2. 索引（Indexing）：爬取到的网页内容需要被整理和组织，以便能够快速地进行搜索。

在索引阶段，搜索引擎会对爬取到的网页进行分析和处理，提取出网页的关键信息，例如标题、正文、链接等。

然后，搜索引擎会将这些信息存储到一个巨大的数据库中，这个数据库被称为索引（Index）。

索引是搜索引擎的核心组成部份，它包含了互联网上绝大部份网页的信息。

3. 排序（Ranking）：当用户输入搜索关键词后，搜索引擎会根据索引中的数据进行匹配和排序，以确定与搜索关键词相关的网页。

搜索引擎使用一系列的算法和评价指标来对搜索结果进行排序，以提供用户最相关和最实用的信息。

常见的排序算法包括PageRank、TF-IDF、BM25等。

这些算法会根据网页的相关性、权威性、可信度等因素对搜索结果进行评估和排序。

4. 展示（Display）：排序完成后，搜索引擎会将排名靠前的搜索结果展示给用户。

搜索结果通常以列表的形式呈现，每一个搜索结果都包含了网页的标题、摘要和URL等信息。

用户可以点击搜索结果来访问相应的网页。

搜索引擎还会提供一些额外的功能和过滤选项，例如图片搜索、新闻搜索、地图搜索等，以满足用户的不同需求。

除了以上的基本工作原理，搜索引擎还会不断地更新和改进自己的算法和技术，以提供更准确、更全面的搜索结果。

搜索引擎也会考虑用户的搜索习惯和行为，通过分析用户的点击和反馈数据来优化搜索结果的质量和准确性。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上查找和获取信息的工具。

它通过索引互联网上的网页并根据用户的搜索关键词返回相关的搜索结果。

搜索引擎的工作原理可以分为以下几个步骤：1. 网页抓取与索引搜索引擎首先通过网络爬虫（也称为蜘蛛或者机器人）从互联网上抓取网页。

网络爬虫会按照一定的规则遍历互联网上的链接，并将抓取到的网页保存到搜索引擎的数据库中。

这些网页被称为索引。

2. 关键词提取与索引构建在抓取到的网页中，搜索引擎会提取出网页中的关键词。

关键词可以是浮现频率较高的词语或者是特定的词组。

搜索引擎使用一种称为倒排索引的数据结构来构建索引。

倒排索引将关键词与包含这些关键词的网页进行关联，以便快速检索。

3. 查询处理当用户输入搜索关键词后，搜索引擎会对用户的查询进行处理。

它会对查询进行分词，将查询中的词语分解成一个个的关键词。

搜索引擎还会对查询进行语义分析，以理解用户的意图。

例如，对于一个查询“如何学习编程”，搜索引擎可以理解用户是在寻觅学习编程的方法。

4. 检索与排名搜索引擎根据用户的查询在索引中查找包含相关关键词的网页。

它会使用一系列的算法来对这些网页进行排序，以确定哪些网页最相关。

搜索引擎的排名算法通常会考虑网页的关键词密度、网页的质量和权威性等因素。

排名较高的网页会在搜索结果中显示在前面。

5. 结果展示搜索引擎会将排名较高的网页作为搜索结果返回给用户。

搜索结果通常包括网页的标题、摘要和网址等信息。

搜索引擎还会根据用户的搜索习惯和历史记录来个性化展示搜索结果。

6. 搜索引擎优化搜索引擎优化（SEO）是一种通过优化网页内容和结构，以提高网页在搜索引擎中的排名的技术。

网站所有者可以通过合理的优化措施来提高网站在搜索引擎中的可见度和流量。

总结：搜索引擎的工作原理涉及网页抓取与索引、关键词提取与索引构建、查询处理、检索与排名以及结果展示等步骤。

搜索引擎通过这些步骤将用户输入的搜索关键词与互联网上的网页进行匹配，并返回相关的搜索结果。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种通过自动化程序来匡助用户在互联网上查找相关信息的工具。

它能够从海量的网页中快速检索出用户所需的信息，并按照像关性进行排序，以便用户能够更快地找到自己所需的内容。

搜索引擎的工作原理可以分为三个主要的步骤：抓取、索引和排序。

1. 抓取：搜索引擎通过网络爬虫（也称为蜘蛛或者机器人）来抓取互联网上的网页。

网络爬虫会从一个起始网址开始，然后按照一定的规则跟踪和抓取其他网页上的链接，形成一个网页的网络图。

爬虫会下载这些网页的内容，并提取其中的文本、链接和其他元数据。

2. 索引：在抓取的过程中，搜索引擎会将抓取到的网页内容进行分析和处理，然后将其存储在索引数据库中。

索引是搜索引擎的核心部份，它类似于一本巨大的目录，记录了互联网上的网页和相关的关键词。

索引可以匡助搜索引擎快速找到与用户查询相关的网页。

为了构建索引，搜索引擎会对抓取到的网页进行文本分析，将网页内容中的关键词提取出来，并建立关键词与网页的映射关系。

同时，搜索引擎还会考虑其他因素，如网页的重要性、链接的质量等，来确定网页的排名。

3. 排序：当用户输入查询词后，搜索引擎会根据索引数据库中的信息进行匹配，并找到相关的网页。

搜索引擎会根据一系列算法和规则来对搜索结果进行排序，以便将最相关的网页展示给用户。

排序算法通常会考虑多个因素，如关键词的匹配度、网页的权威性、用户的搜索历史等。

搜索引擎还会根据用户的查询行为和反馈来不断优化排序结果，以提供更加准确和个性化的搜索体验。

除了以上三个主要的步骤，搜索引擎还会提供其他的功能和服务，如搜索建议、语义理解、垂直搜索等，以满足用户不同的需求。

总结起来，搜索引擎的工作原理包括抓取、索引和排序三个主要的步骤。

通过抓取互联网上的网页内容，建立索引数据库，并根据用户的查询词和一系列算法进行排序，搜索引擎能够匡助用户快速找到所需的信息。

不断的优化和改进使得搜索引擎能够提供更加准确和个性化的搜索结果，满足用户的需求。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于帮助用户在互联网上搜索信息的工具。

它通过收集互联网上的网页并建立索引，使用户能够通过关键词搜索找到相关的网页和信息。

搜索引擎的工作原理可以分为四个主要步骤：抓取、索引、排序和展示。

1. 抓取搜索引擎通过网络爬虫（也称为蜘蛛或机器人）来抓取互联网上的网页。

网络爬虫会按照一定的规则从一个网页开始，通过链接跳转到其他网页，并递归地抓取整个互联网。

在抓取过程中，网络爬虫会下载网页的HTML代码，并提取其中的文本、链接和其他相关信息。

2. 索引当搜索引擎抓取到网页后，会将网页的内容存储到索引数据库中。

索引是搜索引擎的核心组成部分，它类似于一本巨大的书目录，记录了互联网上所有抓取到的网页的信息。

索引数据库会对每个网页进行分析和处理，提取关键词、标题、链接和其他重要的元数据，并将其存储在索引中以供后续的搜索查询使用。

3. 排序当用户输入关键词进行搜索时，搜索引擎会根据索引数据库中的信息进行匹配和排序。

搜索引擎会将用户输入的关键词与索引中的关键词进行比对，找到与之相关的网页。

在排序过程中，搜索引擎会根据一系列的算法和规则来确定每个网页的相关性和权重。

常用的排序算法包括PageRank算法、TF-IDF算法等。

排序的目的是将最相关和最有价值的网页展示给用户。

4. 展示排序完成后，搜索引擎会将搜索结果展示给用户。

搜索结果通常以页面的形式呈现，包括搜索关键词的相关网页列表、网页的标题和摘要等。

搜索引擎还会根据用户的搜索习惯和地理位置等因素进行个性化的结果展示。

用户可以通过点击搜索结果中的链接来访问相应的网页。

除了以上的基本步骤，搜索引擎还会考虑其他因素来提高搜索结果的质量和准确性。

例如，搜索引擎会考虑网页的质量和可信度，对网页进行去垃圾信息的处理，过滤恶意网页和垃圾信息。

搜索引擎还会不断地更新索引数据库，以保证搜索结果的时效性和完整性。

总结起来，搜索引擎的工作原理包括抓取、索引、排序和展示四个主要步骤。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于帮助用户在互联网上查找相关信息的工具。

它的工作原理可以分为四个主要步骤：抓取、索引、排序和展示。

下面将详细介绍每个步骤的具体内容。

1. 抓取（Crawling）：搜索引擎通过自动化程序（爬虫）从互联网上抓取网页。

爬虫从一个起始点开始，通过链接逐步遍历整个互联网。

它们会跟踪每个链接并下载网页内容。

爬虫通过识别网页上的超链接来发现新的网页，并将这些网页添加到抓取队列中。

2. 索引（Indexing）：一旦网页被抓取，搜索引擎会将其添加到一个被称为索引的数据库中。

索引是搜索引擎的核心组成部分，它包含了大量的网页内容信息。

为了加快搜索速度，索引会对网页进行结构化处理，提取出关键信息如标题、摘要、关键词等，并建立索引以便快速检索。

3. 排序（Ranking）：当用户输入关键词进行搜索时，搜索引擎会根据索引中的信息进行排序，以确定哪些网页最相关。

排序算法会考虑多个因素，如关键词在网页中的出现频率、网页的质量和权威性等。

搜索引擎会对每个网页进行评分，并按照得分高低进行排序。

4. 展示（Display）：最后，搜索引擎会根据排序结果将相关网页展示给用户。

展示结果通常以列表形式呈现，每个结果都包含标题、摘要和URL链接。

搜索引擎还会提供一些额外的功能，如过滤器、相关搜索和搜索历史等，以帮助用户更好地获取所需信息。

搜索引擎的工作原理是一个复杂的过程，它需要大量的计算资源和算法支持。

为了提供准确、相关的搜索结果，搜索引擎公司会不断改进他们的算法和技术。

同时，搜索引擎也需要处理大量的数据，包括网页内容、用户搜索记录等。

通过不断优化和改进，搜索引擎能够更好地满足用户的信息需求。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

参数，然后对相应站点进行抓取。

在这里，我要说明一下，就是针对百度来说，site的数值并非是蜘蛛已抓取你页面的数值。

比
如site:，所得出的数值并不是大家常说的百度收录数值，想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。

那么site是什么？这个我会在今后的文章中为大家讲解。

那么蜘蛛如何发现新链接呢？其依靠的就是超链接。

我们可以把所有的互联网看成一个有向集合的聚集体，蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。

在这个过程中，每发现新的URL都会与集合A中已存的进行比对，若是新的URL，则加入集合A中，若是已在集合A中存在，则丢弃掉。

蜘蛛对一个站点的遍历抓取策略分为两种，一种是深度优先，另一种就是宽度优先。

但是如果是百度这类商业搜索引擎，其遍历策略则可能是某种更加复杂的规则，例如涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。

二.预处理。

预处理是搜索引擎最复杂的部分，基本上大部分排名算法都是在预处理这个环节生效。

那么搜索引擎在预处理这个环节，针对数据主要进行以下几步处理：
1.提取关键词。

蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的，通常代码杂乱无章，而且其中还有很多与页面主要内容是无关的。

由此，搜索引擎需要做三件事情：代码去噪。

去除掉网页中所有的代码，仅剩下文本文字。

②去除非正文关键词。

例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。

③去除停用词。

停用词是指没有具体意义的词汇，例如“的”“在”等。

当搜索引擎得到这篇网页的关键词后，会用自身的分词系统，将此文分成一个分词列表，然后储存在数据库中，并与此文的URL进行一一对应。

下面我举例说明。

假如蜘蛛爬取的页面的URL是/2.html，而搜索引擎在此页面经过上述操作后提取到的关键词集合为p，且p是由关键词p1,p2,……,pn组成，则在百度数据库中，其相互间的关系是一一对应，如下图。

2.消除重复与转载网页。

每个搜索引擎其识别重复页面的算法均不相同，但是其中Mr.Z hao认为，如果将消重算法理解为
由100个元素组成，那么所有的搜索引擎恐怕其80个元素都是完全一样的。

而另外20个元素，则是根据不同的搜索引擎针对seo的态度不同，而专门设立的对应策略。

本文仅对搜索引擎大体流程进行初步讲解，具体数学模型不多做讲解。

3.重要信息分析。

在进行代码除噪的过程中，搜索引擎并非简单的将其去除掉而已，而是充分利用网页代码（例如H 标签、strong标签）、关键词密度、内链锚文本等方式分析出此网页中最重要的词组。

4.网页重要度分析。

通过指向该网页的外链锚文本所传递的权重数值，来为此网页确定一个权重数值，同时结合上述的“重要信息分析”，从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。

5.倒排文件。

正如上文所说，用户在查询时所得到的查询结果并非是及时的，而是在搜索引擎的缓存区已经大体排好的，当然搜索引擎不会未卜先知，他不会知道用户会查询哪些关键词，但是他可以建立一个关键词词库，而当其处理用户查询请求的时候，会将其请求按照词库进行分词。

那么这样下来，搜索引擎就可以在用户产生查询行为之前，将词库中的每一个关键词其对应的URL排名先行计算好，这样就大大节省了处理查询的时间了。

简单来说，搜索引擎用控制器来控制蜘蛛爬取，然后将URL集与原始数据库进行保存，保存之后再用索引器控制每个关键词与URL之间的对应关系，并将其保存在索引数据库中。

下面我们来举例说明。

假若/2.html页面被切词成p={p1，p2，p3，……，pn}，则其在索引数据库中由下图方式体现。

上图是为了方便大家便于理解而做出来的，索引数据库实际上是搜索引擎中对性能要求最高的数据库，因为里面所有因素都会受到算法影响，所以实际上的索引数据库我觉得应该是由多维数组所组成的较为复杂的索引表，但其主要体现的大体作用与上图相同。

三、查询服务。

查询服务顾名思义，就是处理用户在搜索界面的查询请求。

搜索引擎构建检索器，然后分三步来处理请求。

1.根据查询方式与关键词进行切词。

首先先把用户搜索的关键词切分为一个关键词序列，我们暂时用q来表示，则用户搜索的关键词q被切分为q={q1，q2，q3，……，qn}。

然后再根据用户查询方式，例如是所有词连在一起，还是中间有空格等，以及根据q中不同关键词的词性，来确定所需查询词中每一个词在查询结果的展示上所占有的重要性。

2.搜索结果排序。

我们有了搜索词集合q，q中每个关键词所对应的URL排序——索引库，同时也根据用户的查询方式与词性计算出每个关键词在查询结果的展示上所占有的重要，那么只需要进行一点综合性的排序算法，搜索结果就出来了。

3.展示搜索结果与文档摘要。

当有了搜索结果后，搜索引擎就会将搜索结果展示在用户阅览的界面上以供用户使用。

在这里，大家可以思考两个个问题。

大家在搜索界面中经常发现百度展示的摘要是用户搜索词周围的，如果我不仅仅只看第一页，多往后翻一些页，会看到有些结果由于其目标页面本身并未完全包含搜索词，而在百度提取的摘要中标红词仅是部分搜索词，那么我们可以这样理解，百度在搜索词不被完全包含的情况下，是不是应该优先展现在分词结果中被百度认为较为重要的词呢？那么从这些搜索结果中我们是不是就可以看出百度分词算法的部分端倪呢？
②有时候页面中会多次出现搜索词，而百度搜索结果页面中在网站摘要部分仅会显示部分，通常这么部分是连续的，那我们是不是可以理解在摘要部分，百度会优先展示页面中它认为与对此搜索词最重要的部分呢？那么由此我们是不是可以揣度出百度针对页面除噪后对不同部分赋予权重的算法呢？
这两个问题仁者见仁智者见智，做SEO的朋友们自己去探索与摸索吧，Mr.Z hao不敢在此无人子弟。

四、现今百度的流程漏洞。

请原谅我用流程漏洞来形容这个模块，但我不得不说，在如今点击器横行的天下，我觉得说是漏洞无可厚非。

那就是除了上面三个大环节外，百度还构建了用户行为模块，来影响原始数据库与索引库。

而影响原始数据库的，是百度的快照投诉，主要处理互联网暴利的一些行为，这点无可厚非。

而影响索引库的，是用户的点击行为，这个设计本身也无可厚非，但百度算法的不成熟，导致了点击器作弊猖獗。

百度的用户行为分析模块很简单，除了自身投诉的提交入口外，就是搜集用户在搜索界面的点击行为，如果此页面结果被大部分用户阅览，但没有产生点击，用户居然大部分选择点击第二页甚至更后面的页面，则此现象就会被百度工程师们所知道，则会根据这方面来微调算法。

如今百度针对不同行业，其算法早已不同了。

如果前两页内某个搜索界面被大量用户选择点击，则通常会在24小时候，这个搜索结果被大幅前提，甚至会被提升至第一名。

五、搜索引擎大体流程图（加上用户行为分析器）
以上就是我所对搜索引擎工作的基础流程与原理的理解。

最后我想说广大的SEO从业者们应该已经发现无论是百度还是谷歌或者其它的商业搜索引擎，他们都会要求seoer们不要去在意算法、不要去在意搜索引擎，而是去多关注用户体验。

这里我们可以理解成一个比喻，搜索引擎是买西瓜的人，而SEO们是种西瓜的人，买西瓜的人要求我们这些种西瓜的人不要关心他们挑选西瓜的标准，而是多多在意怎么去种出好西瓜，而对于什么样的西瓜是他们需要的好西瓜，他们又往往用一些模糊的概念掩盖过去。

诚然，这样搜索引擎得到的结果将会多样化，他们可以在挑选结果时有更多的选择，能够最大限度的维护这些商业搜索引擎自身的利益，但是请其也不要忘记，我们这些种西瓜的也要有口饭吃。

Mr.Z hao始终坚持白帽SEO，深入研究UE，做对用户有意义的站。

但与此同时，我也坚信身
为seoer，我们还应该对算法有及时了解，以便我们做出的站在符合用户口味的时候，更能在搜索引擎中得到良好的展现，因为毕竟seoer也是人，也希望过得好一点。

今后我将在其它的文章中逐步剖析搜索引擎的各个环节，并发表在我博客“搜索引擎原理”的栏目下，希望对大家有所帮助。

来源：Mr.Z hao的博客
人人都是产品经理（）中国最大最活跃的产品经理学习、交流、分享平台。