【学习文件】搜索引擎基础原理

合集下载

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上搜索信息的工具，它能够根据用户输入的关键词，在互联网上找到相关的网页、文件或者其他资源。

搜索引擎的工作原理可以分为以下几个步骤：1. 网页抓取：搜索引擎会通过网络爬虫程序自动抓取互联网上的网页内容。

网络爬虫会按照一定的规则遍历互联网上的链接，将抓取到的网页保存下来。

2. 网页索引：抓取到的网页内容会被搜索引擎进行索引处理。

索引是一个包含了大量关键词和网页相关信息的数据库。

搜索引擎会将网页的标题、正文、链接等信息提取出来，并建立索引以便后续的检索。

3. 关键词处理：当用户输入关键词进行搜索时，搜索引擎会对关键词进行处理。

这个过程包括去除停用词（如“的”、“是”等无实际意义的词语）、同义词处理、词干提取等。

关键词处理的目的是将用户输入的关键词转化为更准确的搜索条件。

4. 检索排序：搜索引擎会根据索引中的信息，将包含用户关键词的网页进行排序。

排序算法会综合考虑网页的相关性、权威性、页面质量等因素，以确定搜索结果的排序。

5. 结果展示：搜索引擎将排序后的搜索结果展示给用户。

通常，搜索引擎会将搜索结果分为多个页面，每一个页面显示若干个搜索结果。

用户可以通过翻页或者点击相关链接来查看更多的搜索结果。

6. 搜索反馈：搜索引擎会根据用户的行为和反馈信息来优化搜索结果。

例如，用户点击某个搜索结果的次数越多，搜索引擎就会认为该结果与用户的搜索意图更相关，将其排名提高。

除了以上的基本工作流程，搜索引擎还会应用一些技术来提高搜索效果，例如：1. 自然语言处理：搜索引擎会利用自然语言处理技术来理解用户的搜索意图，从而提供更准确的搜索结果。

例如，用户输入“天气如何”时，搜索引擎可以理解用户想要获取天气信息，并直接显示相关的天气预报。

2. 图象搜索：搜索引擎可以通过图象识别技术，让用户直接上传图片进行搜索。

搜索引擎会分析图片的内容，并找到与之相关的网页或者其他资源。

3. 语音搜索：搜索引擎可以通过语音识别技术，实现用户通过语音输入关键词进行搜索。

第三讲-搜索引擎PPT课件

例：“index of /” 浏阳河 intitle:"index of /"mp3
使用index of /这个关键词可以直接进入网站首页下的所有文件和文件夹中，因为不必再通过HTTP的网页访问形式，从而避免了那些网站的限制，
30
Google学术搜索
点击“开始GO”，可以得到视频的真实地址。然后点击视频地址进行下载。或右键单击视频的地址，选择“目标另存为”或
者“使用快车下载”。
splitit视频批量分割
40
学科信息门户
学科信息门户(Subject based information gateways)是经过组织、有序化和人工处理、专家排选、定期检查处理的学科信息导航系统，其资源都是有效的。具有以下特征：提供网上大量网站或文献的链接服务；智能化的资源选择，即根据既定的质量和范围标准来选择资源；智能化的产生内容描述，包括短的注释和评论，内容描述可以采用给定的关键词或受控术语；智能化的构建浏览结构；至少部分是人工为每个资源创建（书目）元数据。
31
Google Scholar 作用
从检索情况分析， Google学术搜索有如下用途： 1、了解有关某一领域的学术文献。由于收录范围限于学术文献，将屏蔽掉网上很多不相关信息。 2、了解某一作者的著述，并提供书目信息（引用时有必需的图书出版信息或期刊论文的刊名、刊期信息）；可直接在网上搜索原文、文摘等；如果是图书，还可通过Library Search（例如 OCLC的Open WorldCAT）检索附近图书馆的收藏。 3、了解某文献被引情况。可直接点击Cited by...（引用数）搜索引用文献。 4、对文献和期刊进行应用和引用排名。
4. 对于被引导的资源采用权威分类体系加以组织，资源分类的结果具有通用性。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于帮助用户查找并获取互联网上相关信息的工具。

它通过自动化的方式，从互联网上的海量数据中筛选出最相关和最有用的信息，并按照一定的排序规则呈现给用户。

搜索引擎的工作原理可以分为四个主要步骤：爬取、索引、排序和展示。

1. 爬取（Crawling）：搜索引擎使用爬虫程序（也称为蜘蛛或机器人）来自动地浏览互联网上的网页。

爬虫程序从一个初始网页开始，通过其中的链接跳转到其他网页，不断地递归进行，直到遍历了大部分或全部的网页。

爬虫程序会按照一定的规则（例如robots.txt文件）来确定可以爬取哪些网页。

在爬取的过程中，爬虫程序会将网页的内容下载下来，并解析其中的HTML代码。

2. 索引（Indexing）：在爬取的过程中，搜索引擎会将爬取到的网页内容进行处理，并将其存储在索引数据库中。

索引数据库是搜索引擎的核心组成部分，它类似于图书馆的目录索引，记录了互联网上每个网页的关键信息，如标题、摘要、URL等。

为了提高检索效率，索引数据库会对这些信息进行结构化和标准化处理。

搜索引擎根据用户的搜索关键词在索引数据库中进行查找，并返回相关的网页列表。

3. 排序（Ranking）：当用户在搜索引擎中输入关键词后，搜索引擎会根据一定的算法对索引数据库中的网页进行排序。

排序算法的目标是根据网页的相关性和质量，将最相关和最有用的网页排在前面。

搜索引擎的排序算法通常会考虑多个因素，如关键词的出现频率、位置和权重，网页的链接质量和权威性等。

排序算法是搜索引擎的核心竞争力之一，每个搜索引擎都有自己的独特算法。

4. 展示（Display）：排序完成后，搜索引擎会将排序结果呈现给用户。

搜索引擎的界面通常包含一个搜索框，用户可以在其中输入关键词。

搜索引擎会根据用户的关键词进行搜索，并将搜索结果以列表或网格的形式展示给用户。

搜索结果通常包括标题、摘要和URL等信息，用户可以点击链接查看完整的网页内容。

搜索引擎还会提供一些搜索选项和过滤器，帮助用户进一步缩小搜索范围。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于帮助用户在互联网上搜索信息的工具。

它通过收集互联网上的网页并建立索引，使用户能够通过关键词搜索找到相关的网页和信息。

搜索引擎的工作原理可以分为四个主要步骤：抓取、索引、排序和展示。

1. 抓取搜索引擎通过网络爬虫（也称为蜘蛛或机器人）来抓取互联网上的网页。

网络爬虫会按照一定的规则从一个网页开始，通过链接跳转到其他网页，并递归地抓取整个互联网。

在抓取过程中，网络爬虫会下载网页的HTML代码，并提取其中的文本、链接和其他相关信息。

2. 索引当搜索引擎抓取到网页后，会将网页的内容存储到索引数据库中。

索引是搜索引擎的核心组成部分，它类似于一本巨大的书目录，记录了互联网上所有抓取到的网页的信息。

索引数据库会对每个网页进行分析和处理，提取关键词、标题、链接和其他重要的元数据，并将其存储在索引中以供后续的搜索查询使用。

3. 排序当用户输入关键词进行搜索时，搜索引擎会根据索引数据库中的信息进行匹配和排序。

搜索引擎会将用户输入的关键词与索引中的关键词进行比对，找到与之相关的网页。

在排序过程中，搜索引擎会根据一系列的算法和规则来确定每个网页的相关性和权重。

常用的排序算法包括PageRank算法、TF-IDF算法等。

排序的目的是将最相关和最有价值的网页展示给用户。

4. 展示排序完成后，搜索引擎会将搜索结果展示给用户。

搜索结果通常以页面的形式呈现，包括搜索关键词的相关网页列表、网页的标题和摘要等。

搜索引擎还会根据用户的搜索习惯和地理位置等因素进行个性化的结果展示。

用户可以通过点击搜索结果中的链接来访问相应的网页。

除了以上的基本步骤，搜索引擎还会考虑其他因素来提高搜索结果的质量和准确性。

例如，搜索引擎会考虑网页的质量和可信度，对网页进行去垃圾信息的处理，过滤恶意网页和垃圾信息。

搜索引擎还会不断地更新索引数据库，以保证搜索结果的时效性和完整性。

总结起来，搜索引擎的工作原理包括抓取、索引、排序和展示四个主要步骤。

搜索引擎的工作原理是

搜索引擎的工作原理是搜索引擎的工作原理。

随着互联网的快速发展，搜索引擎已经成为我们日常生活中不可或缺的一部分。

无论是查找资料、寻找商品还是解决问题，搜索引擎都能够帮助我们快速找到需要的信息。

但是，你是否想过搜索引擎是如何工作的呢？在这篇文章中，我们将深入探讨搜索引擎的工作原理。

首先，搜索引擎的工作原理可以简单地概括为三个步骤，抓取、索引和检索。

在抓取阶段，搜索引擎会使用称为“蜘蛛”或“爬虫”的程序来浏览互联网上的网页。

这些程序会按照一定的规则从一个网页跳转到另一个网页，同时收集网页上的信息，例如文本内容、链接和图片等。

这些信息会被存储在搜索引擎的数据库中，以备后续的索引和检索。

在索引阶段，搜索引擎会对抓取到的信息进行处理，将其整理成一个巨大的数据库，这个数据库被称为索引。

索引的目的是为了能够快速地找到用户所需的信息。

为了实现这一点，搜索引擎会对网页上的关键词进行提取和分类，然后建立一个包含这些关键词的索引。

这样，当用户输入一个查询时，搜索引擎就可以根据索引快速地找到相关的网页。

最后，在检索阶段，当用户输入一个查询时，搜索引擎会根据索引来找到相关的网页，并将它们按照一定的排序规则呈现给用户。

这个排序规则通常是根据网页的相关性和权重来确定的，相关性越高的网页会排在前面。

这样，用户就可以通过输入关键词来找到自己需要的信息。

除了这三个基本的步骤之外，搜索引擎还会使用一些算法来提高搜索结果的质量。

例如，谷歌的PageRank算法就是一种用来评价网页质量的算法，它会根据网页的链接数量和质量来确定网页的权重。

这样，用户就可以更容易地找到质量更高的网页。

另外，搜索引擎还会根据用户的搜索历史和行为来个性化搜索结果。

通过分析用户的搜索记录和点击行为，搜索引擎可以了解用户的兴趣和偏好，从而为用户提供更加符合其需求的搜索结果。

总的来说，搜索引擎的工作原理可以简单概括为抓取、索引和检索三个步骤。

通过这些步骤，搜索引擎可以帮助用户快速地找到所需的信息。

搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于帮助用户在互联网上查找相关信息的工具。

它的工作原理可以分为四个主要步骤：抓取、索引、排序和展示。

下面将详细介绍每个步骤的具体内容。

1. 抓取（Crawling）：搜索引擎通过自动化程序（爬虫）从互联网上抓取网页。

爬虫从一个起始点开始，通过链接逐步遍历整个互联网。

它们会跟踪每个链接并下载网页内容。

爬虫通过识别网页上的超链接来发现新的网页，并将这些网页添加到抓取队列中。

2. 索引（Indexing）：一旦网页被抓取，搜索引擎会将其添加到一个被称为索引的数据库中。

索引是搜索引擎的核心组成部分，它包含了大量的网页内容信息。

为了加快搜索速度，索引会对网页进行结构化处理，提取出关键信息如标题、摘要、关键词等，并建立索引以便快速检索。

3. 排序（Ranking）：当用户输入关键词进行搜索时，搜索引擎会根据索引中的信息进行排序，以确定哪些网页最相关。

排序算法会考虑多个因素，如关键词在网页中的出现频率、网页的质量和权威性等。

搜索引擎会对每个网页进行评分，并按照得分高低进行排序。

4. 展示（Display）：最后，搜索引擎会根据排序结果将相关网页展示给用户。

展示结果通常以列表形式呈现，每个结果都包含标题、摘要和URL链接。

搜索引擎还会提供一些额外的功能，如过滤器、相关搜索和搜索历史等，以帮助用户更好地获取所需信息。

搜索引擎的工作原理是一个复杂的过程，它需要大量的计算资源和算法支持。

为了提供准确、相关的搜索结果，搜索引擎公司会不断改进他们的算法和技术。

同时，搜索引擎也需要处理大量的数据，包括网页内容、用户搜索记录等。

通过不断优化和改进，搜索引擎能够更好地满足用户的信息需求。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于在互联网上搜索和查找信息的工具。

它通过索引互联网上的网页内容，并根据用户的搜索关键词返回相关的搜索结果。

搜索引擎工作原理可以分为以下几个步骤：1. 网页抓取和索引搜索引擎首先需要从互联网上抓取网页内容。

它使用称为爬虫（crawler）的程序来自动访问网页，并将网页的内容下载下来。

爬虫从一个起始网页开始，然后通过网页中的链接跳转到其他网页，不断地抓取新的网页内容。

抓取下来的网页内容会被搜索引擎进行处理和分析，提取出网页中的关键信息。

这些信息包括网页的标题、正文内容、链接、图片等。

搜索引擎还会分析网页的结构和语义，以便更好地理解网页的内容。

2. 网页索引搜索引擎将抓取下来的网页内容存储在一个称为索引（index）的数据库中。

索引是搜索引擎的核心组成部份，它类似于一本巨大的目录，记录了互联网上所有网页的关键信息。

在建立索引时，搜索引擎会对网页内容进行分词处理。

分词是将网页内容切分成一个个独立的词语或者短语的过程。

搜索引擎会去除一些常见的停用词（如“的”、“是”、“在”等），并对词语进行归一化处理（如将单复数、时态等变形统一成基本形式）。

分词后的词语会被存储到索引中，并建立倒排索引（inverted index）。

倒排索引是一种将词语和包含该词语的网页进行关联的数据结构。

它可以加快搜索引擎在索引中查找相关网页的速度。

3. 用户查询处理当用户在搜索引擎中输入关键词进行搜索时，搜索引擎会对用户的查询进行处理。

首先，搜索引擎会对查询进行分词，将查询分成一个个独立的词语。

然后，它会根据分词结果在索引中查找包含这些词语的网页。

搜索引擎会根据一定的算法对索引中的网页进行排序，以便将最相关的网页排在前面。

常用的排序算法包括PageRank算法、TF-IDF算法等。

这些算法会考虑诸如网页的权重、链接的质量、网页的相关性等因素。

4. 搜索结果展示搜索引擎会根据排序结果将最相关的网页展示给用户。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于在互联网上搜索信息的工具，它能够帮助用户快速找到所需的内容。

搜索引擎工作原理涉及到信息检索、网页抓取、索引构建和搜索排序等多个步骤。

下面将详细介绍搜索引擎的工作原理。

1. 信息检索信息检索是搜索引擎的核心功能之一，它通过用户输入的关键词来匹配相关的网页和文档。

搜索引擎会根据关键词在其索引中进行搜索，并将相关的网页返回给用户。

为了提供更加准确的搜索结果，搜索引擎通常会使用一些算法来评估网页的相关性。

2. 网页抓取网页抓取是搜索引擎获取网页内容的过程。

搜索引擎会使用爬虫程序（也称为蜘蛛或机器人）来自动访问互联网上的网页，并将网页的内容下载到搜索引擎的服务器上。

爬虫程序会按照一定的规则遍历网页，并将发现的新网页添加到待抓取队列中。

3. 索引构建索引是搜索引擎用于快速检索网页的数据结构。

搜索引擎会对抓取到的网页进行处理，提取其中的关键词和其他重要信息，并将这些信息存储到索引中。

索引通常采用倒排索引的方式，即将关键词与包含该关键词的网页进行关联。

这样，当用户搜索某个关键词时，搜索引擎可以快速找到包含该关键词的网页。

4. 搜索排序搜索排序是指根据一定的算法将搜索结果按照相关性进行排序的过程。

搜索引擎会根据用户的搜索关键词和其他因素（如网页的权重、链接数量等）来评估网页的相关性，并将相关性较高的网页排在前面。

常用的排序算法包括PageRank算法和TF-IDF算法等。

除了上述基本的工作原理，搜索引擎还会考虑用户的搜索习惯和地理位置等因素，以提供更加个性化的搜索结果。

搜索引擎还会定期更新索引，以保持搜索结果的时效性。

总结起来，搜索引擎工作原理包括信息检索、网页抓取、索引构建和搜索排序等多个步骤。

通过这些步骤，搜索引擎能够快速、准确地为用户提供所需的信息。

搜索引擎的工作原理不断演进和改进，以满足用户对搜索结果的需求。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种用于帮助用户在互联网上查找信息的工具，通过收集、索引和展示网页内容，为用户提供相关的搜索结果。

搜索引擎的工作原理可以分为以下几个步骤：网页抓取、索引建立和搜索结果展示。

1. 网页抓取搜索引擎通过网络爬虫（也称为蜘蛛、机器人）自动访问互联网上的网页，并将网页内容下载到搜索引擎的服务器上。

爬虫按照一定的规则遍历网页，通过链接跳转和网页分析等方式获取更多的网页。

爬虫会定期访问已抓取的网页，以便更新搜索引擎的索引。

2. 索引建立在网页抓取后，搜索引擎会对网页内容进行处理和分析，提取出网页中的关键词、标题、摘要等信息，并将这些信息存储在索引数据库中。

索引数据库是搜索引擎的核心组成部分，它包含了大量的网页信息和相关的索引信息。

索引数据库会根据关键词的频率、位置和其他相关度因素对网页进行排序和分类。

3. 搜索结果展示当用户在搜索引擎中输入关键词进行搜索时，搜索引擎会根据用户的搜索词在索引数据库中进行匹配和排序。

搜索引擎会根据网页的相关度对搜索结果进行排序，并将最相关的网页展示给用户。

搜索引擎还会根据用户的搜索历史、地理位置和其他个性化因素对搜索结果进行调整和个性化推荐。

搜索引擎的工作原理涉及到多个技术和算法，以下是一些常用的技术和算法：1. 爬虫技术爬虫技术是搜索引擎获取网页内容的基础。

爬虫会按照一定的规则和策略遍历网页，通过链接跳转和网页分析等方式获取更多的网页。

爬虫还会处理网页中的链接，将新的网页添加到待抓取队列中。

爬虫的设计和实现需要考虑到网页的数量、抓取速度和网络资源的限制等因素。

2. 关键词匹配算法关键词匹配算法是搜索引擎对用户搜索词和网页内容进行匹配的核心算法。

关键词匹配算法会根据关键词的频率、位置和其他相关度因素对网页进行排序和分类。

常见的关键词匹配算法包括向量空间模型（VSM）、BM25和TF-IDF等。

3. 网页排名算法网页排名算法是搜索引擎对搜索结果进行排序的算法。

搜索引擎工作原理

搜索引擎工作原理搜索引擎是当今互联网时代最重要的工具之一，它们通过采集、整理和索引互联网上的信息，匡助用户快速找到所需的内容。

搜索引擎的工作原理可以分为四个主要步骤：爬取、索引、排名和展示。

1. 爬取（Crawling）：搜索引擎通过网络爬虫（Web Crawler）程序从互联网上抓取网页。

网络爬虫会从一个初始的种子URL开始，然后通过解析网页中的链接，逐渐扩展到更多的网页。

爬虫会遵循网站的robots.txt文件和网站的访问规则，以确保合法、合规的爬取行为。

2. 索引（Indexing）：在爬取网页的过程中，搜索引擎会将抓取到的网页内容进行分析和处理，提取出其中的关键信息。

这些信息包括网页的标题、正文、链接、图片等。

然后，搜索引擎会将这些信息存储在一个庞大的索引数据库中，以便后续的检索和排序。

3. 排名（Ranking）：当用户输入关键词进行搜索时，搜索引擎会根据索引数据库中的内容进行匹配，并计算每一个网页的相关性。

搜索引擎使用一系列的算法和评价指标来确定每一个网页的排名。

其中，最著名的算法是Google的PageRank算法，它根据网页的链接数量和质量来评估网页的重要性。

4. 展示（Display）：最后，搜索引擎会根据排名结果将搜索结果呈现给用户。

搜索引擎会根据用户的搜索意图和搜索历史等因素，选择性地显示相关的网页、图片、视频、新闻等内容。

搜索引擎还会提供搜索结果的相关信息，如网页的摘要、URL、发布时间等，以匡助用户更好地选择和理解搜索结果。

搜索引擎工作原理的核心是建立一个庞大的索引数据库，并通过复杂的算法和评价指标对网页进行排序和展示。

搜索引擎的目标是提供最相关、最有价值的搜索结果，以满足用户的信息需求。

为了实现这一目标，搜索引擎不断优化算法，提高索引和检索的效率，同时也面临着保护用户隐私和打击垃圾信息的挑战。

总之，搜索引擎是一个复杂而庞大的系统，它通过爬取、索引、排名和展示等步骤，将互联网上的信息组织起来，为用户提供便捷、高效的搜索服务。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

结果的可信赖性。对某个搜索结果，传统的结果可能成
千上万，但如果处于用户社交网络内其他用户发布的信息、点评或验证过的信息则更容易信赖，这是与用户的
心里密切相关的。社会化搜索为用户提供更准确、更值
得信任的搜索结果。
搜索引擎未来的发展趋势
社会化搜索
搜索引擎未来的发展趋势
实时搜索
实时搜索最突出的特点是时效性强，越来越多的突发事件首次发布在微博上，实时搜索核心强调的就是“快”，
过的信息、博客、微博等内容。比较常见的是从这些信息中提取出关键词及其权重。
搜索引擎未来的发展趋势
个性化搜索
搜索引擎未来的发展趋势
地理位置感知搜索
目前很多手机已经有GPS的应用了，这是基于地理位置感知的搜索，而且可以通过陀螺仪等设备感知用户的朝向，
基于这种信息，可以为用户提供准确的地理位置服务以
标题描述链接快照
3.0 搜索引擎工作原理
• 搜索引擎工作主要分为：
页面抓取（信息收集）页面分析（预处理）建立索引（预处理）页面排序（排名）
3.1抓取页面（信息收集）
• 这个工作主要由叫做“机器人（robot）”、“爬虫（crawler）”或者“蜘蛛（spider）”的程序，根据一定规则扫描存在于互联网上的网站，并沿着网页上的链接从一个网页到另一个网页，从一个网站到另一个网站。
及相关搜索服务。目前此类应用已经大行其道，比如手机地图app
搜索引擎未来的发展趋势
地理位置感知搜索
搜索引擎未来的发展趋势
跨语言搜索
如何将中文的用户查询翻译为英文查询，目前主流的方法有3种：机器翻译、双语词典查询和双语语料挖掘方法。
对于一个全球性的搜索引擎来说，具备跨语言搜索功能
是必然的发展趋势，而其基本的技术路线一般会采用查询翻译加上网页的机器翻译这两种技术手段
分类和多媒体数据搜索引擎。
搜索引擎未来的发展趋势
多媒体搜索
3.0 搜索引擎的工作原理
首先要知道用户搜索指令发出之后，搜索引擎反馈回的信息是以什么形式展现？
3.0 搜索引擎的工作原理
蜘蛛（spider）我们可以把它理解为千万只虫子（并可随时产卵）。它从各个站点提取网页内容，然后将内容传回搜索引擎的数据中心以便以后分析。
搜索引擎未来的发展趋势
跨语言搜索
搜索引擎未来的发展趋势
多媒体搜索
目前搜索引擎的查询还是基于文字的，即使是图片和视频搜索也是基于文本方式。那么未来的多媒体搜索技术则会弥补查询这一缺失。多媒体形式除了文字，主要包括图片、音频、视频。
多媒体搜索比纯文本搜索要复杂许多，一般多媒体搜索包含4个主要步骤：多媒体特征提取、多媒体数据流分割、多媒体数据
页面分析（预处理）
• 页面分析主要包括：
正文信息提取：主要是对标签和注释等信息的过滤{pc}标签
切词/分词：对页面内容进行切分，形成与用户查询条件相匹配的关
键字为单位的信息列表
• 匹配分词：和预设的海量词汇的“辞典”中的词比较，如果有匹配的词，则为命中。
• 统计分词：根据相邻的2个或者多个字（词）出现的概率判断这 2个字（词）是否会形成一个词。
搜索引擎基础
目录
1 搜索引擎的发展及现状
2
3
搜索引擎未来的发展趋势
搜索引擎工作原理Βιβλιοθήκη 1.0 搜索引擎的发展及现状
搜索引擎的产生
1990年：ARCHIE 出现，用于FTP检索 1993年：Word Wide Web Wanderer出现
1994年：Infoseek创立，稍后即正式推出搜索服务，并
允许站长向Infoseek提交网址。 1994年：美籍华人Jerry Yang（杨致远）和David Filo
共同创办了Yahoo（被认为搜索引擎的鼻祖）
19治牺牲品。搜狗：搜索产品一条龙。腾讯搜搜：只要你有，我就有。有道：只关注搜索。必应：将绑定进行到底。中搜：瞄准第三代搜索技术。
移动搜索
搜索引擎未来的发展趋势
个性化搜索
个性化搜索主要面临两个问题：如何建立用户的个人兴趣模型？在搜索引擎里如何使用这种个人兴趣模型。
个性化搜索的核心是根据用户的网络行为，建立一套准
确的个人兴趣模型。而建立这样一套模型，就要全民收集与用户相关的信息，包括用户搜索历史、点击记录、
浏览过的网页、用户email信息、收藏夹信息、用户发布
360综合搜索：拿来主义。
即刻搜索：关注民生。
2.0 搜索引擎未来的发展趋势
搜索引擎未来发展的七大趋势
1.社会化搜索。 2.实时搜索。
3.移动搜索。
4.个性化搜索。 5.地理位置感知搜索。
6.跨语言搜索。
7.多媒体搜索。
搜索引擎未来的发展趋势
社会化搜索
传统搜索技术强调搜索结果和用户需求的相关性，社会化搜索除了相关性外，还额外增加了一个维度，即搜索
3.2 建立索引（预处理）
• 关键字索引：在切词处理后，形成了关键字列表。关键字列表的每条记录包含：关键字、关键字编号、出现次数、在网页中的位置信息等。
• 为保证采集的资料最新，它还会回访已抓取过的网页。
• 这个工作是搜索引擎所有工作的基础
页面抓取的两种方式
吸引蜘蛛
• 网站的权重和PR值 • 网站的更新频率
• 页面的质量度
• 页面的连接数
页面存储
• 搜索引擎在存储原始页面时，不单只存储原始页面，还会存储其他的附加信息，例如：文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等
用户发布的信息第一时间能被搜索引擎搜索到。
搜索引擎未来的发展趋势
实时搜索
搜索引擎未来的发展趋势
移动搜索
随着智能手机的快速发展，基于手机的移动设备搜索日益流行，但移动设备有很大的局限性，比如屏幕太小，
可显示的区域不多，计算资源能力有限，打开网页速度
很慢，手机输入繁琐等问题都需要解决。
搜索引擎未来的发展趋势
页面收录原理
URL列表
抓取页面
提取URL
存储原始页面
用户提交
3.2 页面分析（预处理）
• 对页面内容进行分析，提取相关网页信息（包括网页所在 URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等）。主要就是提取用于排名处理的网页文字。
• 对页面正文内容进行“切词”，为这些词建立索引，得到页面和关键字之间的对应关系