搜索引擎基本工作原理
搜索引擎工作原理

搜索引擎工作原理搜索引擎是一种通过收集、存储、索引和呈现互联网上的信息来帮助用户找到所需信息的工具。
它们使用复杂的算法和技术来分析和组织互联网上的海量数据,并根据用户的查询提供相关的搜索结果。
下面将详细介绍搜索引擎的工作原理。
1. 网络爬虫搜索引擎的第一步是使用网络爬虫(也称为蜘蛛或机器人)来浏览互联网上的网页。
网络爬虫从一个初始的网址开始,然后按照链接逐个访问其他网页,并将这些网页的内容下载下来。
爬虫会遵循互联网上的链接,以便尽可能地覆盖更多的网页。
爬虫还会更新已经被索引的网页,以便获取最新的信息。
2. 网页索引一旦爬虫下载了网页的内容,搜索引擎会将这些内容存储在一个被称为索引的数据库中。
索引是搜索引擎的核心组成部分,它包含了关键词、网页的URL、摘要和其他相关信息。
索引使得搜索引擎能够快速地找到相关的网页,并根据用户的查询返回相关的搜索结果。
为了建立索引,搜索引擎会对网页的内容进行分析和处理。
它们会将网页的文本提取出来,并去除HTML标签和其他噪音。
然后,搜索引擎会对文本进行分词,将文本划分为单词或短语。
这些单词或短语被称为关键词,它们是搜索引擎用来匹配用户查询的重要依据。
3. 搜索算法搜索引擎使用复杂的算法来确定哪些网页与用户的查询最相关。
这些算法会考虑多个因素,例如关键词的出现频率、关键词的位置、网页的质量和权威性等。
搜索引擎还会使用一些技术来过滤垃圾信息和欺诈性网页,以提供高质量的搜索结果。
4. 搜索结果排名搜索引擎会根据算法的结果对搜索结果进行排名。
排名决定了搜索结果在搜索引擎页面上的显示顺序。
通常,排名靠前的搜索结果被认为是最相关的。
搜索引擎会根据用户的查询和网页的相关性对搜索结果进行排序,并将最相关的结果显示在前几页。
5. 用户体验和反馈搜索引擎还会考虑用户的体验和反馈来不断改进搜索结果的质量。
它们会收集用户的点击行为、停留时间和搜索历史等信息,并根据这些信息来优化搜索结果的排序和相关性。
搜索引擎基本工作原理

搜索引擎基本工作原理目录1工作原理2搜索引擎3目录索引4百度谷歌5优化核心6SEO优化▪网站url▪ title信息▪ meta信息▪图片alt▪ flash信息▪ frame框架1工作原理搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
1、抓取网页。
每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。
爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。
被抓取的网页被称之为网页快照。
由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。
其中,最重要的就是提取关键词,建立索引库和索引。
其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
搜索引擎基本工作原理2搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上搜索信息的工具。
它通过采集、索引和排序互联网上的网页内容,为用户提供相关的搜索结果。
搜索引擎的工作原理可以简单地分为三个步骤:抓取网页、建立索引和提供搜索结果。
1. 抓取网页搜索引擎通过网络爬虫(也称为蜘蛛或者机器人)来抓取互联网上的网页。
网络爬虫会按照一定的规则从一个网页转到另一个网页,将网页的内容下载下来。
爬虫会根据网页中的链接不断地跳转到其他网页,形成一个爬行路径,以获取尽可能多的网页内容。
2. 建立索引抓取下来的网页内容会被搜索引擎进行处理和分析,以建立一个庞大的网页索引。
索引是一种结构化的数据存储方式,它会记录每一个网页的关键信息,如标题、摘要、URL和关键词等。
搜索引擎会对网页内容进行分词处理,将关键词和对应的网页进行关联。
这样,当用户搜索关键词时,搜索引擎可以快速地找到相关的网页。
3. 提供搜索结果当用户输入关键词进行搜索时,搜索引擎会根据用户的需求从建立的索引中匹配相关的网页。
搜索引擎会根据一系列的算法,对匹配的网页进行排序,并将最相关的网页展示给用户。
排序算法会考虑多个因素,如关键词的浮现频率、网页的权重和链接的质量等。
搜索引擎还会提供一些搜索结果的过滤选项,如时间范围、文件类型和地域等,以满足用户的个性化需求。
搜索引擎的工作原理虽然看似简单,但实际上暗地里涉及了复杂的技术和算法。
为了提高搜索结果的质量和准确性,搜索引擎公司会不断地改进和优化搜索引擎的工作原理。
他们会利用机器学习和人工智能等技术,不断提升搜索引擎的智能化水平,以更好地满足用户的搜索需求。
搜索引擎的工作原理是什么

搜索引擎的工作原理是什么
搜索引擎的工作原理是通过自动化程序(也称为爬虫或蜘蛛)来扫描互联网上的网页,并将这些网页的内容存储在一个巨大的数据库中。
当用户输入关键词进行搜索时,搜索引擎会根据关键词在数据库中的索引进行匹配,并返回与关键词相关的网页列表给用户。
搜索引擎的工作过程可以概括为以下几个步骤:
1. 爬取:搜索引擎的爬虫程序会从互联网上自动爬取网页,并将这些网页的内容下载下来。
2. 索引:搜索引擎会对下载的网页进行处理,并提取其中的主要信息(如标题、正文、链接等),然后将这些信息存储在一个倒排索引的数据库中。
倒排索引根据关键词建立索引,将关键词与对应的网页进行关联。
3. 排名:当用户输入关键词进行搜索时,搜索引擎会根据索引中的关键词进行匹配,找到与关键词相关的网页。
搜索引擎会根据一系列算法对这些相关网页进行排序,以确定搜索结果的排名。
排名的依据通常包括关键词的频率、位置、网页的质量和权威度等因素。
4. 显示结果:搜索引擎会根据排名结果将相关的网页列表展示给用户。
搜索结果通常以页面的标题、摘要和网址的形式呈现,用户可以通过点击链接来访问相关的网页。
以上是搜索引擎的基本工作原理,不同的搜索引擎可能有不同的算法和技术来改进搜索结果的质量和准确性。
搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于帮助用户在互联网上查找信息的工具。
它通过收集、索引和排序互联网上的网页,以便用户能够快速准确地找到他们需要的信息。
搜索引擎的工作原理可以简单概括为以下几个步骤:抓取、索引和检索。
1. 抓取(Crawling):搜索引擎会使用自动化的程序,称为爬虫(Spider)或蜘蛛(Crawler),从互联网上抓取网页。
这些爬虫会按照事先设定的规则,从一个网页跳转到另一个网页,不断地抓取新的网页并将其存储在搜索引擎的数据库中。
2. 索引(Indexing):抓取到的网页会经过处理,提取出其中的关键信息,并建立索引。
索引是一个包含了大量关键词和对应网页的数据库。
搜索引擎会根据这个索引来快速定位用户搜索的内容。
3. 检索(Retrieving):当用户输入一个查询词或关键词时,搜索引擎会根据索引中的信息进行匹配,并返回与查询相关的网页列表。
搜索引擎使用一系列算法和排名因素来确定哪些网页最相关,并将其排在搜索结果的前面。
搜索引擎的工作原理背后涉及到许多复杂的技术和算法,下面我们来详细介绍一些常用的技术和算法:1. 关键词匹配:搜索引擎会将用户查询词与索引中的关键词进行匹配。
匹配算法会考虑词频、词序、词距等因素,以确定网页与查询的相关程度。
2. 倒排索引:搜索引擎使用倒排索引来加快搜索速度。
倒排索引是一种将关键词与网页的对应关系反转的数据结构。
通过倒排索引,搜索引擎可以快速找到包含特定关键词的网页。
3. 算法排序:搜索引擎会根据一系列算法和排名因素来确定搜索结果的排序。
这些算法会考虑网页的质量、权威性、相关性等因素,并将最相关的网页排在搜索结果的前面。
4. 网页去重:搜索引擎会对抓取到的网页进行去重处理,以避免在搜索结果中显示相同的内容。
5. 高级搜索功能:搜索引擎还提供了一些高级搜索功能,如语义搜索、图片搜索、新闻搜索等。
这些功能通过使用更复杂的算法和技术,使用户能够更精确地找到他们需要的信息。
搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上查找和获取信息的工具。
它通过索引互联网上的网页并根据用户的搜索关键词返回相关的搜索结果。
搜索引擎的工作原理可以分为以下几个步骤:1. 网页抓取与索引搜索引擎首先通过网络爬虫(也称为蜘蛛或者机器人)从互联网上抓取网页。
网络爬虫会按照一定的规则遍历互联网上的链接,并将抓取到的网页保存到搜索引擎的数据库中。
这些网页被称为索引。
2. 关键词提取与索引构建在抓取到的网页中,搜索引擎会提取出网页中的关键词。
关键词可以是浮现频率较高的词语或者是特定的词组。
搜索引擎使用一种称为倒排索引的数据结构来构建索引。
倒排索引将关键词与包含这些关键词的网页进行关联,以便快速检索。
3. 查询处理当用户输入搜索关键词后,搜索引擎会对用户的查询进行处理。
它会对查询进行分词,将查询中的词语分解成一个个的关键词。
搜索引擎还会对查询进行语义分析,以理解用户的意图。
例如,对于一个查询“如何学习编程”,搜索引擎可以理解用户是在寻觅学习编程的方法。
4. 检索与排名搜索引擎根据用户的查询在索引中查找包含相关关键词的网页。
它会使用一系列的算法来对这些网页进行排序,以确定哪些网页最相关。
搜索引擎的排名算法通常会考虑网页的关键词密度、网页的质量和权威性等因素。
排名较高的网页会在搜索结果中显示在前面。
5. 结果展示搜索引擎会将排名较高的网页作为搜索结果返回给用户。
搜索结果通常包括网页的标题、摘要和网址等信息。
搜索引擎还会根据用户的搜索习惯和历史记录来个性化展示搜索结果。
6. 搜索引擎优化搜索引擎优化(SEO)是一种通过优化网页内容和结构,以提高网页在搜索引擎中的排名的技术。
网站所有者可以通过合理的优化措施来提高网站在搜索引擎中的可见度和流量。
总结:搜索引擎的工作原理涉及网页抓取与索引、关键词提取与索引构建、查询处理、检索与排名以及结果展示等步骤。
搜索引擎通过这些步骤将用户输入的搜索关键词与互联网上的网页进行匹配,并返回相关的搜索结果。
搜索引擎的工作原理

搜索引擎的工作原理搜索引擎是一种用于在互联网上查找信息的工具。
它通过采集、索引和排序互联网上的网页,以便用户能够快速、准确地找到所需的信息。
下面将详细介绍搜索引擎的工作原理。
一、网络爬虫搜索引擎的工作始于网络爬虫,也被称为蜘蛛或者机器人。
网络爬虫是一种自动化程序,它会按照预定的规则从互联网上下载网页。
爬虫从一个种子URL开始,然后通过解析网页中的链接,逐步扩展到其他网页。
爬虫会定期访问网页,以确保索引的内容是最新的。
二、网页索引爬虫下载的网页会被送往搜索引擎的索引程序进行处理。
索引程序会提取网页的关键信息,并创建一个包含这些信息的索引数据库。
这个数据库类似于一本巨大的目录,记录了互联网上的各个网页的关键词、标题、摘要和链接等信息。
索引程序还会对这些信息进行分析和处理,以提高搜索结果的质量。
三、关键词匹配当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会将这些关键词与索引数据库中的内容进行匹配。
搜索引擎会根据关键词的相关性和网页的权威性来确定搜索结果的排序。
关键词的相关性是指关键词与网页内容的匹配程度。
搜索引擎会将关键词与网页的标题、正文和链接等进行比对,以确定网页与关键词的相关性。
通常情况下,如果一个网页中包含了用户搜索的关键词,并且关键词在网页中的位置较为靠前,那末这个网页就会被认为与关键词的相关性较高。
网页的权威性是指网页在互联网上的信誉和影响力。
搜索引擎会根据网页的外部链接数量和质量来评估网页的权威性。
如果一个网页被其他网页广泛引用,那末搜索引擎就会认为这个网页的权威性较高。
四、搜索结果页面当搜索引擎确定了搜索结果的排序后,它会将这些结果展示给用户。
搜索结果页面通常包含了多个搜索结果,每一个搜索结果都包括了网页的标题、摘要和链接等信息。
用户可以点击链接来访问他们感兴趣的网页。
搜索结果页面还可能包含一些相关的搜索建议、广告和其他相关信息。
搜索引擎会根据用户的搜索行为和个人资料来定制搜索结果页面,以提供更加个性化和实用的搜索结果。
搜索引擎工作原理

搜索引擎工作原理搜索引擎是现代互联网时代不可或缺的工具,它能够为用户提供海量的信息并根据用户的需求进行智能的筛选和排序。
但是,你是否曾经想过搜索引擎是如何工作的呢?本文将向你介绍搜索引擎的基本工作原理。
一、爬虫程序搜索引擎的工作以爬虫程序为基础,它负责收集和整理互联网上的网页信息。
爬虫程序通过互联网上的超链接进行网页的抓取和索引。
当用户在搜索引擎中输入关键词后,爬虫程序会开始工作。
二、关键词匹配用户输入的关键词经过搜索引擎后台的算法处理,与爬虫程序抓取的网页内容进行关键词匹配。
搜索引擎会根据关键词的相关性,给出一系列与关键词相关的网页。
三、网页排名网页排名是搜索引擎工作的核心,也是用户最关注的部分。
搜索引擎会根据一系列的算法对搜索结果进行排序,最相关的网页会排在前面。
这些算法包括关键词密度、网页质量、外部链接等因素。
四、索引库索引库是搜索引擎内部的一个重要组成部分,它存储了爬虫程序所抓取的网页内容。
索引库提供了更高效的搜索速度和更精准的搜索结果。
搜索引擎会对网页内容进行分析和索引,以方便后续的关键词匹配和网页排名。
五、用户体验搜索引擎还十分注重用户体验,它会根据用户的搜索历史和地理位置等信息,提供更个性化的搜索结果。
搜索引擎还会根据用户的反馈不断优化算法,提升搜索体验,并推出更多的搜索功能,如图片搜索、视频搜索等。
六、搜索广告搜索引擎的商业模式之一是搜索广告。
在搜索结果中,搜索引擎会以明显的标识显示广告内容,这些广告是根据用户的关键词和搜索行为进行定向投放的。
搜索广告不仅提供了商业机会,也为搜索引擎的运营提供了巨大的收入来源。
综上所述,搜索引擎通过爬虫程序收集和索引互联网上的网页信息,利用关键词匹配和网页排名的算法,提供用户所需的搜索结果。
搜索引擎还通过优化用户体验和推出搜索广告等方式不断发展和改善。
随着人工智能和大数据技术的不断发展,搜索引擎的工作原理也在不断演进。
相信在未来,搜索引擎将为用户提供更加智能化和个性化的搜索服务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎基本原理一.全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
二.目录索引与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。
而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
尤其象Yahoo!这样的超级索引,登录更是困难。
(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,搜索引擎与目录索引有相互融合渗透的趋势。
原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。
而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。
在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
搜索大法——浅谈搜索引擎一、什么叫搜索引擎?在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅。
当然你可以为你的存在做广告,可以用大大的字把你的URL刻在你的身体上,然后裸体穿过白宫草坪,但你得保证媒体正好在那里,并注视到了这一切。
与其这样做,不如好好去理解搜索引擎是如何工作的?又怎样选择和使用"keywords"(关键词)等等。
本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。
"搜索引擎"这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。
1、目录目录(比如Yahoo!)返回的列表是由人工来编排的。
这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍(摘要可能是你提交过去的,也可以是引擎站点的编辑为你的站点所做的评价)。
人们搜索时就按相应类别的目录查询下去。
这类引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框和一个按钮。
我们可以在文字框中输入要查找的字、词或短语,再点击按钮,便会在目录中查找相关的站名、网址和内容提要,将查到的内容列表送过来。
目前国内Sohoo、常青藤等都是这种搜索方式。
2、搜索引擎搜索引擎看起来与目录的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同,而且有些也提供分类目录,但两者却有本质上的区别。
目录的资料库中,搜集保存的是各网站的站名、网址和内容提要;搜索引擎的资料库中,搜集保存的则是各网站的每一个网页的全部内容,范围要大得多。
搜索引擎是以全文检索的方式工作的。
全文检索查到的结果不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网页的地址和一小段文字。
在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是一段无法看懂的标记,但在这个网页中,一定有你所输入的那个关键词,或者相关的词汇。
打个比方说,网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。
3、两者相结合的搜索引擎某些搜索引擎同时也提供目录。
包含在搜索引擎中的目录通常质量比较高,也能从那里找到许多好站点。
因为即使你把你的站点提交过去,也并不能保证一定被加到目录中去,他们把注意力放在那些已经在别的目录中存在的站点上,并有选择地寻找有吸引力的加到自己的目录中。
搜索引擎和目录各有各自不可替代的功用。
目录比较简单,要想获得一个好的排列层次,除了你努力创建一个好内容的高品质站点外别无他法。
搜索引擎复杂得多,它们随时都在自动地索引众多WEB站点的最新网页,所以常常会发现目录所不能得到的信息。
如果你改动了你的页面,搜索引擎还随时会发现这个变化,并重新排列你在列表中的位置。
而目录就做不到。
下面专门讨论搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
二、搜索引擎是如何工作的?搜索引擎有三个主要的基本部分。
1、搜索引擎蜘蛛搜索引擎首先利用的是一种俗称蜘蛛(Spider)或爬虫(Crawler)的软件。
搜索引擎蜘蛛访问到一个页面,读取它,然后跟随这个页面链接到这个站点的其他页面,这就是人们所说的站点被套住了或者被爬过了。
蜘蛛会按照固定的时间不断的回来访问这个站点,如每月或每两个月,以便查看页面的变化。
2、索引蜘蛛所找到的每一个页面放入搜索引擎的第二部分--索引。
索引也可以说是目录册,就像一本巨大的书,书中包含了蜘蛛所找到的每个Web页的拷贝。
如果Web页改变了,这本书当然也会更新。
但有时蜘蛛发现了新的Web页和Web页的变化,并不是马上加到索引中去,当中间隔一段时间,就是说一个Web页被爬过了,但却不能被索引,直到这个Web页被加到了索引里才可用于搜索引擎的搜索。
3、分析软件搜索引擎分析软件是一个搜索引擎的第三部分。
这个程序详细审查记录在索引中的成百上亿的Web页,找出与搜索要求相匹配的那些,并按他认为最合适的相关性排列出列表,呈现在冲浪者的面前。
三、搜索引擎如何排列Web页面用你所喜欢的搜索引擎搜索任何东西,搜索引擎几乎立刻就从他知道的几百万的页面中挑选出与你的主题相匹配的那些,呈现在你的荧屏上。
这些网页按一定的顺序排列起来,最相关的排在最前面。
但搜索引擎并不是图书管理员,他没有能力一再地询问有关的问题来更好地定位搜索的目标,也不能依靠智力判断和过去的经验来排列网页,而人可以做到。
智能化是发展的方向,但还有一段很长的路要走。
那么搜索引擎是怎样决定相关性的呢?他们依靠一套规则,主要的规则是页面中关键词出现的位置和频率,我们把这称做"位置/频率法"。
1、位置如果你到图书馆去寻找有关旅游方面的书,管理员首先会去查找题目中有"旅游"的书籍。
搜索引擎也一样,关键词(即"旅游")出现在题目(Title)中的页面比那些Title中不出现关键词的页面更相关。
搜索引擎还会检查关键词是否出现在页面的顶部,如文章标题中或前面的几个段落。
他们认为与搜索主题相关的页面在开始都会提到那些词语。
2、频率频率是相关性的另外一个主要因素。
搜索引擎会分析页面中关键词相对其他词语所出现的频率,频率越高,就越具相关性。
3、搜索引擎在排列网页时有一定的差异所有的搜索引擎都有以上提到的三个基本部分,在一定程度上都符合“位置/频率法”,但在具体实施上又有区别,这就是为什么我们用不同的搜索引擎做同样的搜索时会产生不同结果的原因。
首先,有些搜索引擎会索引到更多的Web页面,有些又会比其他引擎更新索引的频率快,所以搜索引擎索引中不可能收集完全一样的Web页面。
其次,出于某种原因,有些搜索引擎也可能给某些Web页面在排列层次上有优先权。
如Excite用链接的流行度作为排列网页的一个因素,他知道在索引中哪些页面有许多指向他们的链接,他在排列时就给这些页面小小的奖励,将他们适当提前。
这也是合理的,因为在Internet上有越多指向他们的链接,就说明这些页面更被大家看重。
另外,一些混合结构(搜索引擎和目录共存)的搜索引擎可能会把那些目录中已存在的站点的网页靠前,理由是一个站点足够好才能放到目录中,就应该有机会比那些不被列在目录中的站点的网页靠前。
最后要强调的是,许多Web页面设计者错误地认为"Meta tags"是将Web页提到列表前列的秘密,实际上有些搜索引擎会把那些"Meta tags"中有keywords 的页面靠前,有些搜索引擎根本就不读"Meta tags"。
"Meta tags"是解决问题的一个方面,但并不是什么必需的绝密武器。
四、如何提高Web页面的相关性搜索引擎的一次搜索会返回成百上千的相关网页,一般情况下首先呈现出来的是10个最相关的页面。
任何站点都想被列在前10位,因为大多数的用户都喜欢从前10位中找到他所要的结果,排在第11位以下就意味着许多人不会访问到你的站点。
下面就来看看如何能使你的网页排在列表前列。
1、选择合适的关键词(Keywords)大胆地设想别人在搜索引擎的搜索框内正好输入的是你页面的Title中选择的关键词,那该多好啊!例如,如果你有一个有关邮票收藏的网页,如果你想别人任何时候在搜索框里输入"邮票收藏"时你能排在前10位,那么就为这个页面选择"邮票收藏"这个关键词吧!网站的每一个页面都应该有反映网页内容的关键词,并且关键词至少由2个以上的字或词组成。