网络爬行蜘蛛定义及原理讲解

合集下载

搜索引擎spider爬虫(蜘蛛)原理

搜索引擎spider爬虫(蜘蛛)原理

搜索引擎spider爬⾍(蜘蛛)原理做SEO的⼈应该要对搜索引擎的基本原理有⼀些了解,从搜索引擎发现⽹址到该页⾯拥有排名,以及后续更新整个过程中,搜索引擎到底是怎么⼯作的?你都需要了解。

对于专业的算法不必进⾏深⼊的研究,但是对于搜索引擎⼯作中的⽣命⼒和算法原理要有个简单的认知,这样才能更有效地开展SEO⼯作,知其然也要知其所以然;当然也有⼀些朋友不懂这些,照样做昨有声有⾊,但是有对搜索引擎⼯作原理,懂总⽐不懂好⼀点。

以往的SEO书藉中对这内容讲解都⽐较简单,希望在些能够尝试结合SEO实际⼯作和现象,更进⼀步剖析⼀下搜索引擎的⼯作原理,其实当你了解了搜索引擎的⼯作流程、策略和基本算法后,就可以在⼀定程序上避免因为不当操作⽽带来的不必要处罚,同也可以快速分析出很多搜索引擎搜索结果异常的原因。

有搜索⾏为的地⽅就有搜索引擎,站内搜索、全⽹搜索、垂直搜索等都⽤到搜索引擎;接下来,本⽂会根据从业认知,讨论⼀下全⽂搜索引擎的基本架构。

百度、⾕歌等综合搜索巨头肯定有着更为复杂的架构和检索技术,但宏观上基本原理都差不多的。

搜索引擎的⼤概架构如图2-1所⽰。

可以分成虚线左右两个部分:⼀部分是主动抓取⽹页进⾏⼀系列处理后建⽴索引,等待⽤户搜索;另⼀部分是分析⽤户搜索意图,展现⽤户所需要的搜索结果。

搜索引擎主动抓取⽹页,并进⾏内容处理、索引部分的流程和机制⼀般如下:1.派出spider按照⼀定策略把⽹页抓回到搜索引擎服务器;2.对抓回的⽹页进⾏链接抽离、内容处理,削除噪声、提取该页主题⽂本内容等;3.对⽹页的⽂本内容进⾏中⽂分词、去除停⽌词等;4.对⽹页内容进⾏分词后判断该页⾯内容与已索引⽹页是否有重复,剔除重复页,对剩余⽹页进⾏倒排索引,然后等待⽤户的检索。

当有⽤户进⾏查询后,搜索引擎⼯作的流程机制⼀般如下:1.先对⽤户所查询的关键词进⾏分词处理,并根据⽤户的地理位置和历史检索特征进⾏⽤户需求分析,以便使⽤地域性搜索结果和个性化搜索结果展⽰⽤户最需要的内容;2.查找缓存中是否有该关键词的查询结果,如果有,有为最快地呈现查询,搜索引擎会根据当下⽤户的各种信息判断其真正需求,对缓存中的结果进⾏微调或直接呈现给⽤户;3.如果⽤户所查询的关键词在缓存中不存在,那么就在索引库中的⽹页进⾏调取排名呈现,并将该关键词和对应的搜索结果加⼊到缓存中;4.⽹页排名是⽤户的搜索词和搜索需求,对索引库中⽹页进⾏相关性、重要性(链接权重分析)和⽤户体验的⾼低进⾏分析所得出的。

网络爬行蜘蛛定义及原理讲解

网络爬行蜘蛛定义及原理讲解

网络爬行蜘蛛定义及原理讲解当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。

它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。

由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。

所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

网络蜘蛛什么是网络蜘蛛呢?网络蜘蛛即Web Spider,是一个很形象的名字。

把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。

起源发展要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。

搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。

英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。

搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。

十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。

在它之后才出现了雅虎,直至我们现在熟知的Google、百度。

但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。

从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。

百度蜘蛛爬行原理

百度蜘蛛爬行原理

百度蜘蛛爬行原理百度蜘蛛,是百度搜索引擎的一个自动程序。

它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

(1)通过百度蜘蛛下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。

(2)深度优先和权重优先,百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。

百度蜘蛛在从首页登陆后抓取首页后调度会计算其中所有的连接,返回给百度蜘蛛进行下一步的抓取连接列表,百度蜘蛛再进行下一步的抓取,网址地图的作用是为了给百度蜘蛛提供一个抓取的方向,来左右百度蜘蛛去抓取重要页面,如何让百度蜘蛛知道那个页面是重要页面?可以通过连接的构建来达到这个目的,越多的页面指向该页,网址首页的指向,副页面的指向等等都能提高该页的权重,地图的另外一个作用是给百度蜘蛛提供更多的链接来达到抓去更多页面的目的,地图其实就是一个链接的列表提供给百度蜘蛛,来计算你的目录结构,找到通过站内连接来构建的重要页面。

补充数据到主检索区的转变:在不改变板块结构的情况下,增加相关连接来提高网页质量,通过增加其他页面对该页的反向连接来提高权重,通过外部连接增加权重。

如果改变了板块结构将导致seo的重新计算,所以一定不能改变板块结构的情况下来操作,增加连接要注意一个连接的质量和反向连接的数量的关系,短时间内增加大量的反向连接将导致k站,连接的相关性越高,对排名越有利。

蜘蛛爬行原理

蜘蛛爬行原理

蜘蛛爬行原理搜索引擎蜘蛛我们通常称它为机器人,是一种能够自己抓取网站,下载网页的程序。

它可以访问互联网上的网页、图片、视频等内容,喜欢收集对用户有用的内容。

百度蜘蛛,它的作用是访问互联网上的HTML网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。

可见,SEO技术网站优化少不了蜘蛛的爬行,而蜘蛛的爬行原理,爬行习惯,从一个链接访问,到所有很多人认为的是搜索引擎的爬行,是越靠近左上角的链接权重越高。

其实这个也有一定的误区,链接越靠前也算是蜘蛛越容易爬行,这是对的,但是在与网站的管理网站的分布,布局来说很多方面上没有做到这一点,其中最为流行的div+css是可以实现的,从右到左,从下到上的布局。

而蜘蛛对与新站老站的爬行习惯爬行的深度是不一样的,新站可以说爬行的非常浅,但是对于一个权重很高的网站爬行的深度抓取的信息越来越多,这对于新站竞争老站有一定的难度。

可见,对于蜘蛛每次来爬行你的网站的时候,其中他们的深度与内容都是一致的,这会导致蜘蛛爬行的频率越来越低,权重也不会上去,你知道权重的提升也是蜘蛛爬行的次数。

如何改进,改进层次结构低层次,内容的改变,所以这一点需要网站的更新来完成,每次蜘蛛来网站的时候收录的情况爬行的内容是不一样的,文字的数量,文字的不同文章的增多,内容的丰富越多给你一定的权重。

完成每一个页面都有一个较高的权重。

一般来说百度搜索引擎是每周更新,网页重要性有不同的更新频率,频率在几天至一月之间,baiduspider会重新访问和更新一个网页。

上面内容的整理和分析,内链和目录调整,达到收录率提升,也会蜘蛛更好的访问到你的网站。

搜索引擎是人为的技术。

我们也是需要的这些数据的分析,应能更好的分析数据,完成我们站长的需求,百度蜘蛛的再次爬行,可以促进你网站的价值观,一个网站的完成的网站需要做的就是这些。

蜘蛛的爬行完全是需要新奇的东西,新奇的首页,蜘蛛才会经常来到你的网站,也会给你一定的排名。

网络爬虫工作原理

网络爬虫工作原理

网络爬虫工作原理
网络爬虫,又称网络蜘蛛或网络爬行器,是一种自动化程序,用于在互联网上收集信息。

其工作原理可以概括为以下几个步骤:
1. 首先,爬虫程序会选择一个初始的网页作为起点,通常是通过人工指定或从一个列表中选择。

2. 接着,爬虫程序会通过发送HTTP请求,获取起点网页的内容。

这个请求通常由程序模拟成一个普通的浏览器请求,以获取到完整的网页数据。

3. 爬虫程序会对获得的网页内容进行分析和解析,提取出其中的链接形成一个链接池。

这些链接可以是其他网页的URL,也可以是其他资源(如图片、视频等)的URL。

4. 爬虫程序从链接池中选择一个新的链接,并重复第二和第三步,以便获取更多的网页内容和链接。

5. 爬虫程序会不断地重复第四步,直到满足某个停止条件,比如达到指定的网页数量或深度,或者达到了设定的时间限制。

6. 在爬取网页的同时,爬虫程序还会对已经爬取的网页内容进行处理和存储,以便后续的数据分析和使用。

需要注意的是,爬虫程序在进行网页爬取时,需要遵守一定的
道德和法律规范,不得进行恶意攻击、大量请求等行为,以免对网站和服务器造成不必要的负担和损害。

Python网络爬虫技术 第1章 Python爬虫环境与爬虫介绍

Python网络爬虫技术 第1章 Python爬虫环境与爬虫介绍
Agent值伪装成一般用户登录网站时使用的User-Agent值。 ➢ 调整访问频度:通过备用IP测试网站的访问频率阈值,然后设置访问频率比阈值略低。这种方法既能保证
大数据挖掘专家
12
网站反爬虫的目的与手段
3. 通过验证码校验反爬
有部分网站不论访问频度如何,一定要来访者输入验证 码才能继续操作。例如12306网站,不管是登陆还是购 票,全部需要验证验证码,与访问频度无关。
大数据挖掘专家
13
网站反爬虫的目的与手段
4. 通过变换网页结构反爬
一些社交网站常常会更换网页结构,而爬虫大部分情况下都需要通过网页结构来解析需要的数据,所以这种 做法也能起到反爬虫的作用。在网页结构变换后,爬虫往往无法在原本的网页位置找到原本需要的内容。
树形式,将表单区分为单属性表单和多属性表单,分别进行处理,从中提取表单各字段值。
大数据挖掘专家
7
爬虫的合法性与robot.txt协议
1. 爬虫的合法性
目前,多数网站允许将爬虫爬取的数据用于个人使用或者科学研究。但如果将爬取的数据用于其他用途,尤 其是转载或者商业用途,严重的将会触犯法律或者引起民事纠纷。 以下两种数据是不能爬取的,更不能用于商业用途。 ➢ 个人隐私数据:如姓名、手机号码、年龄、血型、婚姻情况等,爬取此类数据将会触犯个人信息保护法。 ➢ 明确禁止他人访问的数据:例如用户设置了账号密码等权限控制,进行了加密的内容。 还需注意版权相关问题,有作者署名的受版权保护的内容不允许爬取后随意转载或用于商业用途。
11
网站反爬虫的目的与手段
2. 通过访问频度反爬
➢ 普通用户通过浏览器访问网站的速度相对爬虫而言要慢的多,所 以不少网站会利用这一点对访问频度设定一个阈值,如果一个IP 单位时间内访问频度超过了预设的阈值,将会对该IP做出访问限 制。

爬虫的名词解释

爬虫的名词解释

爬虫的名词解释
爬虫,也叫网络爬虫或网络蜘蛛,是一种程序,可以自动地从互联网上抓取网页数据。

通俗地说,就是一个自动化的程序,它可以像蜘蛛一样爬行在网页上,收集网页信息并存储在本地或远程数据库中。

爬虫的工作流程一般包括以下几个步骤:首先,指定需要爬取的网站和页面。

然后,爬虫程序通过HTTP协议向目标网站发送请求,并获
取响应数据。

接着,对响应数据进行解析和提取,将所需的数据存储到本地或云端数据库中。

最后,对存储的数据进行分析和处理。

爬虫技术在互联网数据采集、搜索引擎优化、信息监测等领域发挥着重要的作用。

但是,由于爬虫程序可以快速、大量地抓取网页数据,也容易对网站造成不必要的访问压力和数据盗取风险,因此在使用爬虫技术时需要遵循相关的法规和伦理规范。

搜索引擎基础知识蜘蛛基础知识

搜索引擎基础知识蜘蛛基础知识

搜索引擎基础知识|蜘蛛基础知识 第1章基础篇任何一门学科,基础知识都是非常重要的,只有在掌握了大量的基础知识之后,才会在实践中游刃有余。

本章主要介绍SEO的定义、国内主要搜索引擎简介、搜索引擎的工作原理、SEO与网络营销以及常见的SEO术语和专业的搜索引擎指令。

通过阅读本章,读者可以对SEO概念有一个大致的了解。

当然,如果读者已经对这方面比较熟悉,可以跳过本章,直接进入第2章站内篇。

1.1什么是SEOSEO是英文Search Engine Optimization的缩写,中文翻译为“搜索引擎优化”。

简单地说,SEO就是从搜索引擎上获得流量的技术。

搜索引擎优化的主要工作包括:通过详细了解搜索引擎的工作原理、如何在浩瀚的网页流中爬取网页、如何进行索引以及如何确定某一关键词排名位置从而对网页内容进行科学的优化,使其符合用户浏览习惯,在不损害用户体验的情况下提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。

所谓“针对搜索引擎优化处理”是为了要让网站更容易被搜索引擎认可。

搜索引擎会将网站彼此间的内容做一些相关性的分析对比,然后再由浏览器将这些内容以最快速且近乎最完整的方式,呈现给搜索者。

不少研究者发现,搜索引擎的用户往往只会留意搜索结果最开始的几项条目,所以很多商业网站都希望通过各种方式来干扰搜索引擎的排序,其中以依靠各种广告为生的网站居多。

目前SEO技术被很多目光短浅的人,用一些SEO作弊的不正当手段,牺牲用户体验,一味地迎合搜索引擎的缺陷来提高排名,这种SEO方法是不可取的,最终也会受到用户的唾弃。

网站的优化分为站内优化和站外优化两部分。

站内优化指的是站长能控制网站本身所有细节的调整,如网站结构、页面HTML代码、服务器设置、文章优化等。

站外优化指的是外部链接建设及行业社群的参与互动,这些活动不在网站本身进行的。

获得和提高关键词自然排名是SEO效果的表现之一,但最终目的是获得搜索2网站运营直通车——7天精通SEO流量,没有流量的排名是没有意义的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络爬行蜘蛛定义及原理讲解当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。

它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。

由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。

所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

网络蜘蛛什么是网络蜘蛛呢?网络蜘蛛即Web Spider,是一个很形象的名字。

把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。

起源发展要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。

搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。

英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。

搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。

十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。

在它之后才出现了雅虎,直至我们现在熟知的Google、百度。

但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。

从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。

搜索引擎原型初显如果要追溯的话,搜索引擎的历史比WorldWideWeb 还要长。

早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。

这些资源当时主要存在于各种允许匿名访问的FTP站点。

为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。

它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。

Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。

Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。

当万维网(WorldWideWeb)出现后,人们可以通过html传播网页信息,网络上的信息开始成倍增长。

人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。

现在人们很熟悉的网站雅虎(Y ahoo)就是在这个环境下诞生的。

还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。

他们将互联网上有趣的网页搜集过来,与同学一起分享。

后来,1994年4月,他们俩共同办了雅虎。

随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。

但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。

它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。

由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。

所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。

第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。

现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。

1994年7月20日发布的Lycos网站第一个将“蜘蛛”程序接入到其索引程序中。

引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。

自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。

Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。

起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Y ahoo!和Lycos的概念,并没有什么独特的革新。

但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。

1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Y ahoo!提供该服务。

1995年12月15日,Alta Vista正式上线。

它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。

正式公开之前,Alta Vista就已经拥有20万访问用户,在短短三个星期之内,到访人数由每天30万次增加到200万次。

它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta V ista小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。

在当时许多搜索引擎之中,Alta Vista脱颖而出,成为网络搜索的代名词。

Google就是站在这样的巨人的肩膀上颠覆并创造着。

“上网即搜索”改变了人们上网方式的,就是现在鼎鼎大名的Google。

Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。

1998年9月,在佩奇和布林创建Google之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。

这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。

佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。

即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。

当从网页A链接到网页B时,Google 就认为“网页A投了网页B一票”。

Google根据网页的得票数评定其重要性。

然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。

Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。

没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。

除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。

其他众多搜索引擎也都紧跟Google,推出这些服务。

Fast(Alltheweb)公司发布的搜索引擎AllTheWeb,总部位于挪威,其在海外的风头直逼Google。

Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。

而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。

搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。

搜索引擎的三个基本原理1.利用蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3.当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容描述等内容组织起来返回给用户。

工作原理对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。

这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。

同时,由于数据量太大,在提供搜索时也会有效率方面的影响。

因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。

这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

这个方法有个优点是网络蜘蛛在设计的时候比较容易。

两种策略的区别,下图的说明会更加明确。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。

例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H 属于第2层,I属于第3层。

如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。

这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。

对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

相关文档
最新文档