认识网站中的robots与网站地图

合集下载

什么是robots文件

robots文件全名叫做robots.txt是网站和搜索引擎之间的协议，并不是每个网站都有robots文件、所以就需要我们做seo来给我们网站添加robots文件、并且优化robots文件。

robots文件添加的位置
robots文件必须放在网站根目录，而且文件名称必须要是小写（robots.txt）文件
User-agent: * 跟的是蜘蛛的名称
*是一个通配符，代表是所有的蜘蛛的名称
googlebot: 谷歌baiduspider: 百度
Disallow: 跟的是不允许被抓取的文件路径
Allow: 跟的是允许被抓取的文件路径
我们一般使用robots.txt屏蔽对于排名没有价值的文件，或者网站安全隐私的文件或者是网站的死链接文件。

Disallow: /hang （后台登陆路径）
Disallow: /data （数据库文件）
Disallow: /member （会员注册文件）
m（文件夹织梦自适应的移动站点的文件夹）
什么叫站点地图
网站栏目和内容的集合、可把网站栏目和内容汇聚到一个页面，那么这个页面就包含了所有的内容和栏目链接，做站点地图的目的就是为了提高蜘蛛的抓取效率，提高网站收率。

站点地图如何制作
站点地图常见的格式有三种
sitemap.html （常见）
sitemap.xml （常见）
sitemap.txt （最少见）
百度更喜欢html格式的地图
谷歌更喜欢xml格式的地图。

robots协议的概念

robots协议的概念
Robots协议是一种用来指导网络爬虫（也称为机器人）在网
站上抓取页面的协议。

它通过告诉爬虫哪些页面可以被抓取，哪些页面不应该被抓取来控制爬虫的行为。

Robots协议是在
网站的根目录下的robots.txt文件中定义的。

通过Robots协议，网站管理员可以指定：
1. User-Agent：指定爬虫的名称或类型。

2. Disallow：指定不允许被抓取的页面或目录。

3. Allow：指定允许被抓取的页面或目录，当与Disallow同时
存在时，Allow优先级更高。

4. Crawl-delay：指定爬虫每次抓取的延迟时间。

5. Sitemap：指定网站的XML Sitemap文件的位置。

使用Robots协议可以有效控制爬虫对网站的抓取，保护重要
信息或避免过度抓取造成的服务器负载增加。

但是Robots协
议仅仅是一种建议，不能保证所有爬虫都会遵守协议中的规则。

一些恶意的爬虫可能会忽略Robots协议而进行非法的抓取操作。

对robots协议的理解

对robots协议的理解Robots协议是一种用于指导搜索引擎爬虫在网站上进行抓取的协议。

它通过网站的robots.txt文件来告诉搜索引擎哪些页面可以抓取，哪些页面不应该被抓取。

这个协议的存在是为了帮助网站所有者控制搜索引擎爬虫对其网站内容的访问，以保护隐私、节省带宽和优化搜索引擎抓取的效率。

从技术角度来看，robots.txt文件是一个文本文件，位于网站的根目录下，它包含一系列指令，告诉搜索引擎爬虫哪些页面可以被抓取，哪些页面不应该被抓取。

这些指令包括User-agent字段，用于指定哪个爬虫执行后面的指令；Disallow字段，用于指定不允许抓取的页面或目录；Allow字段，用于指定允许抓取的页面或目录；还有一些其他的可选字段，用于提供额外的指令。

从搜索引擎优化的角度来看，robots协议对于网站的排名和可见性也有一定的影响。

通过合理地设置robots.txt文件，网站所有者可以控制搜索引擎爬虫抓取的内容，从而更好地指导搜索引擎对网站的收录和排名。

合理地利用robots.txt文件可以避免搜索引擎抓取到一些无关紧要的页面，提高网站核心内容的曝光度，从而对网站的SEO产生积极的影响。

然而，需要注意的是，robots协议并不是强制性的，它只是一种建议性的协议。

一些不怀好意的爬虫可能会无视robots.txt文件的指令，抓取网站内容，因此网站所有者还需要采取其他手段来保护网站内容的安全。

同时，robots.txt文件只能控制搜索引擎爬虫的行为，对于其他类型的爬虫并没有作用。

总的来说，robots协议是一种非常重要的协议，它帮助网站所有者控制搜索引擎爬虫对网站内容的访问，对于网站的隐私保护、搜索引擎优化和内容安全都具有重要意义。

因此，网站所有者应该充分了解并合理地利用robots.txt文件，以更好地管理和保护自己的网站。

SEO中Robots文件的使用介绍

SEO中Robots文件的使用介绍搜索引擎蜘蛛访问网站时，会先查看网站根目录下有没有一个命名为robots.txt的文本文件，robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容，如百度的robots文件位于：（/robots.txt）只有在需要禁止抓取某些内容时，写robots.txt才有意义。

Robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。

有的服务器设置有问题。

Robots文件不存在时会返回200状态码及一些错误信息，而不是404状态码，这有可能使搜索引擎错误解读robots文件信息，所以建议就算允许抓取所有内容，也要建一个空的robots.txt文件，放在你的网站的根目录下。

Robots文件由记录组成，记录记录之间以空行分开，记录格式为：<域名>：<可选空格><域值><可选空格>最简单的robots文件：User-agent:*Disallow:/以上这个robots文件的意思是禁止所有搜索引擎抓取任何文章内容。

User-agent:指定下面的贵州适用于那个蜘蛛。

通配符“*”代表所有搜索引擎，只适用于百度蜘蛛则用：User-agent:Baiduspider只适用于谷歌蜘蛛则用：User-agent:GooglebotDisallow:是告诉蜘蛛不要抓取某些文件或目录。

Disallow:禁止的目录或者文件必须分开写，每一个行，不能写成: Disallow: /cgi-bin/ /tmp/ /aa/index.html下面的指令相当于允许所有搜索引擎抓取任何内容：User-agent:*Disallow:Allow:告诉蜘蛛应该抓取某些文件，由于不指定就是允许抓取，Allow:单独写没有意义，Allow和Disallow配合使用可以告诉蜘蛛某个目录下大部分不允许抓取，知允许抓取一部分。

$通配符：匹配URL结尾字符。

SEO之robots文件详细说明

Robots文件有些朋友可能会很陌生，robots文件是大多数主流搜索引擎都支持的一个协议文件，robots是一个纯文本的txt文档放在网站的根目录下。

它主要告诉搜索引擎那些内容是可以被抓取得，那些内容是不能被抓取的。

只有在需要禁止抓取某些内容的时候，robots.txt文件才有意义的。

Robots.txt文件如果不存在或者内容为空的话，那么默认搜索引擎全部都可以抓取。

有时由于服务器设置的问题当搜索引擎没有发现robots.txt文件时会返回一些错误，这样可能会使得搜索引擎错误的解读robots.txt文件，导致内容抓取失败。

所以即使您想网站内容全部被抓取，也要建立一个空的robots.txt文件，放到网站的根目录下面。

最简单的robots.txt文件：User-agent：*Disallow：/这个robots.txt给搜索引擎的信息是禁止抓取网站的所有信息。

User-agent：后面跟的是蜘蛛名称。

通配符*指的是所有的蜘蛛，如User-agent：baiduspider 这个规则就只适合百度蜘蛛，对谷歌的和雅虎的蜘蛛没有作用。

Disallow：告诉搜索引擎蜘蛛不要抓取哪些内容文件或目录，例如：User-agent：*Disallow: /bin/Disallow：/admin/这段代码告诉所有的搜索引擎不能抓取/bin和/admin目录下的所有文件和内容。

注意禁止的文件不能写在同一行上，必须分开写！通配符$的使用如下：User-agent：*Disallow：.asp$Allow: .htm$这段代码将允许所有蜘蛛抓取所有的htm页面内容，不抓取asp页面内容。

Sitemap：这个指令告诉搜索引擎网站地图在哪里如下：User-agent：*Disallow：Sitemap：/sitemap_index.xml这段代码告诉搜索引擎sitemap站点地图在这个位置。

更多内容尽在：。

巧用robots文件提升页面抓取率

巧用robots文件提升页面抓取率一、认识robots文件我们知道，robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的，什么是不可以被查看的，蜘蛛知道了这些以后，就可以将所有的精力放在被我们允许访问的页面上面，从而将有限的权重集中起来。

同时，我们还不能互略最重要的一点就是，robots.txt是搜索引擎访问网站要查看的第一个文件。

明白了这一点，我们就有必要，也可能针对这一条做一些文章。

二、将sitemap.xml写入robots文件前面提到了，robots.txt文件是搜索引擎中访问网站要查看的第一个文件，那么，如果我们将sitemap.xml（网站地图）文件地址写入robots.txt文件里面，自然而然会被搜索引擎蜘蛛在第一时间发现，也增大了网站页面被快速抓取和收录的可能性。

此种做法，对于新站作用明显，对于大站更具有积极和现实的作用。

具体写法示例如下：所以，无论是新站还是老站，为了使得更多的页面被搜索引擎抓取，有必要将sitemap.xml写入robots.txt文件中。

三、Sitemap.xml文件的获取前面讲了那么多，可能很多人还不是很明白，sitemap.xml文件究竟如何攻取呢？给大家提供一个工具，也是谷歌官方推荐的sitemap.xml在线生成工具，/，大家可以根据里面的选项选择适合自己网站的sitemap.xml生成样式。

生成sitemap.xml后，一般需要将该文件放置在根目录下面即可。

综上，把sitemap.xml地址写入robots.txt文件，从而提升页面抓取率的方式是可行的，也是具有可操作性的。

希望可以与更多的朋友就网站推广和优化进行探讨。

本文原创台州人才网。

欢迎转载，请保留出处。

Sitemap和Robots.txt SEO优化技巧

在做网站优化的时候，我们不仅要进行网站内容，外链，内链的优化，还需要从sitemap.xml 和robots.txt这些细节之处着手。

sitemap和robots.txt是一个网站针对搜索引擎设置的两个极其重要的文件。

一般的站长都知道，建好网站后需要建立网站的sitemap.xml，还有特殊情况的话需要进行robots.txt文件的设置。

下面说说Sitemap和Robots.txt SEO优化技巧。

第一部分：网站sitemap优化的技巧1. 网站必须要设立sitemap文件。

不管你的网站是不是已经被收录，设置sitemap文件就像相当于给搜索引擎提供了你网站的目录，让搜索引擎更有效率的在你的网站上爬行抓取。

2. 根目录下必须要有sitemap.xml文件。

这是针对第一点来说的，许多网站系统可以自动生成sitemap文件。

但是存储的名称和位置可是多种多样：比如ecshop默认生成的sitemap文件命名为sitemaps.xml；dedecms系统生成的sitemap文件就位于data/rss/目录之下，名称也是已数字命名的。

这些都不是规范的。

搜索引擎默认的格式是你根目录下的sitemap.xml文件。

也就是说，搜索引擎来到你网站的时候会自动寻找你的sitemap.xml文件，而不是其他目录或其他名称的文件。

3. 建立sitemap的索引文件。

关于sitemap的索引文件，了解的人并不多，主要是大家都没有考虑到第2个问题，以为只要自己设立了sitemap文件就可以了。

俗话说酒香还怕巷子深，你把sitemap文件放到那么深的文件目录，你觉得搜索能找到吗。

有人说，我提交到搜索引擎的管理员工具中，但并不是每个搜索引擎都有管理员工具的。

如果你在网站根目录下设立了默认的sitemap索引文件，则可以便捷的向来到你网站的任何一个搜索引擎展示你的网站目录。

并不是每个网站都需要一个sitemap索引文件。

这是因为索引文件的作用是指引搜索引擎爬行你真正的sitemap文件的。

网站优化关于robot的基本使用

网站优化关于robot的基本使用当搜索引擎访问一个网站的时候，第一步就是检查网站的robots.txt文件，显然这是我们seo 必做的内容。

在了解robots.txt文件写法之前，我们就先要知道robot是什么？robot英文翻译过来：机器人。

robots.txt文件也很好理解：搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。

robots.txt这个文件用于指定spider（蜘蛛）在您网站上的抓取范围。

关于robots.txt需要注意以下几点：1,robots.txt文件应该放置在网站根目录下。

比如，当spider访问http://www. 时，首先会检查该网站中是否存在/robots.txt这个文件，如果Spider 找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

2,每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误文件（无法找到文件）。

每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误文件，所以不管你是否需要屏蔽蜘蛛抓取，都应该在网站中添加一个robots.txt。

3,一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

这些内容目录可以通过robots.txt 屏蔽。

4,robots.txt里主要有两个函数：User-agent和Disallow。

5,robots.txt文件里还可以直接包括在sitemap文件的链接。

就像这样：Sitemap: http://www. /sitemap.xml6,举例个robots.txt,不懂的朋友可以根据自己的网站情况，作为参考。

User-agent: *Disallow: /admin/ 后台管理文件Disallow: /require/ 程序文件Disallow: /attachment/ 附件Disallow: /images/ 图片Disallow: /data/ 数据库文件Disallow: /template/ 模板文件Disallow: /css/ 样式表文件Disallow: /lang/ 编码文件Disallow: /script/ 脚本文件7,文件里面至少要有一个Disallow函数，如果都允许收录，则写: Disallow: ，如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– 防止私密或重要内容被搜索引擎抓取
• 如：网站在线留言信息、Email信息、网站后台等私密内容被搜索引擎蜘蛛访问抓取可能给企业带来灾难性的损失，robots.txt可以限制搜索引擎抓取重要内容避免以上情况的发生
– 大型网站特别注意，小型网站也要注意保密等工作。
– 节省服务器资源，从而提高服务质量
小结
• robots meta标签介绍 • robots meta标签语法 • robots meta标签的注意事项
目录
1
robots.txt
2
3
robots meta标签
网站地图
什么是网站地图
• 网站地图，又称站点地图，它就是一个页面，上面放置了网站上需要搜索引擎抓取的所有页面的链接（注：不是所有页面）
robots.txt的语法
• User-agent: *
– 这里的*代表所有的搜索引擎种类，*是通配符 – 可用蜘蛛名称索引擎网址
Sogouspider Slurp
• Allow 定义的是允许蜘蛛抓取某个栏目或文件 • Allow: /cgi-bin/
– 这里定义是允许访问cgi-bin目录
• 一般情况是Allow配合Disallow使用，因为不限制的目录默认为是可以抓取的。
robots.txt的语法
• Disallow 定义的是禁止蜘蛛抓取某个栏目或文件 • Disallow: /admin/
– 确保网站地图里的每一个链接都是正确、有效的 – 可以把sitemap写进robots.txt里
Sosospider Ia_archiver Bingbot YoudaoBot JikeSpider

robots.txt的语法
网站地图
想一想
提问
如果搜索引擎已经收录网页，而这个网页是我们不想让搜索引擎收录的页面，应该做？
பைடு நூலகம்
• robots.txt不能删除搜索引擎中已收录的页面 • robots meta标签可以解决这个问题
robots meta标签
• robots meta标签介绍 • robots meta标签语法 • robots meta标签的注意事项
• 如：搜索引擎蜘蛛爬行次数过多会造成服务器资源大量消耗，不仅浪费流量还可能降低了用户体验，通过robots.txt可以控制搜索引擎蜘蛛的爬行时间间隔等避免以上情况的发生
– 一般大型网站可能会面临这种问题
robots.txt的作用
• robots.txt的作用
– 减少重复抓取，提高网站质量
• 网站内可能存在页面内容相似甚至相同的页面，用 robots.txt限制搜索引擎抓取，可以避免搜索引擎认为网站内存在大量重复性页面从而降低整个网站权重的做法
目录
1
robots.txt
2
3
robots meta标签
网站地图
想一想
提问
当你进入一个景点游览时，有的地方有指示牌提示此景点暂停开放，你会怎么办？
• 你可能会绕过此地继续游览 • 你也可能会想办法偷偷溜进去 • 网站提示搜索引擎机器人访问网站的指示牌是 robots.txt
robots.txt
robots.txt的介绍2/2
• 当一种搜索引擎蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在 robots.txt
– 如果找到，搜索引擎蜘蛛就会按照该文件中的内容来确定抓取的范围 – 如果该文件不存在，那么搜索机器人就沿着链接抓取。
robots.txt的作用
• robots.txt的作用
• 搜索引擎蜘蛛非常喜欢网站地图
网站地图作用
• 为搜索引擎蜘蛛提供可以浏览整个网站的链接 • 为搜索引擎蜘蛛提供一些链接，指向动态页面或者采用其他方法比较难以到达的页面 • 作为一种潜在的着陆页面，可以为搜索流量进行优化
网站地图分类
• 网站地图分为html地图和x擎都喜欢的网站地图 • xml网站地图是谷歌喜欢的网站地图
– 这里定义是禁止抓取admin目录
• Disallow:/ab/adc.html
– 禁止抓取ab文件夹下面的adc.html文件
robots.txt的语法
案例例1. 禁止所有搜索引擎访问网站的任何部分例2. 代码
robots.txt的常见错误
• 行前有大量空格的错误（） – 错误写法 User-agent: * Disallow: /cgi-bin/ 正确写法 User-agent: * Disallow: /cgi-bin/ • 不允许访问，忘记斜杠”/” – 错误写法（这样写表示可以抓取任何页面） User-agent: * Disallow: 正确写法 User-agent: * Disallow:/
总结
• 网站地图的作用
– 为搜索引擎蜘蛛提供可以浏览整个网站的链接 – 为搜索引擎蜘蛛提供一些链接 – 可以为搜索流量进行优化
• 网站地图构建技巧
– – – – 网站地图要包含最重要的一些页面布局要简洁，所有的链接都是标准的HTML文本尽量在站点地图上增加文本说明在每个页面里面放置网站地图的链接
– 如：下载站的最终下载页面
– 指定sitemap文件位置
• robots.txt可以指定sitemap的位置，方便搜索引擎的爬行，从而实现站内页面的收录更友好
– 大小网站都适合
robots.txt的语法
• robots.txt语法示例一
– 禁止所有搜索引擎访问网站的cgi-bin、tmp、 private目录 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow:
查看robots.txt
• robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
– 例如：
• / • /robots.txt
– 其中robots.txt不能写成Robots.txt必须全部小写
总结
• robots.txt
– robots.txt的介绍 – robots.txt的语法 – robots.txt的用法 – robots.txt的常见错误
• robots meta标签
– robots meta标签介绍 – robots meta标签语法 – robots meta标签的注意事项
robots meta标签介绍
• robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而robots meta标签则主要是针对某个具体的页面，robots meta标签是放在页面中的，专门用来告诉搜索引擎蜘蛛如何抓取该页的内容。
– <meta name=“robots" content="index,follow">
– index指令告诉搜索机器人可以抓取该页面; – follow指令表示搜索机器人可以爬行该页面上的链接继续爬下去; – 共有四种组合：
• <meta name="robots" content="index,follow"> <meta name="robots" content="noindex,follow"> <meta name="robots" content="index,nofollow"> <meta name="robots" content="noindex,nofollow">
robots meta标签语法
• robots meta标签中，name=”robots”表示所有的搜索引擎，可指令选项:index,noindex,follow,nofollow指令间以 “,”英文逗号分隔（大小写无要求，但建议小写）
利用DeDeCMS生成网站地图
• • • • 进入网站后台，找到左侧生成标签选择生成选项中的更新网站地图点击更新网站地图，选择普通地图点击进行浏览
网站地图构建技巧
• • • • • • 网站地图要包含最重要的一些页面布局要简洁，所有的链接都是标准的HTML文本尽量在站点地图上增加文本说明在每个页面里面放置网站地图的链接确保网站地图里的每一个链接都是正确、有效的可以把sitemap写进robots.txt里
小结
• robots.txt的介绍 • robots.txt的语法
– User-agent: – Disallow: – Allow:
• robots.txt的查看
/robots.txt
• robots.txt的常见错误
目录
1
robots.txt
2
3
robots meta标签
User-agent: * Disallow: / User-agent: * A-agent: Googlebot Allow: / User-agent: * Disallow: /
robots meta标签注意事项
• 特殊写法：
– <meta name="robots" content="index,follow"> 可以写成<meta name="robots" content="all"> – <meta name="robots" content="noindex,nofollow"> 可以写成<meta name="robots" content="none">
• • • • • robots.txt的介绍 robots.txt的语法 robots.txt的用法 robots.txt的常见错误 robots.txt使用案例