SEO中Robots文件的使用介绍

合集下载

robot文件相关知识大全

你真的懂robots文件吗？前些日子针对企业网站内部优化和大家分享了下，相信大家也都比较了解站内优化所包含的几大步骤。

其中robots文件的设置相信很多的seoer都知道起着举足轻重的作用。

今天我菜鸟seo郝晓奇就来为大家相信的介绍介绍robots文件，让您真的更懂它。

搜索引擎都有自己的“搜索机器人”（Robots），并通过这些Robots在网络上沿着网页上的链接不断抓取资料建立自己的数据库。

但是有时候对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被Robots抓取公开。

为了解决这个问题，robots文件就应运而生了。

robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

相信很多seoer都知道如何书写robots文件，那么我就针对像我一样菜鸟级的seoer们在啰嗦啰嗦robots文件的格式问题。

robots文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow 行，详细情况如下：1、 User-agent:该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。

如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中， "User-agent: *"这样的记录只能有一条。

Robots写法

Robots写法搜索引擎Robots协议，是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。

设置搜索引擎蜘蛛Spider抓取内容规则。

下面Seoer惜缘举例robots写法规则与含义：首先要创建一个robots.txt文本文件，放置网站的根目录下，下面就开始编辑设置Robots协议文件：一、允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，设置代码如下：User-agent: *Disallow:或者User-agent: *Allow: /二、禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：User-agent: MsnbotDisallow: /例如想禁止MSN的蜘蛛抓取就设为，Msnbot代表MSN的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：百度的蜘蛛：baiduspiderGoogle的蜘蛛：Googlebot腾讯Soso:SosospiderY ahoo的蜘蛛：Y ahoo SlurpMsn的蜘蛛：MsnbotAltavista的蜘蛛：ScooterLycos的蜘蛛：Lycos_Spider_(T-Rex)三、禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：User-agent: *Disallow: /目录名字1/Disallow: /目录名字2/Disallow: /目录名字3/把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取，目录名字未写表示可以被搜索引擎抓取。

四、禁止某个目录被某个搜索引擎蜘蛛抓取，设置代码如下：User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow: /目录名字/ 说明(这里设定禁止蜘蛛抓取的目录名称)例如，想禁目Msn蜘蛛抓取admin文件夹，可以设代码如下：User-agent: MsnbotDisallow: /admin/五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，设置代码如下:User-agent: *Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取，设置代码如下: User-agent: *Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件) 七、只充许某个搜索引擎蜘蛛抓取目录文件，设置代码如下：User-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)Disallow:。

什么是robots文件

robots文件全名叫做robots.txt是网站和搜索引擎之间的协议，并不是每个网站都有robots文件、所以就需要我们做seo来给我们网站添加robots文件、并且优化robots文件。

robots文件添加的位置
robots文件必须放在网站根目录，而且文件名称必须要是小写（robots.txt）文件
User-agent: * 跟的是蜘蛛的名称
*是一个通配符，代表是所有的蜘蛛的名称
googlebot: 谷歌baiduspider: 百度
Disallow: 跟的是不允许被抓取的文件路径
Allow: 跟的是允许被抓取的文件路径
我们一般使用robots.txt屏蔽对于排名没有价值的文件，或者网站安全隐私的文件或者是网站的死链接文件。

Disallow: /hang （后台登陆路径）
Disallow: /data （数据库文件）
Disallow: /member （会员注册文件）
m（文件夹织梦自适应的移动站点的文件夹）
什么叫站点地图
网站栏目和内容的集合、可把网站栏目和内容汇聚到一个页面，那么这个页面就包含了所有的内容和栏目链接，做站点地图的目的就是为了提高蜘蛛的抓取效率，提高网站收率。

站点地图如何制作
站点地图常见的格式有三种
sitemap.html （常见）
sitemap.xml （常见）
sitemap.txt （最少见）
百度更喜欢html格式的地图
谷歌更喜欢xml格式的地图。

SEO教程 robots.txt文件常见用途

Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件 Disallow: /script/ 脚本文件注：每个网站的文件夹名字可能会不一样
User-agent: *
Disallow: /*?* 4. 禁止网站上的程序文件被搜索引擎蜘蛛索引，这样可以节省服务器资源。
一般网站中不需要蜘蛛取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
User-agent: *
Disallow: /admin/ 后台管理文件 Disallow: /require/ 程序文件 Disallow: /attachment/ 附件
SEO 教程 robots.txt 文件常见用途本文将为你介绍最常用的四种 robots.txt 文件格式。
1. 允许所有的搜索引擎访问网站的任何部分
User-agent: * Disallow:
(或者也可以建一个空文件 "/robots.txt")
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: * Disallow: / 3. 禁止所有搜索引擎访问网站中所有的动态页面

SEO的Robots.txt文件设置

Robots.txt文件设置首先在这里给大家介绍一下Robots.txt文件的具体写法 1）允许所有搜索引擎访问User-agent:*Disallow:或User-agent:*Allow:/2）禁止所有搜索引擎访问User-agent:*Disallow:/或User-agent:*Allow:3）禁止所有搜索引擎访问网站中胡几个部分在这里用a.b.c目录来代替User-agent:*Disallow:/a/Disallow:/b/Disallow:/c/如果是允许，则是Allow:/a/Allow:/b/Allow:/c/4）禁止某个搜索引擎的访问User-agent：w（比如用w代替某个搜索引擎）Disallow：/或User-agent：wDisallow：/d/*.htm在Disallow：后加/d/.htm的意思是禁止/d/目录下所有以“。

htm”为后缀的URL，包含子目录。

5）只允许某个搜索引擎的访问User-agent：e（用e代替）Disallow：在Disallow：后不加任何东西，意思是仅允许e访问该网站6）使用“$”限制访问urlser-agent：*Allow：。

html$Disallow:/意思是仅允许访问以“。

htm”为后缀的url7）禁止访问网站中所有的动态页面User-agent：*Disallow：/*?*8）禁止搜索引擎F抓取网站上所有图片User-agent：*Disallow：。

jpg$Disallow：。

jpeg$Disallow：。

gif$Disallow：。

png$Disallow：。

bmp$意思是只允许搜索引擎抓取网页，禁止抓取任何图片（严格来说，是禁止抓取jpg、jpeg、gif、png、bmp格式的图片9）只允许搜索引擎E抓取网页和。

gif格式图片User-agent:EAllow:gif$Disallow:jpg$Disallow:png$意思是只允许抓取网页和gif格式图片，不允许抓取其他格式图片第一步：新建一个txt文档—命名为：Robost.txt—在文档里写入User-agent:*Disallow:（注：这里的意思是允许所有的搜索引擎访问所有的文件）第二步：连接FXP软件，将Robots文件夹上传到根目录里，（提示：如果你的根目录里已经有了Robots文件，就得先要备份，再进行上传。

robots.txt文件的作用和语法介绍

robots.txt文件的作用和语法介绍1、什么是robots.txt文件搜索引擎有自己的搜索习惯，当它对一个网站进行搜索时，哪些目录和文件要看，哪些不用看，它有自己的算法。

我们也可以自己建立一个robots.txt文件，告诉搜索引擎的机器人哪些可以被收录，哪些不需要收录。

这样可以节约自己网站的资源，提高被搜索引擎收录的效率。

２、robots.txt放置位置robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

３、robots相关语法1)User-agent: 适用下列规则的漫游器(搜索引擎)该项的值用于描述搜索引擎robot的名字。

在robots.txt文件中，如果有多条User-agent 记录，就说明有多个robot会受到robots.txt的限制，对该文件来说，至少要有一条User-agent 记录。

如果该项的值设为*，则对任何robot均有效。

●Google爬虫名称: Googlebot●百度（Baidu）爬虫名称：Baiduspider●雅虎（Yahoo）爬虫名称：Yahoo Slurp●有道（Yodao）蜘蛛名称：YodaoBot●搜狗（sogou）蜘蛛名称：sogou spider●MSN的蜘蛛名称(微软最新搜索引擎Bing蜘蛛名也是这个)：Msnbot２）Disallow: 拒绝访问的目录或文件该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被robot访问。

例如：Disallow:/seo.html 表示禁止robot访问文件/seo.html３）Allow:允许访问的目录或文件该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。

例如：Allow:/hibaidu/ 表示允许robot访问目录/hibaidu/4)使用通配符"*"和"$"：$ 匹配行结束符。

robots.txt协议

robots.txt协议robots.txt协议是一种让网站管理员告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取的协议。

这个协议是通过在网站的根目录下放置一个名为robots.txt的文本文件来实现的。

在这个文件中，网站管理员可以指定搜索引擎爬虫访问的权限，以及哪些页面不希望被搜索引擎收录。

这个协议的存在可以帮助网站管理员更好地控制搜索引擎爬虫的行为，从而更好地保护网站的内容和隐私。

robots.txt协议的作用主要有以下几个方面：1. 控制搜索引擎爬虫的访问范围。

通过robots.txt文件，网站管理员可以指定哪些页面可以被搜索引擎爬虫访问，哪些页面不可以被访问。

这样可以避免搜索引擎爬虫访问一些不希望被公开的页面，比如一些内部管理页面或者一些隐私内容。

2. 优化搜索引擎收录。

通过robots.txt文件，网站管理员可以指定哪些页面可以被搜索引擎收录，哪些页面不希望被收录。

这样可以帮助网站管理员更好地控制搜索引擎对网站内容的收录，从而更好地展现网站的核心内容。

3. 保护网站安全。

通过robots.txt文件，网站管理员可以排除一些敏感信息和目录，避免被搜索引擎爬虫访问，从而保护网站的安全。

在编写robots.txt文件时，网站管理员需要注意以下几点：1. 确保robots.txt文件位于网站的根目录下。

搜索引擎爬虫在访问网站时会首先查找robots.txt文件，因此这个文件必须放置在网站的根目录下，以确保搜索引擎爬虫能够正确地读取到这个文件。

2. 使用正确的语法。

robots.txt文件采用了一种特定的语法规则，网站管理员需要按照这种规则编写文件内容，以确保搜索引擎爬虫能够正确地解析和执行这个文件。

3. 定期更新文件内容。

随着网站内容的更新和变化，robots.txt文件的内容也需要相应地进行更新，以确保搜索引擎爬虫能够正确地访问和收录网站的最新内容。

总之，robots.txt协议是网站管理员在管理搜索引擎爬虫行为方面的重要工具，通过合理地编写和使用robots.txt文件，可以更好地控制搜索引擎对网站内容的访问和收录，从而更好地保护网站的内容和隐私，提升网站的安全性和搜索引擎优化效果。

Sitemap和Robots.txt SEO优化技巧

在做网站优化的时候，我们不仅要进行网站内容，外链，内链的优化，还需要从sitemap.xml 和robots.txt这些细节之处着手。

sitemap和robots.txt是一个网站针对搜索引擎设置的两个极其重要的文件。

一般的站长都知道，建好网站后需要建立网站的sitemap.xml，还有特殊情况的话需要进行robots.txt文件的设置。

下面说说Sitemap和Robots.txt SEO优化技巧。

第一部分：网站sitemap优化的技巧1. 网站必须要设立sitemap文件。

不管你的网站是不是已经被收录，设置sitemap文件就像相当于给搜索引擎提供了你网站的目录，让搜索引擎更有效率的在你的网站上爬行抓取。

2. 根目录下必须要有sitemap.xml文件。

这是针对第一点来说的，许多网站系统可以自动生成sitemap文件。

但是存储的名称和位置可是多种多样：比如ecshop默认生成的sitemap文件命名为sitemaps.xml；dedecms系统生成的sitemap文件就位于data/rss/目录之下，名称也是已数字命名的。

这些都不是规范的。

搜索引擎默认的格式是你根目录下的sitemap.xml文件。

也就是说，搜索引擎来到你网站的时候会自动寻找你的sitemap.xml文件，而不是其他目录或其他名称的文件。

3. 建立sitemap的索引文件。

关于sitemap的索引文件，了解的人并不多，主要是大家都没有考虑到第2个问题，以为只要自己设立了sitemap文件就可以了。

俗话说酒香还怕巷子深，你把sitemap文件放到那么深的文件目录，你觉得搜索能找到吗。

有人说，我提交到搜索引擎的管理员工具中，但并不是每个搜索引擎都有管理员工具的。

如果你在网站根目录下设立了默认的sitemap索引文件，则可以便捷的向来到你网站的任何一个搜索引擎展示你的网站目录。

并不是每个网站都需要一个sitemap索引文件。

这是因为索引文件的作用是指引搜索引擎爬行你真正的sitemap文件的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SEO中Robots文件的使用介绍
搜索引擎蜘蛛访问网站时，会先查看网站根目录下有没有一个命名为robots.txt的文本文件，robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容，如百度的robots文件位于：（/robots.txt）只有在需要禁止抓取某些内容时，写robots.txt才有意义。

Robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。

有的服务器设置有问题。

Robots文件不存在时会返回200状态码及一些错误信息，而不是404状态码，这有可能使搜索引擎错误解读robots文件信息，所以建议就算允许抓取所有内容，也要建一个空的robots.txt文件，放在你的网站的根目录下。

Robots文件由记录组成，记录记录之间以空行分开，记录格式为：
<域名>：<可选空格><域值><可选空格>
最简单的robots文件：
User-agent:*
Disallow:/
以上这个robots文件的意思是禁止所有搜索引擎抓取任何文章内容。

User-agent:指定下面的贵州适用于那个蜘蛛。

通配符“*”代表所有搜索引擎，只适用于百度蜘蛛则用：
User-agent:Baiduspider
只适用于谷歌蜘蛛则用：
User-agent:Googlebot
Disallow:是告诉蜘蛛不要抓取某些文件或目录。

Disallow:禁止的目录或者文件必须分开写，每一个行，不能写成: Disallow: /cgi-bin/ /tmp/ /aa/index.html
下面的指令相当于允许所有搜索引擎抓取任何内容：
User-agent:*
Disallow:
Allow:告诉蜘蛛应该抓取某些文件，由于不指定就是允许抓取，Allow:单独写没有意义，Allow和Disallow配合使用可以告诉蜘蛛某个目录下大部分不允许抓取，知允许抓取一部分。

$通配符：匹配URL结尾字符。

下面的代码意思是禁止百度蜘蛛抓取所有.jpg文件：
User-agent:Baiduspider
Disallow:.jpg$
*通配符：告诉蜘蛛匹配任意一段字符。

Sitemaps位置:告诉蜘蛛XML网站的地图位置。

Sitemaps:<网站地图位置>
主流搜索引擎都遵守robots文件指令，robots.txt禁止抓取的文件搜索引擎将不访问不抓取，但是要注意的是，被robots文件禁止抓取的URL，还是可能被索引并出现在搜索结果中，只要有导入链接指向这个URL，搜索引擎就知道这个URL的存在，虽然不会抓取页面内容，但是索引库中还是有这个URL的信息，列如出现以下几种情况：
1.只显示URL，没有标题、描述
2.显示开放目录或者等重要目录收录的标题和描述。

3.导入链接的锚文字显示为标题和描述。

4.搜索引擎从其他地方获得信息显示为标题和描述。

以上就是robots.txt文件的使用简单介绍。