robots.txt文件的作用以及写法

合集下载

什么是robots.txt

一．什么是robots.txt文件?搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下。

举例来说，当robots访问一个网站（比如）时，首先会检查该网站中是否存在/robots.txt这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

网站URL 相应的robots.txt的URL//robots.txt:80/:80/robots.txt:1234/:1234/robots.txt/??/robots.txt三. robots.txt文件的格式"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示："<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。

该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：User-agent:该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent 记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。

如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent：*"这样的记录只能有一条。

SEO中Robots文件的使用介绍

SEO中Robots文件的使用介绍搜索引擎蜘蛛访问网站时，会先查看网站根目录下有没有一个命名为robots.txt的文本文件，robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容，如百度的robots文件位于：（/robots.txt）只有在需要禁止抓取某些内容时，写robots.txt才有意义。

Robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。

有的服务器设置有问题。

Robots文件不存在时会返回200状态码及一些错误信息，而不是404状态码，这有可能使搜索引擎错误解读robots文件信息，所以建议就算允许抓取所有内容，也要建一个空的robots.txt文件，放在你的网站的根目录下。

Robots文件由记录组成，记录记录之间以空行分开，记录格式为：<域名>：<可选空格><域值><可选空格>最简单的robots文件：User-agent:*Disallow:/以上这个robots文件的意思是禁止所有搜索引擎抓取任何文章内容。

User-agent:指定下面的贵州适用于那个蜘蛛。

通配符“*”代表所有搜索引擎，只适用于百度蜘蛛则用：User-agent:Baiduspider只适用于谷歌蜘蛛则用：User-agent:GooglebotDisallow:是告诉蜘蛛不要抓取某些文件或目录。

Disallow:禁止的目录或者文件必须分开写，每一个行，不能写成: Disallow: /cgi-bin/ /tmp/ /aa/index.html下面的指令相当于允许所有搜索引擎抓取任何内容：User-agent:*Disallow:Allow:告诉蜘蛛应该抓取某些文件，由于不指定就是允许抓取，Allow:单独写没有意义，Allow和Disallow配合使用可以告诉蜘蛛某个目录下大部分不允许抓取，知允许抓取一部分。

$通配符：匹配URL结尾字符。

怎么写robots规则 robots全记录

怎么写robots规则robots全记录by admins on 九.13, 2010, under 其他下载, 网站建设搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不能被搜索引擎的漫游器获取的，哪些是可以被（漫游器）获取的。

因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。

robots.txt应放置于网站的根目录下。

如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据。

Robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

注意Robots.txt是用字符串比较来确定是否获取URL，所以目录末尾有和没有斜杠“/”这两种表示是不同的URL，也不能用”Disallow: *.gif”这样的通配符。

其他的影响搜索引擎的行为的方法包括使用robots元数据：<meta name=”robots”content=”noindex,nofollow”/> 这个协议也不是一个规范，而只是约定俗成的，通常搜索引擎会识别这个元数据，不索引这个页面，以及这个页面的链出页面robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下。

robots.txt文件格式详解

robots.txt⽂件格式详解在说明ROTBOT⽂件的编写语法前先来了解⼏个重要的概念！1. 什么是baiduspider？ baiduspider是Baidu搜索引擎的⼀个⾃动程序。

它的作⽤是访问互联⽹上的html⽹页，建⽴索引数据库，使⽤户能在Baidu搜索引擎中搜索到贵⽹站的⽹页。

　 2. baiduspider为什么⼤量访问我的⽹页？ baiduspider访问您的⽹页后，会⾃动分析每个⽹页上的⽂字内容并记忆⽹页⽹址，然后其它⽹友才能通过百度搜索引擎找到您的⽹页。

如果baiduspider不访问您的⽹页，那么所有通过baiduspider提供⽹页信息的搜索引擎都找不到您的⽹页，也就是说，其它⽹友在百度搜狐新浪雅虎Tom等⼏⼗个搜索⽹站都会找不到您的⽹页。

　您可以到这⾥进⼀步了解搜索引擎。

3. baiduspider对⼀个⽹站服务器造成的访问压⼒如何？对于⼀个⽹站，baiduspider每访问⼀个⽹页会间隔30秒，不会造成过⼤压⼒。

4. 我不想我的⽹站被baiduspider访问，我该怎么做？ baiduspider象其它spider⼀样遵守互联⽹robots协议。

您可以利⽤robots.txt⽂件完全禁⽌baiduspider访问您的⽹站，或者禁⽌baiduspider访问您⽹站上的部分⽂件。

注意：禁⽌baiduspider访问您的⽹站，将使您的⽹站上的所有⽹页，在Baidu搜索引擎以及所有Baidu提供搜索引擎服务的搜索引擎中⽆法被搜索到，包括搜狐、新浪、雅虎、Tom、Lycos等⼏⼗个搜索引擎。

关于robots.txt的写作⽅法，请参看我们的介绍：robots.txt写作⽅法 5. 为什么我的⽹站已经加了robots.txt，还能在百度搜索出来？因为搜索引擎索引数据库的更新需要时间。

虽然baiduspider已经停⽌访问您⽹站上的⽹页，但Baidu搜索引擎数据库中已经建⽴的⽹页索引信息，可能需要2到4周才会清除。

robots.txt使用和写法

robots使用和写法：1、什么是robots.txt?robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

2、robots.txt的语法"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)，每一条记录的格式如下所示:"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。

该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下:User-agent:该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。

如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow :该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。

SEO的Robots.txt文件设置

Robots.txt文件设置首先在这里给大家介绍一下Robots.txt文件的具体写法 1）允许所有搜索引擎访问User-agent:*Disallow:或User-agent:*Allow:/2）禁止所有搜索引擎访问User-agent:*Disallow:/或User-agent:*Allow:3）禁止所有搜索引擎访问网站中胡几个部分在这里用a.b.c目录来代替User-agent:*Disallow:/a/Disallow:/b/Disallow:/c/如果是允许，则是Allow:/a/Allow:/b/Allow:/c/4）禁止某个搜索引擎的访问User-agent：w（比如用w代替某个搜索引擎）Disallow：/或User-agent：wDisallow：/d/*.htm在Disallow：后加/d/.htm的意思是禁止/d/目录下所有以“。

htm”为后缀的URL，包含子目录。

5）只允许某个搜索引擎的访问User-agent：e（用e代替）Disallow：在Disallow：后不加任何东西，意思是仅允许e访问该网站6）使用“$”限制访问urlser-agent：*Allow：。

html$Disallow:/意思是仅允许访问以“。

htm”为后缀的url7）禁止访问网站中所有的动态页面User-agent：*Disallow：/*?*8）禁止搜索引擎F抓取网站上所有图片User-agent：*Disallow：。

jpg$Disallow：。

jpeg$Disallow：。

gif$Disallow：。

png$Disallow：。

bmp$意思是只允许搜索引擎抓取网页，禁止抓取任何图片（严格来说，是禁止抓取jpg、jpeg、gif、png、bmp格式的图片9）只允许搜索引擎E抓取网页和。

gif格式图片User-agent:EAllow:gif$Disallow:jpg$Disallow:png$意思是只允许抓取网页和gif格式图片，不允许抓取其他格式图片第一步：新建一个txt文档—命名为：Robost.txt—在文档里写入User-agent:*Disallow:（注：这里的意思是允许所有的搜索引擎访问所有的文件）第二步：连接FXP软件，将Robots文件夹上传到根目录里，（提示：如果你的根目录里已经有了Robots文件，就得先要备份，再进行上传。

robots.txt和Robot.txt准确代码的写法说明

robots.txt和Robot.txt准确代码的写法说明国内很多网民都不知道 robots.txt 是干什么的，没有大重视、今天希望看到本文章学习到 robots.txt 的准确解释和使用方法！robots.txt基本介绍robots.txt 是一个纯文本的txt文本文档文件，这种重命名的文本文档是用在网站目录下存储！只有百度，搜搜，搜狗搜索，360搜索等搜索引擎网站上调用的声明！搜索引擎也可以叫《蜘蛛》（例如：站长只想让百度里能搜到本站，就可以用robots.txt上写段代码就能实现！）robots.txt 使用方法：robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt写作语法首先，我们来看一个 robots.txt 的写法案例：访问以上具体地址，我们可以看到robots.txt的具体内容如下：# Robots.txt file from# All robots will spider the domainUser-agent: *Disallow:以上文本表达的意思是允许所有的搜索机器人访问站点下的所有文件。

代码第一行：#解释：只要有“#”开头的一行全被隐藏的！（一般不需要写）写法：“#”后面不管填写任何文字都不会有影响！（只是起到隐藏作用）我们一般填写声明就可以了！代码第二行：User-agent:解释：这是控制蜘蛛访问的代码（用来设置蜘蛛的白黑名单）写法：“User-agent:”后面就可以填写百度蜘蛛名称或者搜狗蜘蛛名称！例如：只允许百度蜘蛛：User-agent: BadBot所有蜘蛛可访问：User-agent: *代码第三行：Disallow:解释：这是控制蜘蛛动态的黑名单写法：“Disallow:” 后面可填写以下禁止访问本站所有内容：/禁止访问本站指定目录：/01/允许访问本站指定目录：/01禁止访问目录下的格式：/01*.html允许访问目录下的格式：/01/index.html代码第四行：Allow:解释：访问一组URL或者关键字母的文件名和目录名写法：“Allow:”后面可以填写关键字母例如：Allow:/index演示：即可访问：/index.html/index.asp/index/index.html/index/indextop.html/indexlogo/indexnamo.html====================================== =模拟蜘蛛写法案例说明1. 允许所有的robot访问User-agent: *Allow:或者User-agent: *Disallow:2. 禁止所有搜索引擎访问网站的任何部分User-agent: *Disallow: /3. 仅禁止Baiduspider访问您的网站User-agent: BaiduspiderDisallow: /4. 仅允许Baiduspider访问您的网站User-agent: BaiduspiderDisallow:5. 禁止spider访问特定目录User-agent: *Disallow: /cofig/Disallow: /totm/Disallow: /~jot/6. 允许访问特定目录中的部分urlUser-agent: *Allow: /acgi-lbin/sseeAllow: /tml/itmAllow: /~jotw/bookDisallow: /cdgi-bins/Disallow: /ddw/Disallow: /~jseoe/7. 使用”*”限制访问url禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

网站robots,txt的写法

robots.txt是一个协议，搜索引擎来到你的我网站第一眼看到就是这个协议，这个协议是告诉搜索引擎我的某个页面你可以抓取的意思,robots.txt要怎么写呢?其中要有以下几样User-agent: *这个代表所有蜘蛛Disallow:/代表不抓取，/代表你网站后面的路径，如/list/?3.html中的/list/?3.html就是一个网站后面的路径。*代表所有，要是只想屏蔽其中一个搜索引擎的蜘蛛，那就把名字改成特定蜘蛛的名字。每个网站都要有这个协议，能有效的阻止不重要的页面的抓取。让他抓取的写法：User-agent: *所有蜘蛛Allow：/优先抓取代表这个/后面的你可以优先去看和抓取等等。下面给大家看个网站的实例

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

很多seo新手可能都不懂得一个网站的robots.txt的重要性。

Robots.txt文件是一个文本文件。

这是一个协议，对于搜索引擎而设定的协议。

正常来说搜索引擎来到一个网站，他们首先就会去查找网站有没有robots.txt文件。

换句话说也就是这是搜索引擎访问一个网站所要查看的第一个文件。

它可以告诉搜索引擎蜘蛛在这个网站上面有哪些文件是可以查看，而哪些文件是不能查看的。

Robots.txt文件正常来说，我们都是放在网站的根目录底下。

搜索引擎蜘蛛来到这个站点的时候，就会首先去检查根目录有没有这个文件存在。

如果在根目录地下有这么一个文件的话，那么搜索引擎蜘蛛就会按照这个文件的所规定的规则来访问网站文件，如果找不到这个文件的话，那么搜索引擎蜘蛛就会访问该网站所有没有被口令保护的页面了。

所以如果您想要搜索引擎收录网站上所有内容的话，那么就不要建立robots.txt文件。

如果有部分内容不想搜索引擎收录的话，那么可以使用robots.txt文件来制约蜘蛛。

接下来，我们来了解一下robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图告诉爬虫这个页面是网站地图
下面我们用实例来分析一下，我们打开中国二手车城网站的robots.txt 文件。

/robots.txt
User-Agent: *
Disallow: /javascript/
Disallow: /css
Disallow: /js
Disallow: /aspx/sites/js
Disallow: /aspx/sites/css
他这个robots.txt只写着制约搜索引擎不能爬取的目录。

通过这个，我们可以猜测这几个目录地下放的不是脚本文件就是css样式。

这些文件确实没有必要让搜索引擎蜘蛛抓取。

如果只限制百度蜘蛛的话，那么我们就可以可以改成
User-Agent: Baiduspider
Disallow: /javascript/
Disallow: /css
Disallow: /js
Disallow: /aspx/sites/js
Disallow: /aspx/sites/css
上述这个案例只用到了disallow，没有用到allow，其实这两个命令是可以同时使用的。

比如在上述例子中，站长限制了javascript这个目录。

但是如果我在这个目录里面有一个文件可以让搜索引擎收录，那怎么办？比如底下的ABC.html文件。

那么我们就可以写成
User-Agent: *
Allow: /javascript/ ABC.html
Disallow: /javascript/
Disallow: /css
Disallow: /js
Disallow: /aspx/sites/js
Disallow: /aspx/sites/css
这样就可以访问这个目录底下的ABC.html文件了。

希望本篇文章可以对seo菜鸟有所帮助。

如果要转载请注明文章来源，本篇文章由中国二手车城编辑。