robots.txt文件语法写法总结(南昌新媒体公司古怪科技)

合集下载

Robots文件的应用(古怪科技)

Robots.txt文件告诉搜索引擎哪些页面是可以被收录的哪些是不可以被收录的。

如果您不想让搜索引擎收录某些页面，请用robots.txt文件制定搜索引擎在你网站的抓取范围。

所以Robots的写置是优化网站所必须的。

Robots.Txt文件的设置：了解robots先从百度开始：下面是百度的robots：/robots.txtUser-agent: Baiduspider (蜘蛛类型：Baiduspider为百度蜘蛛只对百度蜘蛛有效)Disallow: /baidu (限定蜘蛛不能爬取的目录，也可以是页面)User-agent: * (这里就是代表所有蜘蛛的一个限定)Disallow: /shifen/Disallow: /homepage/Disallow: /cpro从以上的百度robots简单了解到，robots.txt能够屏蔽蜘蛛访问特定的目录，方法就是Disallow: /目录名。

改方法是屏蔽此目录包含子目录的所有文件，当然如果子目录不屏蔽，我们可以使用Disallow: /目录名/,我们发现robots.txt一个简单的/ 所起到的作用却截然不同，所以在我们书写robots.txt 的时候一定不能大意，写完后要反复检查或者交站长工具检测。

下面介绍几种特殊写法，用于不同情况：①屏蔽动态页面：Disallow: /*?* Robots检测解释：禁止所有引擎抓取网站所有动态页面这个应该很容易理解，/*?* 表示网站任何带?的url链接，我们知道这种链接一般就是动态页面，鉴于网站静态化处理过的网站完全可以通过屏蔽动态页面来避免出现重复页面，当然如果是数据库驱动的网站，而没有做静态或伪静态处理的网站，就不必要做此特殊处理了。

②屏蔽特殊后缀的文件例如：Disallow: /*.php$ Robots检测解释：禁止所有引擎抓取网站后缀为并且包含。

php的文件$代表以什么后缀结束，介绍符号。

我们可以通过此方法来屏蔽css文件甚至js文件，当然目前我们不是很清楚蜘蛛对于js爬取情况，有朋友做过类似测试的或者查看过日志文件朋友可以分享下。

robots.txt的语法和写法详解

robots.txt的语法和写法详解robots.txt是⼀个纯⽂本⽂件，是搜索引擎蜘蛛爬⾏⽹站的时候要访问的第⼀个⽂件，当蜘蛛访问⼀个站点时，它会⾸先检查该站点根⽬录下是否存在robots.txt，如果存在，搜索机器⼈就会按照该⽂件中的内容来确定访问的范围，相当于⽹站与搜索引蜘蛛遵循协议，如果该⽂件不存在，所有的搜索蜘蛛将能够访问⽹站上所有没有被屏蔽的⽹页，作为站长，我们就可以通过robots.txt⽂件屏蔽掉错误的页⾯和⼀些不想让蜘蛛爬取和收录的页⾯，那么robots.txt该怎么样写呢? robots的语法： 1、User-agent 定义搜索引擎。

⼀般情况下，⽹站⾥⾯都是：User-agent: *，这⾥*的意思是所有，表⽰定义所有的搜索引擎。

⽐如，我想定义百度，那么就是User-agent: Baiduspider;定义google，User-agent: Googlebot。

2、Disallow 禁⽌爬取。

如，我想禁⽌爬取我的admin⽂件夹，那就是Disallow: /admin/。

禁⽌爬取admin⽂件夹下的login.html， Disallow: /admin/login.html。

3、Allow 允许。

我们都知道，在默认情况下，都是允许的。

那为什么还要允许这个语法呢?举个例⼦：我想禁⽌admin⽂件夹下的所有⽂件，除了.html的⽹页，那怎么写呢?我们知道可以⽤Disallow⼀个⼀个禁⽌，但那样太费时间很精⼒了。

这时候运⽤Allow就解决了复杂的问题，就这样写： Allow: /admin/.html$ Disallow: /admin/。

4、$ 结束符。

例：Disallow: .php$ 这句话的意思是，屏蔽所有的以.php结尾的⽂件，不管前⾯有多长的URL，如abc/aa/bb//index.php 也是屏蔽的。

5、* 通配符符号0或多个任意字符。

例：Disallow: *?* 这⾥的意思是屏蔽所有带“?”⽂件，也是屏蔽所有的动态URL。

robots.txt 规则

robots.txt 规则Robots.txt规则是指一种文本文件，用于告诉网络爬虫哪些网页可以被抓取和哪些不能被抓取。

这种文本文件一般位于网站的根目录下，并且被称为robots.txt。

在此文档中，我们将深入探讨Robots.txt规则的作用、常见用法以及一些常见问题和解决方法。

我们希望这份文档能够帮助所有网站管理员了解如何正确地使用Robots.txt规则。

一、Robots.txt规则的作用网站管理员可以使用Robots.txt规则来控制搜索引擎爬虫在网站中爬取哪些页面。

通过使用Robots.txt规则，网站管理员可以：1.控制搜索引擎爬虫的访问：通过告诉搜索引擎爬虫哪些页面可以被访问，哪些页面不能被访问，网站管理员可以控制搜索引擎爬虫的抓取范围，从而减少网站流量和服务器资源消耗。

2.保护网站的机密信息：如果网站包含一些敏感信息，例如用户帐号，Robots.txt规则可以用来防止搜索引擎爬虫抓取这些页面。

3.提高网站的安全性：Robots.txt规则还可以用来防止黑客针对网站进行攻击。

4.提高网站在搜索引擎中的排名：通过设置Robots.txt规则，网站管理员可以指示搜索引擎爬虫访问网站的重要页面，从而提高网站在搜索引擎中的排名。

二、Robots.txt规则的常见用法Robots.txt规则由一组指令组成，每个指令对应一种行为。

下面列出了Robots.txt最常用的指令。

er-agent:该指令告诉搜索引擎爬虫哪些User-agent可以访问网站。

例如，要允许Googlebot访问网站，可以使用以下指令：User-agent: Googlebot这样，所有以Googlebot作为user-agent的搜索引擎爬虫都可以访问网站。

2.Disallow:该指令告诉搜索引擎爬虫哪些页面不能被访问。

例如，要禁止搜索引擎爬虫访问/admin目录下的所有页面，可以使用以下指令：User-agent: * Disallow: /admin/这样，所有搜索引擎爬虫都不能访问/admin目录下的任何页面。

robots的写法

网站robots的写法站长的工作是设计精美的网站，为大众展现网站丰富多彩的内容。

当然，我们也希望精心设计的网站获得理想的排名，这就要求我们去研究搜索引擎排名规律，最大程度的获得机会展现给客户。

然而，搜索引擎种类很多，有时候，我们对某一种搜索引擎的排名很好，却在另外的搜索引擎上面获得不到一样的排名，原因是各个搜索引擎规则不一样。

为此，有人复制出相同的内容以应付不同搜索引擎的排名规则，制造出大量的重复页面。

搜索引擎一旦发现就会给予惩处。

为此，robots的出现了。

一、r obots的基本概念和功能robots.txt文件是网站的一个文件，它是给搜索引擎蜘蛛看的。

搜索引擎蜘蛛爬行道我们的网站首先就是抓取这个文件，根据里面的内容来决定对网站文件访问的范围。

robots.txt 也可用在某一目录中。

对这一目录下的文件进行搜索范围设定。

几点注意：1）网站必须要有一个robots.txt文件。

2）文件名是小写字母。

3）当需要完全屏蔽文件时，需要配合meta的robots属性。

robots具有两个主要功能：一个功能是屏蔽重复页面另一个功能是屏蔽如让抓取的页面比如隐私。

对于不同的搜索引擎展现不同的搜索路径，在robots中有哪些搜索引擎和其对应的User-agent呢？下面，我列出了一些，以供参考。

搜索引擎User-AgentAltaVista Scooterbaidu BaiduspiderInfoseek InfoseekHotbot SlurpAOL Search SlurpExcite ArchitextSpiderGoogle GooglebotGoto SlurpLycos LycosMSN SlurpNetscape GooglebotNorthernLight GulliverWebCrawler ArchitextSpiderIwon SlurpFast FastDirectHit GrabberYahoo Web Pages GooglebotLooksmart Web Pages Slurp二、robots.txt的语法内容项的基本格式：域: 值对。

robots.txt使用和写法

robots使用和写法：1、什么是robots.txt?robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

2、robots.txt的语法"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)，每一条记录的格式如下所示:"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。

该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下:User-agent:该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。

如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow :该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。

robots.txt和Robot.txt准确代码的写法说明

robots.txt和Robot.txt准确代码的写法说明国内很多网民都不知道 robots.txt 是干什么的，没有大重视、今天希望看到本文章学习到 robots.txt 的准确解释和使用方法！robots.txt基本介绍robots.txt 是一个纯文本的txt文本文档文件，这种重命名的文本文档是用在网站目录下存储！只有百度，搜搜，搜狗搜索，360搜索等搜索引擎网站上调用的声明！搜索引擎也可以叫《蜘蛛》（例如：站长只想让百度里能搜到本站，就可以用robots.txt上写段代码就能实现！）robots.txt 使用方法：robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt写作语法首先，我们来看一个 robots.txt 的写法案例：访问以上具体地址，我们可以看到robots.txt的具体内容如下：# Robots.txt file from# All robots will spider the domainUser-agent: *Disallow:以上文本表达的意思是允许所有的搜索机器人访问站点下的所有文件。

代码第一行：#解释：只要有“#”开头的一行全被隐藏的！（一般不需要写）写法：“#”后面不管填写任何文字都不会有影响！（只是起到隐藏作用）我们一般填写声明就可以了！代码第二行：User-agent:解释：这是控制蜘蛛访问的代码（用来设置蜘蛛的白黑名单）写法：“User-agent:”后面就可以填写百度蜘蛛名称或者搜狗蜘蛛名称！例如：只允许百度蜘蛛：User-agent: BadBot所有蜘蛛可访问：User-agent: *代码第三行：Disallow:解释：这是控制蜘蛛动态的黑名单写法：“Disallow:” 后面可填写以下禁止访问本站所有内容：/禁止访问本站指定目录：/01/允许访问本站指定目录：/01禁止访问目录下的格式：/01*.html允许访问目录下的格式：/01/index.html代码第四行：Allow:解释：访问一组URL或者关键字母的文件名和目录名写法：“Allow:”后面可以填写关键字母例如：Allow:/index演示：即可访问：/index.html/index.asp/index/index.html/index/indextop.html/indexlogo/indexnamo.html====================================== =模拟蜘蛛写法案例说明1. 允许所有的robot访问User-agent: *Allow:或者User-agent: *Disallow:2. 禁止所有搜索引擎访问网站的任何部分User-agent: *Disallow: /3. 仅禁止Baiduspider访问您的网站User-agent: BaiduspiderDisallow: /4. 仅允许Baiduspider访问您的网站User-agent: BaiduspiderDisallow:5. 禁止spider访问特定目录User-agent: *Disallow: /cofig/Disallow: /totm/Disallow: /~jot/6. 允许访问特定目录中的部分urlUser-agent: *Allow: /acgi-lbin/sseeAllow: /tml/itmAllow: /~jotw/bookDisallow: /cdgi-bins/Disallow: /ddw/Disallow: /~jseoe/7. 使用”*”限制访问url禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

robots.txt文件的作用和语法介绍

robots.txt文件的作用和语法介绍1、什么是robots.txt文件搜索引擎有自己的搜索习惯，当它对一个网站进行搜索时，哪些目录和文件要看，哪些不用看，它有自己的算法。

我们也可以自己建立一个robots.txt文件，告诉搜索引擎的机器人哪些可以被收录，哪些不需要收录。

这样可以节约自己网站的资源，提高被搜索引擎收录的效率。

２、robots.txt放置位置robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

３、robots相关语法1)User-agent: 适用下列规则的漫游器(搜索引擎)该项的值用于描述搜索引擎robot的名字。

在robots.txt文件中，如果有多条User-agent 记录，就说明有多个robot会受到robots.txt的限制，对该文件来说，至少要有一条User-agent 记录。

如果该项的值设为*，则对任何robot均有效。

●Google爬虫名称: Googlebot●百度（Baidu）爬虫名称：Baiduspider●雅虎（Yahoo）爬虫名称：Yahoo Slurp●有道（Yodao）蜘蛛名称：YodaoBot●搜狗（sogou）蜘蛛名称：sogou spider●MSN的蜘蛛名称(微软最新搜索引擎Bing蜘蛛名也是这个)：Msnbot２）Disallow: 拒绝访问的目录或文件该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被robot访问。

例如：Disallow:/seo.html 表示禁止robot访问文件/seo.html３）Allow:允许访问的目录或文件该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。

例如：Allow:/hibaidu/ 表示允许robot访问目录/hibaidu/4)使用通配符"*"和"$"：$ 匹配行结束符。

什么是robot.txt及其作用

什么是robot.txt及其作用1、什么是robots.txt文件？robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

语法：最简单的robots.txt文件使用两条规则：?User-Agent:适用下列规则的漫游器?Disallow:要拦截的网页2、robots.txt文件重要属性认识?“<field>:<optionalspace><value><optionalspace>”。

“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。

该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：A、User-agent:该项的值用于描述搜索引擎robot的名字，在”robots.txt”文件中，如果有多条User- agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。

如果该项的值设为*，则该协议对任何机器人均有效，在”robots.txt”文件中，”User-agent:*”这样的记录只能有一条。

B、Disallow:该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对于seo学习博客在谷歌的收录有很多的过期页面的问题，黑雨seo找了很多的资料，robots.txt怎么写?首先要解决的问题是：什么是robots.txt?①什么是robots.txt?这是一个文本文件，是搜索引擎爬行网页要查看的第一个文件，你可以告诉搜索引擎哪些文件可以被查看，哪些禁止。

当搜索机器人(也叫搜索蜘蛛)访问一个站点时，它首先会检查根目录是否存在robots.txt，如果有就确定抓取范围，没有就按链接顺序抓取。

②robots.txt有什么用为何需要用robots.txt这个文件来告诉搜索机器人不要爬行我们的部分网页，比如：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

说到底了，这些页面或文件被搜索引擎收录了，用户也看不了，多数需要口令才能进入或是数据文件。

既然这样，又让搜索机器人爬行的话，就浪费了服务器资源，增加了服务器的压力，因此我们可以用robots.txt告诉机器人集中注意力去收录我们的文章页面。

增强用户体验。

③robots.txt如何配置：robots.txt基本语法User-agent: *Disallow: /我们在说这四行是什么意思之前来先看看robots.txt的几个关键语法：a、User-agent: 应用下文规则的漫游器，比如Googlebot,Baiduspider等。

b、Disallow: 要拦截的网址,不允许机器人访问。

c、Allow: 允许访问的网址d、”*”: 通配符—匹配0或多个任意字符。

e、”$”: 匹配行结束符。

f、”#”: 注释—说明性的文字,不写也可。

g、Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。

h、Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。

i、目录、网址的写法:都以以正斜线(/) 开头。

如Disallow:/Disallow:/images/Disallow:/admin/Disallow:/css/由此可看：上面例子所表示的意思是禁止所有搜索引擎访问网站的任何部分。

下面，我们列举一些robots.txt 具体用法：1、允许所有的robot访问User-agent: *Disallow:或者User-agent: *Allow: /或者建一个空文件”robots.txt”即可。

2、仅禁止某个机器人访问您的网站，如Baiduspider。

User-agent: BaiduspiderDisallow: /3、仅允许某个机器人访问您的网站，如Baiduspider。

User-agent: BaiduspiderDisallow:User-agent: *Disallow: /4、禁止访问特定目录User-agent: *Disallow: /admin/Disallow: /css/Disallow: /*script/5、允许访问特定目录中的部分urlUser-agent: *Allow: /admin/user/Allow: /data/d.htmlDisallow: /admin/Disallow: /data/6、使用”*”限制访问urlUser-agent: *Disallow: /upload/*.jspx禁止访问/upload/目录下的所有以”.jspx”为后缀的URL(包含子目录)。

7、使用”$”限制访问urlUser-agent: *Allow: .htm$Disallow: /仅允许访问以”.htm”为后缀的URL。

8、禁止访问网站中所有的动态页面User-agent: *Disallow: /*?*9、禁止Baiduspider抓取网站上所有图片User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$10、仅允许Baiduspider抓取网页和.gif格式图片User-agent: BaiduspiderAllow: .gif$Disallow: .jpg$Disallow: .jpeg$Disallow: .png$Disallow: .bmp$允许抓取网页和gif格式图片，不允许抓取其他格式图片怎么样，例子也不难理解吧…紧接着再来看下一个问题：robots.txt文件里还可以直接包括在sitemap文件的链接。

但加上这句话时，请特别读下面这段话：目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。

而中文搜索引擎公司，显然不在这个圈子内。

这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

注意:robots.txt的所有指令都区分大小写。

另：Googlebot 会忽略robots.txt 中的空白内容(特别是空行)和未知指令。

另外下面进行一些扩展知识，对robots与meta的关系进行一些介绍。

Robots META标签则主要是针对一个个具体的页面。

和其他的META标签(如使用的语言、页面的描述、关键词等)一样，Robots META标签也是放在页面的中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

今日访进谷歌网站管理工具查看软问吧，突然发现受robots.txt 限制页面106个，进软问吧-找软件论坛看，发现限制了很多目录。

关于这个robots.txt，此文件为一纯文本文件，放置于网站根目录下，其作用就是声明不被搜索引擎或者说蜘蛛抓去的目录。

④范例robots.txt文件## robots.txt for Discuz! Board# V ersion 7.0.0#User-agent: *Disallow: /admin/Disallow: /api/Disallow: /attachments/Disallow: /images/Disallow: /install/Disallow: /forumdata/Disallow: /include/Disallow: /ipdata/Disallow: /modcp/Disallow: /templates/Disallow: /plugins/Disallow: /wap/Disallow: /uc_client/Disallow: /uc_server/Disallow: /admincp.phpDisallow: /ajax.phpDisallow: /logging.phpDisallow: /member.phpDisallow: /memcp.phpDisallow: /misc.phpDisallow: /my.phpDisallow: /pm.phpDisallow: /post.phpDisallow: /register.phpDisallow: /rss.phpDisallow: /search.phpDisallow: /seccode.phpDisallow: /topicadmin.phpDisallow: /space.phpDisallow: /modcp.php对此文件的简单解释：1.#后面为注释行，可以随意写。

er-agent 是一种特定的搜索引擎漫游器后面的*代表所有搜索引擎，如果是Googlebot就代表Google网页搜索，如果是Baiduspider就代表百度网页抓取，其他代表见网络漫游器数据库。

3.Disallow则表示不允许访问的目录，allow表示允许访问的目录。

最简单的robots.txt 文件使用两条规则：User-agent：应用以下规则的漫游器Disallow：要拦截的网址这两行会视为文件中的一个条目。

您可根据需要加入任意多个条目。

您可在一个条目中加入多个Disallow 行和多个User-agent。

User-agent 是一种特定的搜索引擎漫游器。

网络漫游器数据库列出了许多常用的漫游器。

您可以将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于所有漫游器(以标记为星号的方式列出)。

适用于所有漫游器的条目应为以下格式：User-agent: *Google 使用多种不同的漫游器(User-agent)。

Google的网页搜索所使用的漫游器为Googlebot。

Googlebot-Mobile 和Googlebot-Image 等其他漫游器也会遵循您为Googlebot 所设置的规则，但您也可以为这些特定的漫游器设置特定的规则。

Disallow 行列出的是您要拦截的网页。

您可以列出某一特定的网址或模式。

条目应以正斜线(/) 开头。

要拦截整个网站，请使用正斜线。

Disallow: /要拦截某一目录以及其中的所有内容，请在目录名后添加正斜线。

Disallow: /无用目录/要拦截某个网页，请列出该网页。

Disallow: /私人文件.html要从Google 图片搜索中删除某张特定图片，请添加以下内容：User-agent: Googlebot-ImageDisallow: /图片/狗.jpg要从Google 图片搜索中删除您网站上的所有图片，请使用以下内容：User-agent: Googlebot-ImageDisallow: /要拦截某一特定文件类型的文件(例如.gif)，请使用以下内容：User-agent:GooglebotDisallow: /*.gif$要阻止抓取您网站上的网页，而同时又能在这些网页上显示Adsense 广告，请禁止除Mediapartners-Google 以外的所有漫游器。

这样可使网页不出现在搜索结果中，同时又能让Mediapartners-Google 漫游器分析网页，从而确定要展示的广告。

Mediapartners-Google 漫游器不与其他Google User-agent 共享网页。

例如：User-agent: *Disallow: /文件夹1/User-agent: Mediapartners-GoogleAllow: /文件夹1/请注意，指令区分大小写。

Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。

要匹配连续字符，请使用星号(*)。

例如，要拦截对所有以private 开头的子目录的访问，请使用以下内容：User-agent: GooglebotDisallow: /private*/要拦截对所有包含问号(?) 的网址的访问(具体地说，这种网址以您的域名开头、后接任意字符串，然后接问号，而后又接任意字符串)，请使用以下内容：User-agent: GooglebotDisallow: /*?要指定与某个网址的结尾字符相匹配，请使用$。