转载robots.txt 使用，引导搜索引擎抓取

张映发表于 2010-03-29

分类目录： seo

什么是robots.txt？

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人robots（有的叫搜索蜘蛛或者爬虫）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索引擎爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索引擎爬虫就沿着链接抓取。

robots.txt 文件限制抓取网络的搜索引擎爬虫对您的网站的访问。这些搜索引擎爬虫是自动的，它们在访问任意网站的网页之前，都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。（虽然某些搜索引擎爬虫可能会以不同的方式解释 robots.txt 文件中的指令，但所有正规的搜索引擎爬虫都会遵循这些指令。然而，robots.txt 不是强制执行

的，一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此，我们建议对机密信息采用密码保护。）

只有当您的网站中包含您不想让搜索引擎编入索引的内容时，才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引，则不需要 robots.txt 文件（甚至连空的 robots.txt 文件也不需要）。

为了能使用 robots.txt 文件，您必须要有对您网站的根目录的访问权限（如果您不能确定是否有该权限，请与您的网络托管商核实）。如果您没有对网站的根目录的访问权限，可以使用robots元标记来限制访问。

如何使用元标记拦截对您网站的访问？

将以下元标记添加到网页的 <head> 部分：

例如要允许其他搜索引擎将网站中的网页编入索引，仅阻止 Google 的爬虫对网页采取同样操作，请将以下元标记添加到网页的 <head> 部分：

robots.txt 语法规则，这里以google搜索引擎为例

最简单的 robots.txt 文件使用两条规则：

User-agent：应用以下规则的漫游器
Disallow：要拦截的网址
这两行会视为文件中的一个条目。您可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。

robots.txt 文件的各个部分都是独立的，而不是在先前部分的基础上构建的。例如：

User-agent: *
Disallow: /文件夹 1/
User-Agent: Googlebot
Disallow: /文件夹 2/

在本例中，只有符合 /文件夹 2/ 的网址才会被 Googlebot 禁止。

User-agent 和漫游器

User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为适用于某一特定漫游器（以显示名称的方式列出）或适用于所有漫游器（以标记为星号的方式列出）。适用于所有漫游器的条目应为以下格式：

User-agent: *

Google 使用多种不同的漫游器 (User-agent)。我们的网页搜索所使用的漫游器为 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也会遵循您为 Googlebot 所设置的规则，但您也可以为这些特定的漫游器设置特定的规则。

拦截 User-agent

Disallow 行列出的是您要拦截的网页。您可以列出某一特定的网址或模式。条目应以正斜线 (/) 开头。

要拦截整个网站，请使用正斜线。

Disallow: /

要拦截某一目录以及其中的所有内容，请在目录名后添加正斜线。

Disallow: /无用目录/

要拦截某个网页，请列出该网页。

Disallow: /私人文件.html

要从 Google 图片中删除特定图片，请添加以下内容：

User-agent: Googlebot-Image
Disallow: /图片/狗.jpg

要从 Google 图片中除您网站上的所有图片，请执行以下指令：

User-agent: Googlebot-Image
Disallow: /

要拦截某一特定文件类型的文件（例如 .gif），请使用以下内容：

User-agent: Googlebot
Disallow: /*.gif$

要阻止抓取您网站上的网页，而同时又能在这些网页上显示 Adsense 广告，请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使网页不出现在搜索结果中，同时又能让 Mediapartners-Google 漫游器分析网页，从而确定要展示的广告。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。例如：

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

请注意，指令区分大小写。例如，Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp，却会允许 http://www.example.com/Junk_file.asp。Googlebot 会忽略 robots.txt 中的空白内容（特别是空行）和未知指令。Googlebot 支持通过 robots.txt 文件提交站点地图文件。

模式匹配

Googlebot（但并非所有搜索引擎）遵循某些模式匹配原则。

要匹配连续字符，请使用星号 (*)。例如，要拦截对所有以 private 开头的子目录的访问，请使用以下内容：

User-agent: Googlebot
Disallow: /private*/

要拦截对所有包含问号 (?) 的网址的访问（具体地说，这种网址以您的域名开头、后接任意字符串，然后接问号，而后又接任意字符串），请使用以下内容：

User-agent: Googlebot
Disallow: /*?

要指定与某个网址的结尾字符相匹配，请使用 $。例如，要拦截以 .xls 结尾的所有网址，请使用以下内容：

User-agent: Googlebot
Disallow: /*.xls$

您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 代表一个会话 ID，那么您可能希望排除包含 ? 的所有网址，以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下，您可以对您的 robots.txt 文件进行如下设置：

User-agent: *
Allow: /*?$
Disallow: /*?Disallow: /*?

指令会阻止包含 ? 的所有网址（具体地说，它将拦截所有以您的域名开头、后接任意字符串，然后接问号，而后又接任意字符串的网址）。Allow: /*?$ 指令将允许以 ? 结尾的任何网址（具体地说，它将允许所有以您的域名开头、后接任意字符串，然后接 ?，? 之后不接任何字符的网址）。

在线生成Robots.txt

默认 - 所有:
爬虫-延迟时间:
网站地图: (可以不填写)

主流搜索引擎:	Google(谷歌)	googlebot
	Baidu(百度)	baiduspider
	Sogou(搜狗)	sogou spider
	YouDao(有道)	YodaoBot
	MSN Search	msnbot
	Yahoo	yahoo-slurp
	Ask/Teoma	teoma
	Cuil	twiceler
	GigaBlast	gigabot
	Scrub The Web	scrubby
	DMOZ Checker	robozilla
	Nutch	nutch
	Alexa/Wayback	ia_archiver
	Naver	naverbot, yeti

其他搜索引擎:	Google Image	googlebot-image
	Google Mobile	googlebot-mobile
	Yahoo MM	yahoo-mmcrawler
	MSN PicSearch	psbot
	SingingFish	asterias
	Yahoo Blogs	yahoo-blogs/v3.9

限制目录	该路径是相对于根目录以 "/"结尾







现在，复制并粘贴这个文本到一个空白的文本文件，保存为“robots.txt”，然后上传你网站的根目录。请注意文件的权限设置，确保可以访问，一般默认设置就可以了。

转载请注明
作者:海底苍鹰
地址:http://blog.51yip.com/seo/505.html

留下评论

抱歉，发表回复评论您必须登录。

海底苍鹰(tank)博客

－－一步，二步，三步，N步，二行脚印

赞助本站

关于我

留言板

开发手册

linux命令

首页