转载robots.txt 使用,引导搜索引擎抓取

张映 发表于 2010-03-29

分类目录: seo

标签:, ,

什么是robots.txt?

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人robots(有的叫搜索蜘蛛或者爬虫)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。

robots.txt 文件限制抓取网络的搜索引擎爬虫对您的网站的访问。这些搜索引擎爬虫是自动的,它们在访问任意网站的网页之前,都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。(虽然某些搜索引擎爬虫可能会以不同的方式解释 robots.txt 文件中的指令,但所有正规的搜索引擎爬虫都会遵循这些指令。然而,robots.txt 不是强制执行

的,一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此,我们建议对机密信息采用密码保护。)

只有当您的网站中包含您不想让搜索引擎编入索引的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引,则不需要 robots.txt 文件(甚至连空的 robots.txt 文件也不需要)。

为了能使用 robots.txt 文件,您必须要有对您网站的根目录的访问权限(如果您不能确定是否有该权限,请与您的网络托管商核实)。如果您没有对网站的根目录的访问权限,可以使用robots元标记来限制访问。

如何使用元标记拦截对您网站的访问?

将以下元标记添加到网页的 <head> 部分:

<meta name="robots" content="noindex">

例如要允许其他搜索引擎将网站中的网页编入索引,仅阻止 Google 的爬虫对网页采取同样操作,请将以下元标记添加到网页的 <head> 部分:

<meta name="googlebot" content="noindex">

robots.txt 语法规则,这里以google搜索引擎为例

最简单的 robots.txt 文件使用两条规则:

User-agent:应用以下规则的漫游器
Disallow:要拦截的网址
这两行会视为文件中的一个条目。您可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。

robots.txt 文件的各个部分都是独立的,而不是在先前部分的基础上构建的。例如:

User-agent: *
Disallow: /文件夹 1/
User-Agent: Googlebot
Disallow: /文件夹 2/

在本例中,只有符合 /文件夹 2/ 的网址才会被 Googlebot 禁止。

User-agent 和漫游器

User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于所有漫游器(以标记为星号的方式列出)。适用于所有漫游器的条目应为以下格式:

User-agent: *

Google 使用多种不同的漫游器 (User-agent)。我们的网页搜索所使用的漫游器为 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也会遵循您为 Googlebot 所设置的规则,但您也可以为这些特定的漫游器设置特定的规则。

拦截 User-agent

Disallow 行列出的是您要拦截的网页。您可以列出某一特定的网址或模式。条目应以正斜线 (/) 开头。

  • 要拦截整个网站,请使用正斜线。
  • Disallow: /

  • 要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线。
  • Disallow: /无用目录/
  • 要拦截某个网页,请列出该网页。
  • Disallow: /私人文件.html
  • 要从 Google 图片中删除特定图片,请添加以下内容:
  • User-agent: Googlebot-Image
    Disallow: /图片/狗.jpg
  • 要从 Google 图片中 除您网站上的所有图片,请执行以下指令:
  • User-agent: Googlebot-Image
    Disallow: /
  • 要拦截某一特定文件类型的文件(例如 .gif),请使用以下内容:
  • User-agent: Googlebot
    Disallow: /*.gif$
  • 要阻止抓取您网站上的网页,而同时又能在这些网页上显示 Adsense 广告,请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使网页不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析网页,从而确定要展示的广告。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。例如:
  • User-agent: *
    Disallow: /
    User-agent: Mediapartners-Google
    Allow: /

    请注意,指令区分大小写。例如,Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp,却会允许 http://www.example.com/Junk_file.asp。Googlebot 会忽略 robots.txt 中的空白内容(特别是空行)和未知指令。Googlebot 支持通过 robots.txt 文件提交站点地图文件。

    模式匹配

    Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。

  • 要匹配连续字符,请使用星号 (*)。例如,要拦截对所有以 private 开头的子目录的访问,请使用以下内容:
  • User-agent: Googlebot
    Disallow: /private*/
  • 要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:
  • User-agent: Googlebot
    Disallow: /*?
  • 要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容:
  • User-agent: Googlebot
    Disallow: /*.xls$
  • 您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:
  • User-agent: *
    Allow: /*?$
    Disallow: /*?Disallow: /*?

    指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。

    在线生成Robots.txt

    默认 - 所有:  
    爬虫-延迟时间:
    网站地图: (可以不填写)
         
    主流搜索引擎: Google(谷歌)

    googlebot

      Baidu(百度)

    baiduspider

      Sogou(搜狗)

    sogou spider

      YouDao(有道)

    YodaoBot

      MSN Search

    msnbot

      Yahoo

    yahoo-slurp

      Ask/Teoma

    teoma

      Cuil

    twiceler

      GigaBlast

    gigabot

      Scrub The Web

    scrubby

      DMOZ Checker

    robozilla

      Nutch

    nutch

      Alexa/Wayback

    ia_archiver

      Naver

    naverbot, yeti

       
    其他搜索引擎: Google Image

    googlebot-image

      Google Mobile

    googlebot-mobile

      Yahoo MM

    yahoo-mmcrawler

      MSN PicSearch

    psbot

      SingingFish

    asterias

      Yahoo Blogs

    yahoo-blogs/v3.9

       
    限制目录 该路径是相对于根目录以 "/"结尾
     
     
     
     
     
       
    现在,复制并粘贴这个文本到一个空白的文本文件,保存为“robots.txt”,然后上传你网站的根目录。请注意文件的权限设置,确保可以访问,一般默认设置就可以了。


    转载请注明
    作者:海底苍鹰
    地址:http://blog.51yip.com/seo/505.html