关于robots.txt的写法

2013-11-27
  • 788
  • 0
前一阵工作中,总是会遇到robots.txt的问题,自己对于这方面的知识储备不足,于是每次遇上robots便会一个头两个大。如何打破robots.txt的瓶颈问题,成了我整天惦记的事。 通过在百度上搜索相关知识,发现很多内容都是以前上课的时候,Allen老师讲过的内容,我居然没有跟实际情况联系起来!这次选择“关于robots.txt的写法”作为短文章的主题,也算是对已学知识的一个温习吧。 Robots.txt的文件必须放在目标网站的根目录下,这样可以使搜索引擎蜘蛛在一开始抓取数据的时候就能意识到,有哪些内容可以抓取,有哪些内容不可以抓取。若网站没有禁止搜索引擎蜘蛛抓取的内容,robots.txt就可以设置为空。 需要注意的一点是,robots.txt的文件名必须得是小写字母,放在根目录下,且是纯文本文件。 Robots.txt的语法内容: User-agent: 代表搜索引擎的蜘蛛名 Disallow: 代表禁止搜索引擎蜘蛛抓取的内容 Allow:代表允许搜索引擎蜘蛛抓取的内容 例如: 1. User-agent: * 代表禁止所有搜索引擎蜘蛛抓取目录1、目录2、目录3 Disallow: /目录名1/

  Disallow: /目录名2/

  Disallow: /目录名3/

2. User-agent: Googlebot 代表禁止Google蜘蛛抓取security目录下的内容

  Disallow: /security/

3. User-agent: *  代表禁止所有搜索引擎蜘蛛抓取ppt目录,但是允许360Spider抓取所有内容 Disallow: /ppt/ User-agent: 360Spider Disallow: 4. User-agent: *  代表禁止所有搜索引擎蜘蛛抓取beauty目录,但是允许蜘蛛抓取beauty目录下face目录 Disallow: /beauty/ Allow:/ beauty/face/ 优化网站时,若是进行了网站的重新建设改版,那么就会出现很多死链及对搜索引擎蜘蛛不友好的链接,这个时候就需要我们设置robots.txt来屏蔽掉那些链接。

前一阵工作中,总是会遇到robots.txt的问题,自己对于这方面的知识储备不足,于是每次遇上robots便会一个头两个大。如何打破robots.txt的瓶颈问题,成了我整天惦记的事。

通过在百度上搜索相关知识,发现很多内容都是以前上课的时候,Allen老师讲过的内容,我居然没有跟实际情况联系起来!这次选择“关于robots.txt的写法”作为短文章的主题,也算是对已学知识的一个温习吧。

Robots.txt的文件必须放在目标网站的根目录下,这样可以使搜索引擎蜘蛛在一开始抓取数据的时候就能意识到,有哪些内容可以抓取,有哪些内容不可以抓取。若网站没有禁止搜索引擎蜘蛛抓取的内容,robots.txt就可以设置为空。

需要注意的一点是,robots.txt的文件名必须得是小写字母,放在根目录下,且是纯文本文件。

Robots.txt的语法内容:

User-agent: 代表搜索引擎的蜘蛛名

Disallow: 代表禁止搜索引擎蜘蛛抓取的内容

Allow:代表允许搜索引擎蜘蛛抓取的内容

例如:

1. User-agent: * 代表禁止所有搜索引擎蜘蛛抓取目录1、目录2、目录3

Disallow: /目录名1/

  Disallow: /目录名2/

  Disallow: /目录名3/

2. User-agent: Googlebot 代表禁止Google蜘蛛抓取security目录下的内容

  Disallow: /security/

3. User-agent: *  代表禁止所有搜索引擎蜘蛛抓取ppt目录,但是允许360Spider抓取所有内容

Disallow: /ppt/

User-agent: 360Spider

Disallow:

4. User-agent: *  代表禁止所有搜索引擎蜘蛛抓取beauty目录,但是允许蜘蛛抓取beauty目录下face目录

Disallow: /beauty/

Allow:/ beauty/face/

优化网站时,若是进行了网站的重新建设改版,那么就会出现很多死链及对搜索引擎蜘蛛不友好的链接,这个时候就需要我们设置robots.txt来屏蔽掉那些链接。