Robot.txt 与 SEO

2012-12-14
  • 1545
  • 0

很多站长可能都发现了,有的时候,你网站的内容在一个搜索引擎中被索引,即使你从来没有向这个搜索引擎提交过你的网站。这就归功于搜索引擎Robot(又叫Spider),这个永远不知道疲倦的Web Crawler,不放过任何串门的机会。但是什么事都有利有弊,为了保护你不愿公布于世的内容,我们可以做一些设置,既不至于让Robot在你网站上横行霸道,又能引导Robot更好的为你的网站服务。为你的网站生成一个Robot.txt文件是不错的办法。

Robot.txt是一个纯文本文件,放在网站根目录下,其中指定哪些内容收录,哪些内容不收录,当搜索引擎来你网站时,会先检查Robot.txt,如果这个文件存在,则会根据文件中指定的范围来爬取网站。如同为繁华的街道设了路标,让Robot顺着标示畅快通行。

Robot.txt格式设置方法如下:

User-agent:*

Disallow:

Robot.txt文件中至少有一条User-agent,该项的值设为*,则允许任何搜索引擎访问。

Disallow用来阻止一个URL被访问,比如涉及网站隐私或站长个人不想让搜索引擎访问的页面,绝对URL和相对URL均可,所有被Disallow的URL都不会被Spider访问到。

那么Robot.txt 与 SEO是什么关系呢?其实二者并没有充分必要条件,将其放在一起讨论是为了说明Robot.txt在网站SEO过程中的不容忽视性。所以在做网站SEO的同时,利用Robot.txt巧妙地处理棘手的问题,可谓是一举两得啊。

Robot.txt具体设置方法请参考官网:http://www.robotstxt.org/