Robots.txt是什么?
Robots英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。
有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。
SEO中常说的这个探测器(Robots)是什么?
搜索引擎用来抓取网页的工具。它是一个软件或者说一系列自动程序(显然,不是一部机器)。
Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用”Disallow: *.gif”这样的通配符。
其他的影响搜索引擎的行为的方法包括使用robots元数据:
<meta name=”robots” content=”noindex,nofollow” />
这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面
robots.txt文件放在哪里?
robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站时,首先会检查该网站中是否存在这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
常见Robots名字:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
在线写robots.txt的工具http://www.3464.com/Tools/Robots/。
最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录