2009年7月7日
robots.txt 文件相信大部分网站很少会用到,除非是对某些搜索引擎深恶性痛绝(如:来访过频对服务器带来压力、部分页面不希望被抓取,等)。最近某人也是因为某些原因对某些搜索引擎的spider作了部分限制。
在站点根目录下放置robots.txt是一件很慎重的事,搞不好就把自己给Kill了,呵呵,小心为妙。
robots.txt语法:
最简单的 robots.txt 文件使用两条规则:
User-agent:应用以下规则的漫游器
Disallow:要拦截的网址
这两行会视为文件中的一个条目。可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。
...
2009年7月7日
各类网络搜索引擎spider蜘蛛User-Agent标志
baidu: "Baiduspider+(+http://www.baidu.com/search/spider.htm)
baidu代码: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322, Baidu-Transcoder/1.0.6.0, gate.baidu.com)
Goolgle : Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
...