老生常谈ROBOTS.TXT的写法

　　记得很早以前，那个时间新浪屏蔽百度蜘蛛的事件传得很大，其实你主要是学会了ROBOTS.TXT的写法，那就简单的了，两下就认出了这事的真假。所以说学好技术，可以更好的知道真相。

　　首先，我们先来认识我们亲爱的蜘蛛们吧：

　　国内的搜索引擎蜘蛛

　　百度蜘蛛：baiduspider

　　搜狗蜘蛛：sogou spider

　　有道蜘蛛：YodaoBot和OutfoxBot

　　搜搜蜘蛛： Sosospider

　　国外的搜索引擎蜘蛛

　　google蜘蛛： googlebot

　　yahoo蜘蛛：Yahoo！ Slurp

　　alexa蜘蛛：ia_archiver

　　bing蜘蛛（MSN）：msnbot

　　Robots.txt的几个常用英文意思

　　• User-Agent：适用下列规则的漫游器

　　• Allow：充许被抓取的网页

　　• Disallow：要拦截的网页

　　Robots.txt的两个常用符号

　　“*”：匹配0或多个任意字符（也有所有的意思）

　　“$”：匹配行结束符。

　　介绍得差不多了，下面来进入正题，Robots.txt：

　　一、充许所有的蜘蛛抓取：

　　User-agent： *

　　Disallow：

　　或者

　　User-agent： *

　　Allow： /

　　（*号可以理解为所以的意思）

　　二、禁止所有的robot抓取

　　User-agent： *

　　Disallow： /

　　三、禁止某一蜘蛛抓取：

　　User-agent：蜘蛛名（上面介绍得有）

　　Disallow： /

　　四、只充许某一蜘蛛抓取：

　　User-agent：蜘蛛名（上面介绍得有）

　　Disallow：

　　User-agent： *

　　Disallow： /

　　上半部分是禁止该蜘蛛抓取，下半部分是充许所有，总体意思就是禁止此蜘蛛，充许其它蜘蛛。

　　五、禁止蜘蛛抓取某些目录

　　如禁止抓取admin和manage目录

　　User-agent： *

　　Disallow： /admin/

　　Disallow： /manage/

　　六、禁止蜘蛛特定后缀文件，这个用“*”号

　　如禁止抓取.htm的文件

　　User-agent： *

　　Disallow： *.htm（*号后面然后是点文件名，如.asp，.php）

　　七、仅充许抓取特定后缀文件，这个用“$”号

　　如仅充许.htm的文件

　　User-agent： *

　　Allow： .htm$

　　Disallow： /

　　（图片也可以参考第六条和第七条这个样子）

　　八、禁止抓取动态网页

　　User-agent： *

　　Disallow： /*？*

　　这个在论坛很有用，一般伪静态后，就不需要搜索引擎再收录其动态地址了。做论坛的朋友们注意了。

　　九、声明网站地图sitemap

　　这个告诉搜索引擎你的sitemap在哪

　　Sitemap： http://你的域名/sitemap.xml

　　做完这些我们如何检查我们的robots.txt这个文件的有效性呢？推荐使用 Google管理员工具，登录后访问“工具 ->分析 robots.txt”，检查文件有效性。

在线留言