谷歌的爬行蜘蛛叫googlebot,Googlebot 和Mediapartners-Google 是谷歌搜索引擎系统中非常勤奋的机器人,如果他们影响到你服务器的承受力,你可以通过 robots.txt 文件加以制止。
那么我们知道谷歌叫googlebot,国内百度蜘蛛又了更好的区分叫Baiduspider而不是baidubot,从百度蜘蛛Baiduspider的构建的原理不难知道,搜索引擎构建一个调度程序,来调度百度蜘蛛的工作,让百度蜘蛛去和服务器建立连接下载网页,计算的过程都是通过调度来计算的,百度蜘蛛只是负责下载网页,把下载回来的网页数据进行检索,经过深度优先和权重优先的计算,构成排名,然而开发者还可以提供连接的列表(俗称网站地图)提供给百度蜘蛛,来计算你的目录结构,找到通过站内连接来构建的重要页面。
搜索引擎索引数据库的更新需要时间。如果Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除,所以,如果不想让百度蜘蛛抓取索引,那么就要学会充分利用robots.txt协议,下面给出robots.txt协议的使用规范以便各位研究学习。
1、禁止所有搜索引擎访问网站的任何部分User-agent:*Disallow:/
2、允许所有的robot访问(或者也可以建一个空文件"/robots.txt")User-agent:*Allow:/另一种写法是User-agent:*Disallow:
3、仅禁止Baiduspider访问您的网站User-agent:BaiduspiderDisallow:/
4、仅允许Baiduspider访问您的网站User-agent:BaiduspiderAllow:/
5、禁止spider访问特定目录在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成"Disallow:/cgi-bin//tmp/"。User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/~joe/
6、允许访问特定目录中的部分urlUser-agent:*Allow:/cgi-bin/seeAllow:/tmp/hiAllow:/~joe/look
7、使用"*"限制访问url禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。User-agent:*Disallow:/cgi-bin/*.htm
8、使用"$"限制访问url仅允许访问以".htm"为后缀的URL。User-agent:*Allow:/.htm$
9、禁止访问网站中所有的动态页面User-agent:*Disallow:/*?*
10、禁止Baiduspider抓取网站上所有图片仅允许抓取网页,禁止抓取任何图片。User-agent:BaiduspiderDisallow:/*.jpg$Disallow:/*.jpeg$Disallow:/*.gif$Disallow:/*.png$Disallow:/*.bmp$
11、仅允许Baiduspider抓取网页和gif格式图片允许抓取网页和gif格式图片,不允许抓取其他格式图片User-agent:BaiduspiderAllow:.gif$Disallow:/.jpg$Disallow:/.jpeg$Disallow:/.png$Disallow:/.bmp$
12、仅禁止Baiduspider抓取jpg格式图片User-agent:BaiduspiderDisallow:/.jpg$