1.百度和所有搜索引擎都遵循Robots协议。
可以设置一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。如果您的网站在被百度收录之后才设置Robots文件禁止抓取,那么新的Robots文件通常会在48小时内生效,生效以后的新网页,将不再建入索引。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。如果您的拒绝被收录需求非常急迫,可以在反馈中心反馈,会有百度的高级工程师人员处理。
2.我们需要设置机器人文件,以限制搜索引擎包括您的网站或网站目录中的一些网页。具体写法,参见:如何撰写Robots文件。
如何撰写Robots文件
看到很多网站都没有robots文件,那么一个常规的robots.txt文件应该要这么写呢, 耿真seo明天给大家来说说robots.txt怎样写,robots文件常规的写法。
下面是robots文件的格式指令,可以通过指令告诉搜索引擎是否采集收录。
1、允许一切搜索引擎拜候 User-agent: * Allow:
2、制止一切搜索引擎拜候 User-agent: * Disallow: /
3、网站地图:Sitemap
明白怎样写了吗,但很多站长朋友还是不晓得哪些页下面需求屏蔽,让搜索引擎不被访问,其实很复杂,不想被搜索引擎抓取的页下面就屏蔽,那么哪些页下面是我们不想被搜索引擎抓取的呢。
空白页下面:什么是空白页下面,比如注册页下面、联络我们、关于我们等页下面属于空白页下面,由于这种页下面在搜索引擎看来是没有意义的,没有人会搜索注册离开你的网站。
后台页下面:后台是不被搜索引擎收录的,所以我们需求robots屏蔽后台登陆页下面。
静态页下面:通常状况下,我们网站都会做伪静态,那么静态页下面我们会屏蔽掉。
总结:robots文件有必要写,一来给搜索引擎做个更好的第一印象,其次是给搜索引擎做一个网站地图。
3.如果包含的页面需要蜘蛛来禁止爬行,那么在我们设置好Robots协议后,新的Robots文件可以用百度站长平台工具主动更新Robots文件,Robots协议会立即生效,以后不会对新的页面进行索引。
但是,需要注意的是,如果robots.txt文件禁止搜索引擎包含之前包含的内容,那么搜索引擎将从搜索结果中移除之前的网页,并且需要大约几周的时间来更新。