与淘宝类似,阻止百度蜘蛛抓取了淘宝。 当然,我们在进行网站优化时通常不需要屏蔽百度蜘蛛,但是在必要时,我们也会使用屏蔽蜘蛛,例如,需要通过屏蔽蜘蛛来抓取网站的登录页面和注册页面或动态页面。 以免权重分散。 下面来介绍几个屏蔽百度蜘蛛抓取的方法

一、robots.txt屏蔽百度蜘蛛抓取
淘宝网就是使用了这种技术来屏蔽百度抓取的,所以我们可以看到,在淘宝网的robots文件里面有一句这样的话:
User-agent: baiduspiderDisallow: /
其目的就是屏蔽百度蜘蛛抓取淘宝网的任意一个页面,但是这种方法屏蔽的并不是很完全,我们在百度搜索“淘宝网”还是会出现官方网站的。
二、robots Meta标签
robots Meta标签也可以屏蔽搜索引擎抓取,这种方法与robots类似,但是还是部分搜索引擎不支持,robots Meta用来对某几个页面单独设置时使用。其代码是写在“<head>…</head>”之间,如下所示:
<head> …
<meta name=”robots” content=”index,follow” />
</head>
三、.htaccess屏蔽
如果说使用robor无法全部屏蔽你的网站,那么你可以.htaccess屏蔽代码如下:
方法1:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]
方法2:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
四、服务器屏蔽
许多空间商为了减少服务器负担,故意屏蔽蜘蛛抓取,导致网站无法被搜索引擎收录,在这里我们也可以设置利用服务器屏蔽搜索器的抓取。主要原理是分析网站日志,找到搜索引擎抓取的IP,然后对其IP进行屏蔽。但是这种方法并不是很实用,毕竟不能屏蔽单页面和修改都不是很灵活。具体方法需要参考服务器设置。
总结:有很多方法,只是在此处写下以供参考。 我个人认为,robots文件使用最多,因此其他几种方法即使可用,但建议不要这样做。