屏蔽百度爬蟲的方法
- 威海Spider 威海Baiduspider
- 1414
在百度C2C產品“百度有啊”即將上線的時候,淘寶網站曾經屏蔽百度搜索爬蟲,禁止百度搜索引擎抓取淘寶網站的網頁內容,淘寶官方的解釋是“杜絕不良商家欺詐”。
在技術層面,淘寶屏蔽百度的方法是,在網站的robots.txt文件中加上如下內容:
User-agent: Baiduspider
Disallow: /
但實際上這種方法并不能完全屏蔽百度的爬蟲,至今在百度上輸入site:taobao.com還是可以看到內容,要不要索引網站,還是由百度說了算,要是遵守robots協議,那才不會索引,因此要想完全屏蔽百度的爬蟲,需要在.htaccess中加入一些語句才可以,下面介紹兩種方法。
方法1:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]
方法2:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
當然,對于普通中文網站來說,還是不建議屏蔽百度的爬蟲,通常情況下做一些大型的英文網站,才有必要這么做,以節省流量。
來源:月光博客