搜索問答劇場【七】“robots文件”常見問題解析
哈嘍大家好!
【搜索問答劇場】最新一集如期而至,平小雕又帶著滿滿的知識干貨回來啦!準備好迎接知識的洗禮了嘛?
第五集【搜索問答劇場】中,跟大家提到了【Robots】工具。
本期就來詳細教大家如何靈活地使用【Robots】工具,以及如何正確設置網站整體的抓取范圍。
一、了解robots文件
1、Q:什么是robots文件?
A:robots文件用于指定spider在網站上的抓取范圍,在文件中可以聲明網站中不想被搜索引擎抓取或指定被抓取的資源。
2、Q:robots.txt文件怎么寫?
文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
"<field>:<optional space><value><optionalspace>"
在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細情況如下:
User-agent:該項的值用于描述搜索引擎robot的名字。
Disallow:該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被 robot訪問。
Allow:該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。
如果"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。
說明:百度會嚴格遵守robots的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協議無法生效。
robots.txt文件舉例:
3、Q:robots.txt文件放在哪里?
A:robots.txt文件應該放置在網站根目錄下。網站對應robots文件的URL:
詳情可參考《什么是robots文件》
二、如何使用【Robots】工具
1、Q:【Robots】工具的作用?
A:站長可以通過搜索資源平臺【Robots】工具來創建、校驗、更新robots.txt文件,或查看網站robots.txt文件是否成功生效的情況。
2、Q:使用【Robots】工具的注意事項?
A:【Robots】工具目前支持48k的文件內容檢測。同時請保證網站的robots.txt文件不要過大,目錄最長不超過250個字符。
robots文件更新和提交后,百度蜘蛛不是立即調整停止/開放抓取的,搜索引擎需要逐漸完成robots.txt的更新。
3、Q:robots.txt中設置了禁止百度收錄網站的內容,為何還出現在百度搜索結果中?
A:可能存在以下問題:
(1)robots文件不能夠有效訪問。站長可以在資源平臺-【Robots】工具查看robots文件的訪問情況。
(2)文件暫未生效。robots文件在結果中生效一般需要1-2周,可以關注。
4、【Robots】工具校驗提示解讀?
A:可能出現以下情況:
顯示錯誤碼404,robots文件可能無法被訪問。
顯示錯誤碼301,robots文件可能存在跳轉。
顯示錯誤碼500,robots頁面訪問失敗。
以上情況時,建議自查robots文件情況針對性優化后,重新提交校驗。
5、Q:robots文件誤封禁,如何處理?
A:(1)修改robots文件,封禁改為允許。
(2)在搜索資源平臺檢測并更新robots文件,若顯示抓取失敗,可以多嘗試點擊幾次,觸發蜘蛛抓取站點。
(3)關注【抓取頻次】數據情況,可以適當調整抓取頻次。
(4)可以使用【鏈接提交】,主動提交相關資源鏈接。
來源:百度搜索資源平臺