抓取診斷工具常見錯誤類型解析
- 威海百度搜索資源平臺 威海百度搜索資源平臺
- 1150
【url規范】
百度支持抓取的url長度不超過1024,如果您的鏈接長度過長,請在保證正常訪問的情況下,適當精簡,保證鏈接能被百度正常抓取和收錄。
【重定向錯誤】
重定向是指百度spider訪問鏈接時發生了跳轉,如果跳轉后的鏈接超長或者連續跳轉的次數超過5次,就會發生重定向錯誤而導致抓取失敗。
【服務器連接錯誤】
這種情況是指,由于服務器響應過慢或您的網站屏蔽了百度spider,而導致百度無法訪問您的網站。從而會導致百度無法正常收錄或者更新您網站的內容。您可能看到以下具體錯誤:連接超時、連接失敗、連接被拒、無響應、響應遭到截斷、連接重置、標頭遭到截斷、超時。
*如何處理服務器連接錯誤?
減少動態網頁請求的過多網頁加載。如果網站為多個網址提供相同內容,則會被視為動態提供內容(例如,www.example.com/shoes.php?color=red&size=7與www.example.com/shoes.php?size=7&color=red提供的內容相同)。動態網頁的響應時間可能會很長,并會因此導致超時問題。或者,服務器可能會返回超載狀態,要求百度spider放慢抓取該網站的速度。一般來說,建議您盡量使用簡短的參數并謹慎使用。
確保您網站的托管服務器沒有停止運行、超載或配置不當。如果連接問題、超時問題或響應問題仍然存在,請與您的網站托管服務提供商聯系,并考慮增強您的網站處理流量的能力。
檢查網站是否不小心屏蔽了百度spider的IP。您可能會由于系統級問題而阻止了百度訪問,例如DNS配置問題、配置不當的防火墻或DoS防護系統、內容管理系統配置問題。防御系統是保證托管服務正常運行的關鍵因素之一,并且這些系統通常會配置為自動阻止超量的服務器請求。由于百度spider發出的請求通常要比普通用戶多,因此可能會觸發這些防御系統,導致它們阻止百度spider訪問并抓取您的網站。要解決此類問題,您需要確定網站基礎架構中的哪個部分在阻止百度spider,然后取消該阻止。如果您沒有控制防火墻的權限,就需要與您的托管服務提供商聯系解決此問題。
來源:百度搜索資源平臺 百度搜索學堂