搜狗資源平臺(tái)-抓取診斷幫助
功能說(shuō)明
檢查網(wǎng)頁(yè)是否被黑,通常被黑的網(wǎng)頁(yè)會(huì)對(duì)搜狗的UA返回特定的網(wǎng)頁(yè),針對(duì)用戶以另一種樣式展現(xiàn),抓取診斷工具就可以幫助您判斷頁(yè)面在搜狗UA下的表現(xiàn)是否和預(yù)期一致。
檢測(cè)搜狗是否能順利抓取您的網(wǎng)站,協(xié)助您在修改服務(wù)器配置、遷移等工作后檢查是否生效,提升收錄數(shù)據(jù)。
診斷抓取內(nèi)容是否符合預(yù)期,例如很多新聞滾動(dòng)列表頁(yè),新聞信息是通過(guò)JavaScript輸出的,對(duì)搜狗蜘蛛不友好,具體新聞列表較難在搜索中應(yīng)用。問(wèn)題修正后,可用診斷工具再次抓取檢驗(yàn)。
常見(jiàn)錯(cuò)誤類(lèi)型解析
錯(cuò)誤一重定向錯(cuò)誤
重定向是指搜狗spider訪問(wèn)鏈接時(shí)發(fā)生了跳轉(zhuǎn),如果跳轉(zhuǎn)后的鏈接超長(zhǎng)或者連續(xù)跳轉(zhuǎn)的次數(shù)超過(guò)5次,就會(huì)發(fā)生重定向錯(cuò)誤而導(dǎo)致抓取失敗。
錯(cuò)誤二服務(wù)器連接錯(cuò)誤
出現(xiàn)這種情況可能的原因有:
* 如果您的服務(wù)器運(yùn)行緩慢或者流量較大出現(xiàn)帶寬瓶頸, 可能就無(wú)法及時(shí)響應(yīng)搜索爬蟲(chóng)發(fā)出的請(qǐng)求,導(dǎo)致影響您的收錄(如果您的站點(diǎn)持續(xù)出現(xiàn)服務(wù)器連接錯(cuò)誤,也將導(dǎo)致你網(wǎng)站在搜狗的索引下線直接影響流量),請(qǐng)結(jié)合自身網(wǎng)站壓力適當(dāng)調(diào)節(jié)服務(wù)器配置以及帶寬上線。
* 您可能會(huì)由于系統(tǒng)級(jí)問(wèn)題而阻止了搜狗爬蟲(chóng)訪問(wèn),例如配置不當(dāng)?shù)姆阑饓駾oS防護(hù)系統(tǒng)、內(nèi)容管理系統(tǒng)配置問(wèn)題。防御系統(tǒng)是保證托管服務(wù)正常運(yùn)行的關(guān)鍵因素之一,并且這些系統(tǒng)通常會(huì)配置為自動(dòng)阻止超量的服務(wù)器請(qǐng)求。由于單臺(tái)搜狗IP發(fā)出的請(qǐng)求通常要比普通用戶多,因此可能會(huì)觸發(fā)這些防御系統(tǒng),導(dǎo)致它們阻止搜狗spider訪問(wèn)并抓取您的網(wǎng)站。要解決此類(lèi)問(wèn)題,您需要確定網(wǎng)站基礎(chǔ)架構(gòu)中的哪個(gè)部分在阻止搜狗spider訪問(wèn),然后取消該阻止。如果您沒(méi)有控制防火墻的權(quán)限,就需要與您的托管服務(wù)提供商聯(lián)系解決此問(wèn)題。
錯(cuò)誤三robots封禁問(wèn)題
在抓取診斷工具中如果返回的抓取失敗結(jié)論是robots封禁,請(qǐng)確認(rèn)您是否在網(wǎng)站根目錄下放置robots.txt文件并且配置封禁了搜狗的爬蟲(chóng)。由于搜狗爬蟲(chóng)遵守robots協(xié)議,該配置會(huì)影響搜索引擎收錄您的網(wǎng)頁(yè),直接影響后續(xù)的索引和流量。如果你修改了該項(xiàng)配置不在封禁,搜狗爬蟲(chóng)會(huì)在一定周期內(nèi)更新您的robots文件,該過(guò)程對(duì)您透明。
錯(cuò)誤四DNS問(wèn)題
DNS錯(cuò)誤是指由于服務(wù)器停止運(yùn)行或DNS到您網(wǎng)域的路由存在問(wèn)題,導(dǎo)致搜狗spider無(wú)法與DNS服務(wù)器通信。
* 如何處理DNS錯(cuò)誤?
確保搜狗能夠抓取您的網(wǎng)站。對(duì)重要網(wǎng)頁(yè)(例如您的首頁(yè))采用抓取診斷工具,如果它能順利返回您的首頁(yè)內(nèi)容,那么您就可以認(rèn)為搜狗能夠正常訪問(wèn)您的網(wǎng)站。
對(duì)于持續(xù)的或反復(fù)出現(xiàn)的DNS錯(cuò)誤,請(qǐng)與您的DNS提供商或者域名服務(wù)商聯(lián)系。確保您在域名服務(wù)商哪里注冊(cè)的域名和綁定的IP是您指定的。
錯(cuò)誤五404問(wèn)題
一般情況下,當(dāng)搜狗spider訪問(wèn)到不存在的網(wǎng)頁(yè)(因?yàn)槟鷦h除或重命名了網(wǎng)頁(yè)且沒(méi)有將舊網(wǎng)址重定向到新網(wǎng)頁(yè),或者鏈接中存在拼寫(xiě)錯(cuò)誤)時(shí),就會(huì)出現(xiàn)“未找到”狀態(tài)錯(cuò)誤(通常是404 HTTP狀態(tài)代碼)。
錯(cuò)誤六訪問(wèn)遭拒絕
一般情況下,搜狗會(huì)通過(guò)跟蹤網(wǎng)頁(yè)間的鏈接來(lái)查找內(nèi)容。搜狗spider必須能夠訪問(wèn)某個(gè)網(wǎng)頁(yè)才能抓取該網(wǎng)頁(yè)。如果您意外地看到了“訪問(wèn)遭拒”錯(cuò)誤,可能是由于以下幾種原因?qū)е碌?
* 搜狗spider無(wú)法訪問(wèn)您網(wǎng)站上的網(wǎng)址,因?yàn)槟W(wǎng)站上的所有或部分內(nèi)容要求用戶登錄后才能查看。
* 由于您服務(wù)器的配置權(quán)限問(wèn)題導(dǎo)致搜狗爬蟲(chóng)(大多數(shù)情況下也包括普通用戶)沒(méi)有權(quán)限查看您的網(wǎng)頁(yè),請(qǐng)修改服務(wù)器對(duì)目錄和訪問(wèn)文件的權(quán)限。
錯(cuò)誤七參數(shù)錯(cuò)誤
由于請(qǐng)求的語(yǔ)法格式有誤,不符合服務(wù)器對(duì)請(qǐng)求的某些限制,或者請(qǐng)求本身存在一定的錯(cuò)誤,服務(wù)器無(wú)法理解此請(qǐng)求,導(dǎo)致抓取失敗。
錯(cuò)誤八socket讀寫(xiě)錯(cuò)誤
當(dāng)搜狗spider訪問(wèn)服務(wù)器,進(jìn)行tcp通信的時(shí)候,socket讀寫(xiě)發(fā)生異常,導(dǎo)致數(shù)據(jù)不能正常返回。請(qǐng)檢查服務(wù)器連接狀況和防火墻設(shè)置是否符合預(yù)期。
錯(cuò)誤九讀取http頭或者頁(yè)面內(nèi)容時(shí)失敗
您的服務(wù)器收到了我們的完整請(qǐng)求,但是返回信息時(shí)不完整,http頭或者響應(yīng)正文發(fā)生了截?cái)啵瑢?dǎo)致網(wǎng)頁(yè)內(nèi)容不能正常讀取。
注意事項(xiàng)
每個(gè)站點(diǎn)每周可使用200次,抓取診斷僅展現(xiàn)搜狗蜘蛛可見(jiàn)的前200kB內(nèi)容,請(qǐng)合理利用。
搜狗支持抓取的url長(zhǎng)度不超過(guò)1024,如果您的鏈接長(zhǎng)度過(guò)長(zhǎng),請(qǐng)?jiān)诰W(wǎng)頁(yè)正常服務(wù)的情況下,去除無(wú)效參數(shù),精簡(jiǎn)url,此舉也可防止搜索引擎重復(fù)收錄。
對(duì)抓取診斷工具有其他問(wèn)題?可以向提交反饋和建議。
來(lái)源:搜狗資源平臺(tái)