sogou spider 如何反應我網站上頁面的更新?
- 威海Spider 威海sogou spider
- 1708
sogou spider 會根據網頁的重要性和歷史變化情況來動態調整更新時間,更新已經抓取過的頁面
Public @ 2010-09-06 15:38:57
sogou spider 會根據網頁的重要性和歷史變化情況來動態調整更新時間,更新已經抓取過的頁面
近期百度搜索最大的動作應該就是百度Spider3.0升級了,簡單的概括下升級的特點就是:抓取更實時,收錄效率更快,對原創優質內容更青睞。此次升級是把當前離線、全量計算為主的系統,改造成實時、增量計算的全實時調度系統,萬億規模的數據進行實時讀寫,可以收錄90%的網頁,速度提升80%!『抓取、建庫更快—提交的內容更容易被抓取』鏈接發現方面:如今sipder每天發現的新鏈接在500億左右的量級,說明啥?
Sogou web spider 和 Sogou inst spider請注意,根據標準,ua區分大小寫。
您可以在網站的 robots.txt 文件中添加以下內容,來阻止 Sogou 蜘蛛抓取您的網站: User-agent: Sogou Disallow: / 這會告訴 Sogou 蜘蛛不要訪問您的整個網站。如果您只想阻止蜘蛛訪問特定頁面或目錄,可以將 Disallow: / 替換為您想要屏蔽的 URL。例如: User-agent: Sogou Disallow: /admin/ Disal
sogou spider 對于同一個 IP 地址的服務器主機,只建立一個連接,抓取間隔速度控制在幾秒一次。一個網頁被收錄后,最快也要過幾天以后才會去更新。如果持續不斷地抓取您的網站,請注意您的網站上的網頁是否每次訪問都產生新的鏈接。如果您認為 sogou spider 對于您的網站抓取過快,請與我們聯系,最好能提供訪問日志中sogou spider 訪問的部分。點此投訴spider抓取過快