關于robots.txt的二三事
【Robots簡介】
robots.txt是一個協議,是搜索引擎訪問網站時第一個要查看的文件,它存在的目的是告訴搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取。
當spider訪問一個站點時,會首先檢查該站點根目錄下是否存在robots.txt,如果存在,spider會按照文件中的內容來確定訪問的范圍;如果該文件不存在,所有的spider將能夠訪問網站上所有沒有被口令保護的頁面。
【具體介紹】
1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多條User-agent記錄說明有多個robot會受到\robots.txt\的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在\robots.txt\文件中,\User-agent:*\這樣的記錄只能有一條。
360搜索支持user-agent命令,包括使用通配符的user-agent命令。
2、Disallow命令指定不建議收錄的文件、目錄。
Disallow值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被 robot訪問。
3、Allow命令指定建議收錄的文件、目錄。
Allow值用于描述希望被訪問的一組URL,它的值也可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。
User-agent: * 這里的*代表所有的搜索引擎種類,*是一個通配符,*也可以替換成其他的蜘蛛名稱,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以\.htm\為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號(?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以\.htm\為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖,告訴爬蟲這個頁面是網站地圖
【注意事項】
1、robots文件往往放置于根目錄下;
2、當您的網站包含有不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件;
3、360搜索會對#這樣形式的robots進行全匹配url處理,所以在寫robots的時候一定要小心,最好寫盡量精確的url通配,不建議做泛匹配
User-agent: *
Disallow: *#*
或者
User-agent: *
Disallow: #
360搜索會把#認為是全部匹配,從而不抓取全部的url,并且會將線上收錄的鏈接做下線處理!!因此我們不建議站長寫入這樣的規則!
類似的,如寫成:Disallow: #.html,則會不抓取所有以html為后綴的url
【常見問題】
Robots相關的常見問題主要是因錯誤書寫robots導致的網站不被360搜索引擎收錄。所以建議站長,當網站出現不收錄時,首先檢查一下robtos文件是否正確。
Robots協議是一個搜索引擎和網站之間的善意協議,我們鼓勵站長們也能善意使用這一協議,除非有充足合理的理由,否則我們一般都不建議使用Robots協議屏蔽360搜索及其他搜索引擎的蜘蛛。
其他任何不清楚的,還可以訪問咱們的robots百科詞條:
https://baike.so.com/doc/5339174-7435147.html
或參考360搜索針對robots的FAQ:
http://www.so.com/help/help_3_2.html
來源:360站長平臺