亚洲一区精品在线,国产视频中文字幕在线观看,亚洲综合成人在线视频

關于robots.txt的二三事

【Robots簡介】

robots.txt是一個協議，是搜索引擎訪問網站時第一個要查看的文件，它存在的目的是告訴搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取。

當spider訪問一個站點時，會首先檢查該站點根目錄下是否存在robots.txt，如果存在，spider會按照文件中的內容來確定訪問的范圍；如果該文件不存在，所有的spider將能夠訪問網站上所有沒有被口令保護的頁面。

【具體介紹】

1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中，如果有多條User-agent記錄說明有多個robot會受到\robots.txt\的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設為*，則對任何robot均有效，在\robots.txt\文件中，\User-agent:*\這樣的記錄只能有一條。

360搜索支持user-agent命令，包括使用通配符的user-agent命令。

2、Disallow命令指定不建議收錄的文件、目錄。

Disallow值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項的值開頭的URL不會被 robot訪問。

3、Allow命令指定建議收錄的文件、目錄。

Allow值用于描述希望被訪問的一組URL，它的值也可以是一條完整的路徑，也可以是路徑的前綴，以Allow項的值開頭的URL 是允許robot訪問的。

User-agent: * 這里的*代表所有的搜索引擎種類，*是一個通配符，*也可以替換成其他的蜘蛛名稱，例如：Googlebot、yisouspider，表示屏蔽特定搜索引擎的蜘蛛

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以\.htm\為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網站中所有包含問號(?) 的網址

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。

Allow: /cgi-bin/　這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個目錄

Allow: .htm$ 僅允許訪問以\.htm\為后綴的URL。

Allow: .gif$ 允許抓取網頁和gif格式圖片

Sitemap: 網站地圖，告訴爬蟲這個頁面是網站地圖

【注意事項】

1、robots文件往往放置于根目錄下；

2、當您的網站包含有不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件；

3、360搜索會對#這樣形式的robots進行全匹配url處理，所以在寫robots的時候一定要小心，最好寫盡量精確的url通配，不建議做泛匹配

User-agent: *

Disallow: *#*

或者

User-agent: *

Disallow: #

360搜索會把#認為是全部匹配，從而不抓取全部的url，并且會將線上收錄的鏈接做下線處理！！因此我們不建議站長寫入這樣的規則！

類似的，如寫成：Disallow: #.html，則會不抓取所有以html為后綴的url

【常見問題】

Robots相關的常見問題主要是因錯誤書寫robots導致的網站不被360搜索引擎收錄。所以建議站長，當網站出現不收錄時，首先檢查一下robtos文件是否正確。

Robots協議是一個搜索引擎和網站之間的善意協議，我們鼓勵站長們也能善意使用這一協議，除非有充足合理的理由，否則我們一般都不建議使用Robots協議屏蔽360搜索及其他搜索引擎的蜘蛛。

其他任何不清楚的，還可以訪問咱們的robots百科詞條：

https://baike.so.com/doc/5339174-7435147.html

或參考360搜索針對robots的FAQ：

http://www.so.com/help/help_3_2.html

來源：360站長平臺

Public @ 2017-02-13 16:09:19

Categories

Tags

關于robots.txt的二三事

404頁面是什么？

nofollow的定義及如何正確使用nofollow?

百度搜索robots協議全新升級公告

robots 禁止快照

更多您感興趣的搜索