robots簡介
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。
您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在這個文件中聲明該網(wǎng)站中不想被robot訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。
robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的。 因?yàn)橐恍┫到y(tǒng)中的URL是大小寫敏感的,所以robots.txt的文件名應(yīng)統(tǒng)一為小寫。robots.txt應(yīng)放置于網(wǎng)站的根目錄下。如果想單獨(dú)定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設(shè)置合并到根目錄下的robots.txt,或者使用robots元數(shù)據(jù)。
Robots.txt協(xié)議并不是一個規(guī)范,而只是約定俗成的,所以并不能保證網(wǎng)站的隱私。注意Robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有和沒有斜杠"/"這兩種表示是不同的URL,也不能用"Disallow: *.gif"這樣的通配符。
其他的影響搜索引擎的行為的方法包括使用robots元數(shù)據(jù):
<meta name="robots" content="noindex,nofollow" />
這個協(xié)議也不是一個規(guī)范,而只是約定俗成的,通常搜索引擎會識別這個元數(shù)據(jù),不索引這個頁面,以及這個頁面的鏈出頁面
robots.txt文件放在哪里?
robots.txt文件應(yīng)該放在網(wǎng)站根目錄下。舉例來說,當(dāng)robots訪問一個網(wǎng)站時,首先會檢查該網(wǎng)站中是否存在這個文件,如果機(jī)器人找到這個文件,它就會根據(jù)這個文件的內(nèi)容,來確定它訪問權(quán)限的范圍。
來源:360站長平臺