怎樣看原始日志文件
讀者hiisee問
請問如何用PHP腳本在后臺獲取蜘蛛的詳細信息呀?如哪里的蜘蛛/何時來的/搜索了哪幾個頁面/哪些它喜歡哪些不喜歡等,和判斷瀏覽器是不是用一樣的技術?謝謝,再次麻煩您了.
剛好關于流量統計和分析以前還沒有談過,這兩天分幾個方面專門談一下。今天先來談作為SEO,怎樣讀服務器原始日志文件(server raw logfile)。
網站服務器會把每一個訪客來訪時的一些信息自動記錄下來,存在服務器原始日志文件中。
一般主機提供商會在控制面板提供給你下載這個文件,如果你的主機提供商不提供原始日志文件的話,你就該換地方了。
原始日志文件只是一個純文字形式的文件,只要用文字編輯軟件如WordPad或Notepad打開就可以了。
下面是我從上個月這個blog本身的日志文件中隨機選取的一行,我們來看一下它包括哪些信息:
221.201.77.63 – – [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1” 200 19031 “http://www.baidu.com/s?
wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)”
(注:雖然上面是很久以前的日志中的一段,但現在的日志文件所包含的信息格式是一樣的,完全沒有變化)
用戶IP地址
221.201.77.63
這是訪問人所使用的IP 地址,能夠告訴你來訪的人來自什么地理位置。如果你查一下這個IP地址所屬位置,可以看到這位訪客來自中國北京。
日期/時間
02/Jul/2006:15:30:41
這是某一個文件被訪問的時間,和IP地址結合起來,你就可以跟蹤某一個特定的用戶,從一個網頁到另一個網頁的訪問順序。
時區
+0800
這個數字是相對格林威治時間的時區差多少,北京處于東8區。
服務器動作
GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1
服務器要做的動作要么是GET,要么是POST。除了一些CGI腳本外,通常都應該是GET,也就是從服務器上獲取某個網頁或圖片文件。
例子里的這行意思就是按HTTP/1.1協議(protocol)獲取文件/seoblog/2006/04/17/user-friendly-website/
返回狀態碼
200
下一行是服務器反應是否成功。200就是說成功獲取了文件,如果是返回了404,就是文件沒有找到。401是需要密碼,403禁止查看,500服務器錯誤,當然還有其他很多服務器狀態碼。
文件大小
19031
這一行指的是所獲取的文件大小,在我們的來自例子里是19031 byte。
訪客來源
http://www.baidu.com/s?wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3
這一段是告訴我們訪客是從哪里來到這一個網頁。有可能是同一個網站的其他頁,有可能是來自搜索引擎的搜索頁,也可能是來自其它網站的鏈接。
例子里的是來自百度,搜索關鍵詞是”PRADA官方網站”。
這段信息以前是非常重要的,流量分析系統可以從這個信息統計出搜索用戶是搜索了什么關鍵詞訪問你的網站。可惜的是,現在所有搜索引擎都已經屏蔽了這段關鍵詞信息,我們只能知道流量來自哪個搜索引擎,無法知道是來自什么關鍵詞。
瀏覽器類型
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)
這最后一段所表示的是瀏覽器和用戶電腦的一些信息。
比如上面這一段所表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器,Windows NT操作系統,瀏覽器是IE6.0,裝有Alexa Toolbar。
在這一段如果用戶使用的是其他類型電腦或瀏覽器,或者來訪問的是搜索引擎蜘蛛,你還可能看到這些代碼:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)
http://www.gougou.com RSS Online Reader
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
意義不用解釋,一看就知道了。
跟蹤用戶軌跡
這是很多網站運行者需要研究的地方。
從日志文件中剔除對圖片的訪問,剔除中間插進來的其他訪客的信息,只把來自某一個IP地址的用戶在一段時間內所看的網頁列出來,我們就能看到這個用戶在你的網站上都做了哪些行動,看了哪些網頁。
用戶行為信息給網站運行者提供很大的幫助。
來源:seo每天一貼 Zac 昝輝