URL網址規范化是什么?
網址規范化(URL canonicalization)是SEO工作中經常遇到,因而必須了解的一個重要步驟。就我檢查過的網站來看,99%的網站有各種各樣、程度不同的URL規范化問題。
什么是網址規范化?
網址規范化問題指的是網站上由于種種原因,同一個頁面出現多個網址,搜索引擎挑選顯示的URL有可能不是最恰當的、站長想要的那個URL網址。網址規范化就是通過一些SEO技術手段,幫助搜索引擎判斷出真正的、站長想要的那個所謂規范化的網址。
舉例來說,下面這幾個URL一般來說指的是同一個文件或網頁:
http://www.domainname.com
http://domainname.com
http://www.domainname.com/index.html
http://domainname.com/index.html
https://www.domainname.com
從技術上來講,這幾個網址都是不同的網址,是可以顯示不同內容的。雖然在絕大部分情況下,這些網址所返回的都是相同的文件,也就是網站的主頁。但是從技術上來說,主機完全可以對這幾個網址返回不同的內容。
既然實質上是同一個頁面,搜索引擎需要從這些選擇當中挑一個最合適的代表,也就是規范化網址。但由于各種原因,搜索引擎不一定能判斷正確。
比如,一般來說,網站首頁是固定的,只有一個URL。但是有的時候,在很多網站上站長在鏈接回首頁時,所使用的URL并不是唯一的。很可能在網站上,一會鏈接到 http://www.domainname.com,一會兒鏈接到 http://www.domainname.com/index.html 。這在沒考慮網址規范化的CMS中是很常見的。外部鏈接也可能鏈接向不同版本的非規范化網址,而且別人鏈接到哪里還不能控制。
雖然這些情況不會給訪客造成什么麻煩,因為這些網址都是同一個文件,但是對搜索引擎來說卻是造成了困惑,哪一個網址是真正的首頁呢?
上面舉的首頁例子只是造成網址規范化問題的一種原因,還有很多其它原因會造成網址規范化問題,會出現網址規范化問題的也不僅僅是首頁。比如,電商網站經常會出現的產品列表不同排版、排序、顯示產品個數等URL,頁面內容是一樣的,也會造成網址規范化問題。
再比如以目錄為網址形式時尾端有沒有斜線,URL中是否有字母大小寫混用,用戶訪問時生成會話ID(session ID)等等,這些都有可能造成網址規范化問題。
為什么要避免網址規范化問題?
出現網址規范化問題,可能會給網站帶來很多方面的負面影響。
比如,網站上不同版本的網址大量出現,那么多個URL可能都會被搜索引擎收錄進數據庫,這時就會造成復制內容網頁。
所謂復制內容網頁,指的是兩個或多個網頁的內容是相同或大部分相似的。很多時候,復制網頁有可能是作弊手段。就算不是作弊手段的時候,搜索引擎通常也只會挑出其中一個返回搜索結果,而把其他的復制網頁都排在最后面,以至于根本找不到。
如果復制內容只出現在同一個網站上,搜索引擎通常不會因此懲罰網站。但獲得排名的可能不是站長希望的那個,對轉化可能就有影響。如果復制內容出現在不同網站上,搜索引擎判斷錯誤,可能就意味著原創版本沒有得到排名。
即使不考慮復制內容,多個版本的不規范化網址也可能造成權重分散,因為網站上的內部鏈接和外部鏈接都很可能指向各種不同版本,使得本該獲得所有鏈接的規范化網址沒有得到該有的權重,影響關鍵詞排名。
再進一步,即使搜索引擎從多個版本中正確判斷出規范化網址,將權重合并到規范化URL上,網站上出現多個URL版本,也會造成抓取份額的浪費,因為搜索引擎需要抓取每一個版本URL,對大型網站來說,很可能會擠占了抓取其它更有用頁面的份額。
怎樣避免或解決網址規范化問題?
能避免出現網址規范化問題當然是最好,從建站時就要高度注意。如果已經出現網址規范化問題,就要從幾個方面盡量解決。
1)謹慎選擇CMS系統,看一下其它使用了這個CMS的網站生成的URL都是什么樣的。有的CMS是比較SEO友好的,如 WordPress,但即使WordPress也沒能完全避免網站規范化問題,可能還需要做特定設置,安裝些插件,或者修改模板,修改特定功能等。以后有機會詳細寫一下WordPress的優化。
2)選擇一個規范化網址版本后,全站嚴格貫徹使用。網站內部在鏈接到其他內頁時,只使用規范化URL。不管是包含www或不包含www,不管URL結尾有沒有斜杠,選定一個,就由始至終只使用這一個版本。這樣搜索引擎也就明白哪一個是規范化的網址。
3)但是你沒辦法控制別的網站用哪一個網址連向你的頁面。所以應該在你的主機服務器上,把所有非規范化網址,做301重定向到你所選擇的規范化版本。這樣各版本權重將被集中到規范化版本URL。具體參考301轉向貼子。
4)在所有頁面上用canonical標簽指定規范化網址版本。canonical標簽可以理解為和301轉向的功能幾乎相同,但用戶是停留在原URL的。
5)在提交給搜索引擎的Sitemap.xml文件中,只提交規范化網址。
來源:SEO每天一貼 Zac 昝輝