HITS鏈接分析算法
HITS(Hyperlink-Induced Topic Search)是一種基于鏈接的搜索引擎排名算法,與其他排名算法如PageRank一樣,它的主要目的是將用戶查詢與集合的文檔匹配,使得最相關的文檔被檢索出來,排在前面。事實上,網頁根據網頁內部和外部因素來排序。HITS算法包括兩個重要指標:Authority和Hub,體現網頁的相關性,指導搜索引擎排序,即把相關性高的網頁排在前面。 HITS算法首先將網絡或文檔抽象為一個有向圖,稱為鏈接網絡。對于每個網頁,給出其作者(Authority)和鏈接(Hub)。基于鏈接的HITS算法使用一個簡單的迭代流程來更新Authority 和 Hub 指標的值: 1.首先通過將Authority 分配給所有鏈接節點,計算每個Hub所具有的Authority 權重。 2.接著,將Hub值分配給每個鏈接節點,計算每個Authority所擁有的Hub權重 3.這個迭代過程一直持續下去,直到穩定,也就是說,在計算Authority/Hub 的值的時候,其值改變的越來越小,這個閾值可以根據系統的需要來設定。 4.最后,將依據Authority/Hub 指標值排序得到的結果作為搜索引擎的排序結果返回給用戶。 HITS算法有一定的局限性,其最大的缺點在于,HITS算法容易受垃圾鏈接(spam links)的影響。多數搜索引擎都在使用HITS算法前都要先審查排名結果,移除被標記為垃圾鏈接的網頁,以確保搜索引擎的查詢結果的真實性和可靠性。