HITS算法
HITS算法是一種采用迭代計算的網絡算法,用于計算網絡中節點的權重。該算法主要用于網絡信息檢索等計算技術。HITS算法與傳統的關鍵詞檢索不同,關鍵詞檢索是以詞語為基礎,以文檔為主要檢索對象,結果通過匹配檢索關鍵詞的文檔及其相關性程序來返回結果。而HITS算法則是以鏈接為基礎,以網頁為主要檢索對象,通過計算每個頁面的被鏈接的頻度和鏈接其它頁面的重要程度來決定查詢結果的排序。該算法基于“authrity”和“hub” 有權重概念,這兩個概念可以描述網頁在網絡中的影響力,分別表示該網頁在某個領域的權威程度和其鏈接的重要性。簡而言之,權威頁面是指擁有很多高質量鏈接的頁面,而活躍頁面則指擁有很多高質量鏈接的頁面,它們可以在網絡吸引到更多瀏覽者。 HITS算法依基于兩個基本元素:基于輸入計算出的權重和輸出給出的權重,用來計算每一網頁的重要性,也可以用來衡量網絡上不同頁面鏈接的重要性。HITS算法通過對網絡進行逐步迭代,來計算每個頁面的權威程度及其Mining后的重要程度。在每一次迭代中,權威頁面的權重由其上一輪的權重和指向它的鏈接的權重共同決定,活躍頁面的權重也是由其上一輪的權重和指由它發出的鏈接的權重共同決定的。采用此算法,可以在網絡上尋找擁有最高重要性的節點來代表該網絡,這樣就可以有效地改善搜索結果的質量。