[SEO算法]鏈接分析算法之HITS算法詳解加示例

一、HITS算法來源: 1999年,Jon Kleinberg 提出了HITS算法。作為幾乎是與PageRank同一時期被提出的算法,HITS同樣以更精確的搜索為目的,并到今天仍然是一個優秀的算法。HITS算法的全稱是Hyperlink-Induced Topic Search。在HITS算法中,每個頁面被賦予兩個屬性:hub屬性和authority屬性。同時,網頁被分為兩種:hub頁面和authority頁面。hub,中心的意思,所以hub頁面指那些包含了很多指向authority頁面的鏈接的網頁,比如國內的一些門戶網站;authority頁面則指那些包含有實質性內容的網頁。HITS算法的目的是:當用戶查詢時,返回給用戶高質量的authority頁面。 二、算法原理: 很多算法都是建立在一些假設之上的,HITS算法也不例外。HITS算法基于下面兩個假設: Ⅰ、一個高質量的authority頁面會被很多高質量的hub頁面所指向。 Ⅱ、一個高質量的hub頁面會指向很多高質量的authority頁面。 什么叫“高質量”,這由每個頁面的hub值和authority值確定。其確定方法為: Ⅰ、頁面hub值等于所有它指向的頁面的authority值之和。 Ⅱ、頁面authority值等于所有指向它的頁面的hub值之和。 HITS衡量1個頁面用A[i]和H[i]值表示,A代表Authority權威值,H代表Hub樞紐值。 大意可理解為我指出的網頁的權威值越高,我的Hub值越大。指向我的網頁的Hub值越大,我的權威值越高。二者的變量相互權衡。下面一張圖直接明了: 如果理解了PageRank算法的原理,理解HITS應該很容易,最后結果的輸出是根據頁面的Authority權威值從高到低。 HITS算法描述: 三、實例分析: 如下有三個網頁A,B,C及其鏈接關系: 構造鄰接矩陣(Adjacent Matrix): 每個節點都有一個Hub分數和Authority分數,所以有一個Hub向量h和Authority向量a,向量的每個元素都初始化為1n√,其中n為節點數: 按如下方式交替更新h和a的值: 過程如下,直到任一向量不再變化(收斂): 需要注意的是每一步都需要對得到的向量進行歸一化:
四、HITS算法特點: 該算法對于國內搜索引擎而言,具有一定的缺陷,也正是一些缺陷影響了搜索引擎結果排序。從而可以利用HITS算法的缺陷進行網站優化。比如由于HITS的主題漂移,即使你發布的外鏈是不相關的,也會提升網頁主題的推薦度,從而提升網頁關鍵詞排名。其次,HITS算法由于是歸屬于鏈接分析算法,該算法不僅僅是強調外部鏈接的重要性,同樣也強調內部鏈接的重要性,如站內網頁A信任度高,站內網頁B包含內頁A的鏈接,也會間接性提升網頁B的權重,這也是為何很多時候做排名優化的頁面沒有排名,反倒引起了沒有優化的頁面參與了排名。 五、HITS算法用途: 1、可以利用HITS樞紐頁面與權威頁面之間的關系提升排名卡位現象,比如排名第三頁,可以利用該方式有少許排名提升; 2、可以利用HITS的主題漂移原理帶動其他頁面之間的排名,比如優化頁面帶動沒有優化的頁面排名。
六、HITS算法與PageRank算法比較 HITS算法和PageRank算法可以說是搜索引擎鏈接分析的兩個最基礎且最重要的算法。從以上對兩個算法的介紹可以看出,兩者無論是在基本概念模型還是計算思路以及技術實現細節都有很大的不同,下面對兩者之間的差異進行逐一說明。 1.HITS算法是與用戶輸入的查詢請求密切相關的,而PageRank與查詢請求無關。所以,HITS算法可以單獨作為相似性計算評價標準,而PageRank必須結合內容相似性計算才可以用來對網頁相關性進行評價; 2.HITS算法因為與用戶查詢密切相關,所以必須在接收到用戶查詢后實時進行計算,計算效率較低;而PageRank則可以在爬蟲抓取完成后離線計算,在線直接使用計算結果,計算效率較高; 3.HITS算法的計算對象數量較少,只需計算擴展集合內網頁之間的鏈接關系;而PageRank是全局性算法,對所有互聯網頁面節點進行處理; 4.從兩者的計算效率和處理對象集合大小來比較,PageRank更適合部署在服務器端,而HITS算法更適合部署在客戶端; 5.HITS算法存在主題泛化問題,所以更適合處理具體化的用戶查詢;而PageRank在處理寬泛的用戶查詢時更有優勢; 6.HITS算法在計算時,對于每個頁面需要計算兩個分值,而PageRank只需計算一個分值即可;在搜索引擎領域,更重視HITS算法計算出的Authority權值,但是在很多應用HITS算法的其它領域,Hub分值也有很重要的作用; 7.從鏈接反作弊的角度來說,PageRank從機制上優于HITS算法,而HITS算法更易遭受鏈接作弊的影響。 8.HITS算法結構不穩定,當對“擴充網頁集合”內鏈接關系作出很小改變,則對最終排名有很大影響;而PageRank相對HITS而言表現穩定,其根本原因在于PageRank計算時的“遠程跳轉”

Be the first to comment

Leave a Reply

Your email address will not be published.


*