上一篇我們介紹了潛在語義索引(LSI),今天我們將介紹超鏈分析的顛峰之作:HillTop算法,作為現在Google現在最核心的排名算法之一,網上不乏大量介紹她的文獻。本文側重於原始算法的分析,不考慮過多復雜因素,讓您更容易理解算法本質。
HillTop算法集PageRank,HITs、相關性算法大成於一身,由康柏系統研究中心的Krishna Bharat和多倫多大學的George A.Mihaila在2001年提出並申請了專利,後授權於Google,2003年12月Google算法更新,其成為Google核心排名算法之一。
HillTop是一種查詢相關性鏈接分析算法,克服了的PageRank的查詢無關性的缺點。簡單的說HillTop算法是針對熱門查詢關鍵詞來對搜索結果重新排序的一種算法。之所以針對熱門關鍵詞,這是因為HillTop算法運行效率較低的原因。算法主要分為兩個過程:
一、 專家頁面的尋找和評分;搜索引擎根據用戶查詢日志發現熱門關鍵詞後,開始針對這些熱門關鍵詞尋找專家頁面,成為專家頁的2個必要因素,1)必須擁有足夠多而且不存在隸屬關系的出鏈,2)至少存在一個短語包含該熱門關鍵詞的所有術語。確定專家頁以後,在該頁面上找出所有全部包含熱門關鍵詞中術語、或者差1到2兩個術語的短語,將這些短語分為三個等級,分別為全部包含,差1個和差2個術語,分別對這個三等級計算等級分,等級是分對各個等級中所有短語得分的和,而短語得分取決於這個短語在頁面中位置,分數從高到低依次標題、頭部和錨文本等等,然後的綜合計算這個三個等級得分就得到專家分。以下舉個簡單的以 “汽車消費”這個熱門關鍵詞為例,“中國汽車消費網”的首頁和友情鏈接頁就是這個關鍵詞的專家頁面,因為他具有足夠多而且不隸屬315che.com主機域名和同C類ip的出鏈,同時標題中的“中國汽車消費網”也包含“汽車”和“消費”這兩個術語。接下來評分,先算第一等級(包含所有術語的短語)的得分,短語“中國汽車消費網”在標題中得到16分(假設),以及在錨文本中“中國汽車消費理財傾向大調查”得了1分,那麼第一等級得分為17分,再算第二等級(差一個術語),第三等級(差兩個術語)。這樣再算三個等級得分的加權和,就是專家分,注意這三個等級權重相差非常大,在原算法的等級1到等級3的權重分別是2^32,2^16和1,因為HillTop更喜歡完全匹配。
二、 對目標頁評分;一個專家頁對目標頁的評分等於專家本身分值×專家頁可區分的短語數量。取前N個指向目標頁的專家頁,對於多個同一隸屬的專家頁指向該目標頁,取分值最高的專家頁,然後這些專家頁對目標網頁的評分的和就得到,這個頁面對應這個熱門關鍵詞的得分,有人稱之為行業得分。
我們可以看到HillTop算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
總結:HillTop算法存在一種博弈的思想,在鏈接方面同行業的網站既需要競爭更需要合作,只有被同行“認可”的網站對熱門關鍵關鍵詞的查詢才會被排在前面。HillTop基本毀滅了小網站對熱門關鍵詞的奢望,除非你對熱門關鍵詞有超強的預期能力,但是這種流量只會持續很短的時間。當然HillTop只是排名的一個重要因素,並不是全部。