HITS(Hyperlink - Induced Topic Search)鏈接分析算法誕生在1997年,該算法是由康奈爾大學中的一位博士提出,並且該算法沿用於全球多個搜索引擎當中。當然,不同的搜索引擎針對於該算法的側重點和內部公式都有不一的算法結構調整,並且HITS算法也是鏈接分析中最為重要的基礎算法之一。
對於目前國內的整體搜索引擎而言,百度作為國內的搜索引擎領頭羊,我會帶著HITS的公開文檔針對百度搜索引擎進行多元化的角度和實驗來深度解析HITS在SEO中的實戰應用。
首先,我們先來了解一下什麼是HITS算法,包括他的計算公式和算法原理以及他優缺點。深刻的理解了這些含義以後,然後我們借助一些特定的實驗來驗證HITS的效果和實用性。
在HITS鏈接分析算法當中,闡述最多的兩個點就是Hub頁面與Authority頁面。
一、什麼是Authority頁面(權威頁面)
簡單來說Authority頁面(權威頁面)是指在某一個領域范圍內或者某一個相關主題范圍內的高質量網頁。比如招聘領域,前程無憂網站的首頁就是該領域的一個高質量優質網頁。比如淘寶首頁就是電商領域的優質網頁。
二、什麼是Hub頁面(樞紐頁面)
而Hub頁面(樞紐頁面)通常就是它頁面本身包含了很多高質量的Authority頁面的鏈接,比如360網址導航首頁就是一個非常好的Hub頁面(樞紐頁面)。因為在360網址導航的站點頁面裡面聚合了眾多的不同類型的權威站點集合,比如新聞板塊聚集了新浪、騰訊等權威站點。視頻板塊聚集了搜狐視頻、優酷視頻等權威站點。這個點和大家經常發布的一些分類目錄網站外鏈有點類似(所以為何網站目錄外鏈還存在一定的效果,正是因為搜索引擎本身有自己特有的算法才會影響到你的排名)。
三、HITS算法意義
之所以存在HITS算法,是因為搜索引擎需要在全球所抓取的網頁文檔集合當中找到與用戶搜索請求查詢詞匹配度與之相關最高的頁面進行符合匹配,而這裡的匹配度相關最高的則是一些高質量的“Authority”頁面和“Hub”頁面,而不是大家常常理解的站內文章優質原創等因素。尤其是一些權威頁面,搜索引擎更加親耐,因為這類站點頁面的內容會更加滿足用戶查詢的內容。
有很多朋友可能會問到一個問題,如何成為權威頁面或者樞紐頁面呢?
其實樞紐頁面在前面從概念意義上解釋來說已經告訴了大家如何去成為樞紐頁面。比如360導航網站的某一個站點類型的聚合頁面,再比如網站分類目錄站點的某一個站點類型的聚合頁面,這些都屬於樞紐頁面,但是樞紐頁面也會分為高質量樞紐頁面和一般性樞紐頁面。比如360導航網站首頁不僅是樞紐頁面並且還是導航站點的權威頁面。
那麼又如何成為權威頁面呢?
這裡就會提到大家想要理解的一個深層次的東西了,所謂的高權重外鏈其實可以理解為高權威外鏈,即權重=權威。搜索引擎針對每一個站點和該站點的每一個頁面都有一系列的網頁評分,而這類評分決定著頁面的鏈接是否為有效的信任度。而權威頁面往往會有幾個特點:
1、品牌屬性
不管是某一種類型的站點,一旦要想成為行業的權威,品牌屬性必定濃厚,這點大家可以從百度搜索引擎的知心算法可以得知。如當用戶搜索網上商城會聯想到京東、天貓;再如當用戶搜索空調會聯想到海爾、格力、美的等知名品牌。正是因為這類品牌屬性,可以讓這類品牌官網站點在某一個行業領域形成獨特的權威度。但是,對於搜索引擎而言,這類品牌屬性搜索引擎是感觀不到的,而用戶卻可以知曉。因為對於用戶而言,用戶可以通過報刊,電視等多媒體方式了解到這些品牌的循環曝光,從而積累品牌的印象程度。那麼搜索引擎是如何計算出這些品牌屬性的權威程度呢?針對搜索引擎來說,搜索引擎會通過全網抓取技術檢索全球所有網頁集合,根據文檔檢索模型計算出詞頻,而詞頻計算出來的相關詞頻次結合度最高的一類詞就是一個主題的符合度。通常情況下,是行業產品詞+品牌詞檢索。
2、歷史屬性
歷史屬性我們可以稱之為信任度屬性,何為信任度屬性,簡單的理解就是一個權威的站點必定是本身的頁面存在一定的真實性、可靠性的價值信任信息,就如百度百科的詞條會有對應的參考資料來作為參考佐證,從而針對內容進行信任度提升。所以即使內容不是原創,如果頁面滿足了信任度屬性,你的內容一樣非常有價值,也利於搜索引擎優化。信任度屬性除了信息價值信任之外還有一點就是歷史數據積累,這點在老域名站點體現的非常明顯。越老的站點信任度屬性就體現的越明顯,比如做一些灰色產業或者做醫療的SEO人員就非常喜歡采用使用過的並且干淨底子的老域名進行優化效果最佳。
3、曝光屬性
權威頁面除了品牌屬性和歷史數據積累等屬性還有一點就是曝光屬性,這類曝光屬性會包含兩個大類,其中是站內曝光屬性和站外曝光屬性。站內曝光屬性可以理解為頁面收錄量,一般情況下,當一個域名使用了10多年,每天都在充實著一些主題非常一致的優質樞紐頁面的時候,那麼自然而然他的曝光也會放的很大。而站外曝光屬性就是在整個互聯網站點文檔集合裡面所體現出你品牌屬性的詞頻集合和關鍵詞主題一致的文檔數量,比如闡述淘寶的網頁相關結果數有X億個網頁。而X億張網頁集合裡面和淘寶相關度最密切的是關於電商、商城、網購等主題行業詞匯。那麼通過歷史屬性的數據積累,淘寶站點在電商領域歸屬於權威站點。
四、HITS算法缺陷
每個搜索引擎算法都有自己的優勢和缺陷,HITS也不例外,在HITS算法當中,有4個最常見的缺陷,其中包含了計算效率低、主題漂移、容易作弊和結構不穩定。
由於HITS算法是與之查詢相關的算法,所以不能先計算,而必須是用戶請求了某一個搜索詞以後才能去計算該詞的一些站點文檔匹配度(鏈接評分板塊),加上HITS算法的計算屬性需要通過多次的計算迭代才能最終計算出檢索結果的文檔鏈接的推薦度投票,所以導致計算效率比較低下。
而主題漂移問題則是大家常常可以看到了一些現象,即使我交換的鏈接和我站點主題沒有一條相關,但是也會促進我的頁面關鍵詞排名提升。而這種現象正是因為HITS的特殊算法結構才出現了給與這些無關網頁很高的排名。最終導致了搜索結果發生了主題漂移,而這種現象也稱為“緊密鏈接社區現象”。
之所以容易用來作弊是因為HITS強調的比較多的還是樞紐頁面和權威頁面之間的一種相互增強關系。作弊者可以通過建立新頁面的形式,並且在新建立的網頁中加入了很多高質量的權威頁面鏈接,自身頁面就會形成了一個很好的樞紐頁面,然後作弊者可以通過該頁面的一個權威樞紐性,再指向作弊網頁鏈接,從而給與作弊網頁增加權威頁面得分。如下圖所示:
上圖所示的頁面文檔集合裡面包含了4個導出鏈接,假設該頁面是闡述視頻網站排行榜的相關內容信息,而4個導出鏈接均包含了不同的4個獨立的視頻站點,其中三個為已知的權威站點,第二個站點為我們作弊的站點。而此方式可以用來增加鏈接的投票推薦度。
最後一個HITS的缺陷在於它的結構不穩定,何為結構不穩定?簡單來說就是在原來的網頁文檔集合裡面,如果新增或刪除網頁鏈接,那麼就會對HITS算法排名有著非常大的改變。比如大家都知道交換的鏈接除了相關性還需要講究穩定性,卻不知道穩定性這個概念正是因為HITS的缺陷而導致的,如果鏈接一旦不穩定,包括鏈接位置變動、鏈接被刪除等都會影響算法結構的重新計算。從而影響了自身站點的關鍵詞排名。
五、HITS算法實戰應用(實驗)
現在我們到了SEO實驗階段了,說千道萬不如實戰驗證。由於文章的特殊性,所以本文只發布和分析一個案例。首先我們來了解下實驗步驟!
步驟:
第一步:實驗假設
假設一:樞紐頁面與權威頁面均成立(存在這種現象/說法);
假設二:假設一個網站在不操作任何外鏈、站內更新、站內布局調整的情況通過HITS算法的邏輯提升排名;
第二步:准備實驗站點(記錄實驗時間和站點快照時間)
1、首先我們准備了一個地區SEO詞排名在23位的站點,該站點的該詞排名穩定23位超過1一個月(因為不排除其他外鏈、內容更新影響排名的下降或者提升),所以該站排名23位空檔穩定一個月+最好。
2、然後我們記錄好站點的快照時間以及最後更新文章的時間節點,保證頁面沒有被蜘蛛抓取更新過和頁面做過內容變動(達到實驗的最佳效果),如下圖所示:
快照時間:2017年02月03日 11:42:34
第三步:HITS算法驗證(記錄實驗時間和站點快照時間)
1、驗證方式:Hub樞紐頁面驗證
2、驗證詳細步驟:首先我們知道一個好的樞紐頁面裡面肯定會包含一些權威頁面或者包含了一些好的樞紐頁面,那麼我們是不可能去加一些百度、新浪這種鏈接給自己做導出的,因為並不符合相關性邏輯。那麼我們添加的其實就是排名首頁的太原SEO站點,如下圖所示:
上圖是實驗站點添加的7個排名在首頁的太原SEO網站站點,並且為了防止頁面權重流失,均添加了Nofollow。那麼肯定就會有一個問題,為何我們要添加首頁的而不是排名第三頁或者第五頁的太原SEO的站點。其實如果大家往回去思考這個Hits算法就不難發現hits所強調的hub頁面在某一個點(領域)上肯定是有權威性的,並且搜索引擎的目的是為了用戶需求而產生檢索結果。如果你把排名前10位的站點容納在一個站點上面,就已經告訴了用戶,我的這個站可以找到你想要的內容。並且我這個站的主題也是“太原SEO”,那麼可以更加符合用戶檢索結果。
第四步:排名統計(記錄實驗時間和站點快照時間)
我們在來看一下添加加了Nofollow以後的單向鏈接的快照,如下圖所示:
快照更新時間:2017年02月08日 21:45:06
雖然快照更新。但是排名記錄23位,這個時候需要有耐心,因為快照更新不代表排名會更新,需要時間等待,我們用工具每天記錄了該站點“太原SEO”的排名,如下圖所示:
我們可以通過5118大數據平台看到從2月4日修改鏈接以後直到2月8日快照更新排名都沒有提升過,直到快照更新後的5天時間,排名發生了變化,並且中途出現過排名波動退檔到原來的位置。然後我們在來看一張排名截圖,如下圖所示:
從2月20日排名回檔在到恢復以後直到目前文章截稿位置排名一直穩定第二頁。說明整個實驗操作過程排名提升了10個位置左右。
第五步:效果評估與總結(記錄實驗時間)
通過整個的算法原理分析、實驗認證,大家可以很清晰的看到利用一些搜索引擎算法去做到一些事情。當然這裡面可能有會有人提出質疑,一個實驗會不會是巧合,由於類似實驗我操作過不下數十次,成功率基本上高達90%,所以幾乎不存在所謂的巧合。但是並不是每個朋友都可以去這麼操作,因為裡面有很多需要注意的細節。
1、為何我要選擇一個站點排名在23位去做實驗,而不是100後的站點?因為從Hits算法本身來說,如果你去采用一個100以後也就是沒有排名的站點去做實驗操作明顯是有問題的,因為並不滿足Hub的要求。搜索引擎認可一個站點需要一定的時間和信任度,在你網站沒有任何信任度的情況下你去加一些很好的Hub鏈接放到自己的網站上面並不能產生很大的效果。
2、之所以在有排名的情況下去操作是因為這種微調效果非常好,並且記得加上Nofollow,利於防止權重流失。
3、如果你的域名是老域名(使用過的老域名站點),那麼及時在沒有排名的情況也可以去進行這類實驗操作,因為老域名站點本身就具備一定的信任度,無需讓搜索引擎長時間的去評定頁面的質量(包含了信任度評分、頁面價值評分等)。
總體來說,在搜索引擎裡面,算法其實有非常多,包括公開的鏈接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,在比如還有文檔檢索模型(包含向量空間模型、概率模型、布爾模型等),在比如還有倒排索引、TF-IDF等,其實這類算法在百度上都可以找到他們對應的透明的計算公式(涉及到高等數學),如果你能夠前行研讀和深究的話不難發現一些SEO排名的奧秘所在。
本文 ,歡迎分享