所有的算法都會有個假設前提,所有假設都是基於用戶行為的分析。而算法就是把這些分析公式化。
PR算法主要基於數量假設和質量假設兩個方面考慮的。
數量假設:該頁面收到越多的入鏈(其他網頁對該頁面的鏈接稱為入鏈),則表示該網頁越重要。也就是一個好的頁面肯定會獲得很多其他頁面的推薦。
質量假設:指向該頁面的入鏈的質量不同,質量高的網頁會通過鏈接傳遞更多的權重,越是質量高的網頁指向該頁面,則表示該頁面越重要。也就是一個好的網頁肯定也會獲得其他好的網頁的認同。
通過以上兩個假設,PR算法剛開始會挑選一批網頁作為種子網頁並賦予較高的PR,通過迭代遞歸算法計算來更新每個頁面節點的PR得分,直到得分穩定為止,即為當前頁面PR得分。
PR計算出來的結果是對網頁重要性的評估,作為網頁排名其中的一個因素。但PR是一個全局性的算法,和具體查詢無關,即和相關性無關的。PR高不能說明該網頁相關。假如搜索引擎只用PR這一算法進行排序的話,那無論你輸入任何的查詢詞,輸出的結果都是一樣的,誰PR高就誰排前面。
過度追求PR的結果往往得不償失,PR重要嗎?PR不重要嗎?看果園去!
對於PR來說,一個高不是高,大家高才是真的高!
PR的計算很簡單,假如A網頁有兩個出鏈分別連接到B網頁和C網頁。假如A網頁的PR值是1,那麼以概率平均分配的原則,B和C網頁都會平均得到0.5值的傳遞。這種計算方法是建立在隨機游走模型上的,隨機游走模型是指假設這個網頁有三個出鏈,用戶點擊每個出鏈的概率是一樣的,所以傳遞的PR值也是一樣的。
由於網頁之間是互相連接的,所以PR不能一直循環傳遞下去,否則最後所有網頁的PR值都會無窮大。所以PR算法引入了衰減因子的概念,即是中轉的次數越多離種子網頁越遠,傳遞的PR值越少,直到傳遞值為0得分穩定為止。才計算最後PR得分,加入排序結果的計算中。
另外,有些網頁只有入鏈沒有出鏈,那麼會導致積蓄的PR值越來越高,而不能傳遞出去。這樣會違背PR的設計初衷,影響公平性。這種結構被稱為鏈接陷阱。
遠程跳轉是解決鏈接陷阱的通用方式,就是PR的傳遞並不局限於出鏈的傳遞,也可以以一定的概率向任意一個頁面傳遞PR。
PR算法作為谷歌標志性算法,早已普遍運用到反作弊當中,即以挑選出一批作弊網頁作為種子網頁(挑選信任網頁也亦然),給予一定的作弊分值(或信任分值),跟PR算法一樣進行傳遞,設定一個懲罰閥值,達到則為作弊網頁。
這種反作弊是基於假設:
一、如果一個網頁將其鏈接指向作弊網頁,則這個網頁很可能也是作弊網頁。
二、如果一個網頁被作弊網頁指向,則不能說明這個網頁是作弊的。
當然這只是最原始的反作弊思路。研究搜索引擎算法不應該只盯著公式看,要看這個算法解決了什麼問題,是基於什麼樣的假設,這種假設是不是符合用戶行為。了解了算法的來龍去脈,才能更好的知道搜索引擎解決問題的方法。這樣才是學習SEO的王道!
了解規則是為了更好的運用規則,避免違反規則受到懲罰。
作為一個文科生,我給大家最後的忠告是:珍惜生命,遠離公式!!!