搜索引擎的算法一直以來都是最核心的運營機密,很多SEO優化工作者也都是對搜索引擎算法停留在了解原理的基礎之上,我們能做的就是在每一次搜索引擎更新算法的時候依據大量網站的搜索情況進行猜測。一個真正了解搜索引擎的SEO從業人員勢必會讓自己在優化的道路上左右逢源,為了更好的和搜索引擎對話,為了能夠更好的對網站進行改善優化,SEO優化聯盟建議大家要認認真真的去了解搜索引擎算法的工作原理並按照算法的特點來有針對的進行優化工作。
搜索引擎算法的存在一方面是為了能夠為用戶提供更准確的搜索結果,另一方面就是為了使SEO優化行業更加規范,避免那些使用作弊手段來欺騙搜索引擎的網站優化方法。算法最終目的是為了在用戶使用搜索引擎搜索關鍵詞的時候能夠將與查詢主題高度相關的一些網頁集合展現出來,而目前基於查詢的分析算法中主要分為兩個大類,一個是谷歌的基於鏈接分析的Pagerank算法,另一個就是基於查詢主題進行分析的Hits算法,這兩種算法是目前搜索引擎使用最為廣泛的算法,這兩種算法各有各的特點,也各有各的缺點不足,那麼作為SEO從業者我們該如何正確的去學習這兩種算法來為自己的工作做准備呢?也許你會一臉茫然,但是你會在這篇文章中更好的對著兩種算法進行了解。
谷歌的Pagerank算法的簡單分析
1、Pagerank算法的核心思想:
注意谷歌Pagerank算法是基於隨機沖浪模型的最好典范(指的是該算法使用的前提是用戶訪問網頁時隨機的),谷歌的Pagerank算法的最基本思想是基於網站之間的相互投票,即我們常說的網站之間互相指向,如果判斷一個網站是高質量站點時,那麼該網站應該是被很多高質量的網站引用又或者是該網站引用了大量的高質量權威的站點,也就如下圖卡通形象所示,所
以對於谷歌來說,我們在優化的時候就應該將該算法的核心思想運用得當,在優化的時候我們嘗試將自己的站點和高質量的權威網站進行鏈接,抑或是通過自己的關
系讓自己的站點被一些高權重的站點鏈接上去,這樣一來,無論是在谷歌還是在百度搜索引擎中,我們的站點在他們看來也會是具有高質量的站點。所以SEO優化
聯盟建議大家在針對谷歌優化的時候要盡力的建設好網站的外鏈和內部鏈接,用鏈接來增加網站或者是網站內容頁面的投票數,進而增加相關重要網頁的權重。
2、Pagerank算法的計算要素:
pagerank算法的計算方法是基於一個與當前網站頁面相關的所有網頁集合(主要是指該網頁
指向和被指向的網頁集合),也就是說將該網頁置身與一個比較大的方陣之中,在這個方陣之後網頁與網頁之間是通過互相指向的有向圖來確定關系同時進行網頁
PR值的傳遞,假如網也的PR值為1那麼相對於整體來說該頁上從其他特定網頁上繼承過來的權重應該是PR(t)/L(t)[其中PR(t)指的是特定網頁的pr值,L(t)指的是該網頁的出站鏈接數目],
但是我們知道這是理想狀態下的計算方法,一個網頁上影響pr值的還有很多噪點,比如網頁中的廣告鏈接、網站之間相互鏈接的連接點是不能再此時同時計算出去
的,也就是說該算法還需呀一個規范化的因子來糾正結果的正確性(規范化因子我們命名為d,通常d值取值為0.85)所以實際上谷歌Pagerank算法用
來計算網站權重的計算公式應該是一個拋去其他噪點因素的干淨公式:
PR(A)=(1-d)+d[PR(t)/C(t1)+...+PR(tn)/C(tn)]
從公式中我們還可以看到一個很令人困惑的問題,那就是該公式中並沒有將相互鏈接的網站或者是形成閉環的網頁鏈接(類似站群思想,將網頁之間形成閉環來積累PR值)
拿出來單獨解釋,對於相互之間互相鏈接的網站我們通過分析可以知道,二者之間的pr值如果在沒有出站鏈接的情況下只會互相傳遞,不會向外流失,久而久之
pr值就會慢慢積累越來越高,這對搜索引擎來說是不夠友好的,所以在實際的pagerank算法中在計算的過程中是將這種閉環鏈接單獨進行計算,同時也引
入了衰退因子(下文中的E(U)),防止pr值過多的積累,該算法的結構如下:
所以對這部分的權重計算公式可以簡單的列舉如下:
主要思想就是該部分網頁的權重R'(u)等於相互鏈接的網頁pr值R(v)與網站的出戰鏈接數目N(v)進行迭代計算,同時引入衰退因子E(U)來現在權重的積累。
3、Pagerank算法的優缺點分析:
pagerank算法將互聯網中大多數的網頁通過基於鏈接來計算網頁質量的方式進行排名,為搜索引擎用戶提供較好的基於鏈接查詢的搜索結果,同時該算法能夠進行離線分析處理,大大縮短了搜索引擎用戶的服務響應時間,因此就目前來說該算法是搜索引擎應用最好的算法,但是pagerank算法的缺點也是相當明顯的,在上文中我們也進行了討論,那就是該算法在初期的時候一直都是基於鏈接分析的,而一個網頁上的鏈接包含很多:比如廣告鏈接、功能鏈接、導航鏈接、以及多次重復的無效鏈接等等,這些鏈接都會被該算法計算在pr值傳遞之中,所以不能夠對網頁降噪之後在進行處理,同時,由於是基於鏈接分析,導致pagerank算法計算出來的搜索結果往往會偏離實際的搜索主題,也就是說該算法不能很好的基於主題查詢,當我