Web3.0的到來後基於互聯網營銷模式層出不窮,seo就是其中一塊炙手可熱的領域。本人對百度算法跟蹤研究已近5年的時間,我主要從事的是算法逆向,也就是通過一些相關指標來判斷百度排名規則。在這裡和大家分享一點心得。
在敘述百度算法之前我先講一下我在前不久之前看到百度搜索研發部博客中的一篇文章《淺談網頁搜索排序中的投票模型》裡面敘述了美國的選舉制度,這其實就是百度的其中一種投票體系的原型,我是這麼認為的。用一張簡單的圖來闡述一下整個過程(當然這圖只是簡略表達,網上說法很多,實際結構也只有度娘可知):
看了上圖我相信大家都應該明白,排序的殘產生應該是在“總數據庫”和www.baidu.com之間發生的變化,百度蜘蛛會采集很多內容回來,全部存放入總服務器,總服務器通過規則判斷篩選後最終在web服務器上放出頁面給出排序,其實就是在“總數據庫”發生了一些列的算法變化。當然我這邊闡述的內容中的各個服務器和名稱全部是我個人定義,但基本的邏輯應該是如此的,按照數據分析的原則:數據收集-----數據處理-----數據分析儀-----數據展現,其實就很能概括百度這一行為。
雖然百度一方面做著推廣競價,一方面又希望給廣大用戶一個良好的檢索體驗,可能很多seoer又恨又愛,但是根據官方的各種文本我們還是姑且相信百度搜索研發部門還是希望給用戶一個好的檢索體驗。
說到了這裡我不得不用一張圖來給大家展示一下,什麼是金字塔模型:
看了這圖後,可能有限人應該會有質疑,這很像漏斗原理,對!沒錯,就跟漏斗原理很像,但是沒用金字塔來的勵志,大家都希望能夠獲得金字塔最高峰。
排序篩選過程又是如何的呢?我們引用一下百度搜索研發部文章內的一段內容:
“系統裡有n個網頁,有m個特征(頁面質量、頁面內容豐富度、頁面超鏈、文本相關性等)對n個網頁有不同的打分,如何根據這些特征的“投票”,選出最適合放在第一位的網頁呢?
從選舉的例子中,我們可以得到的幾個啟示:
1. 設計算法時,要避免出現“贏者通吃”帶來的信息丟失問題。
2. 不要因為某幾個特征特別好,就把某個網頁排到最前,或者因為某幾個特征特別差,就把某個網頁拋棄。
3. 最合適放在首位的網頁不一定是在每個特征上都最好,而應該是能夠兼顧所有特征,綜合表現最好的那個。
4. 搜索引擎使用者對搜索結果的點擊行為,可以看成是對搜索結果進行的“投票”,這樣的“投票”信息的使用方式,也要注意考慮是否會帶來選舉過程中出現的種種不合理。
以上提到的種種選舉方案,僅僅是對“多候選人單職位的”的情況進行討論,而搜索引擎面對的問題,則更類似於“多候選人排序”的情況,也即:
系統裡有n個網頁,有m個特征(頁面質量、頁面內容豐富度、頁面超鏈、文本相關性等)對n個網頁有不同的打分,如何根據這些特征的“投票”,決定n個網頁的順序?
而這個“多候選人排序”問題,是有一個“不可能的民主”的理論的,該理論的大意是,“合理”的民主應該滿足3個條件:
1. 如果選民都認為A比B好,那麼最終結果應該也是A比B好
2. 沒有“獨裁者”,也即,不存在這樣一個人,無論別人怎麼排序,最終結果的排序都和這個人的排序一致
3. 無關因素獨立性,也即,在第一次投票完成後,A排在B前面,現在進行第二次投票,如果所有人都沒有改變自己投票中A和B的相對順序,那最終結果應該也是A在B前面
而通過數學的證明,可以得出結論:如果某種選舉方式滿足條件1和3,則必然不滿足2,也即必然存在“獨裁者”,這個問題的證明,可以參考這篇博客:http://roba.rushcj.com/?p=509
根據“不可能的民主”理論,和搜索引擎結合起來看,似乎搜索引擎很難給出一個合理的網頁排序,但是搜索引擎和投票又似乎有所不同,有兩個角度可以破解
1. 認為條件3過於強,需要弱化。
2. 也許在網頁排序問題上,真的存在這樣一個“獨裁特征”,這個“獨裁特征”從目前看來,最適合的應該就是“用戶滿意度”了,按照用戶的滿意程度來排序網頁,就是最合理的網頁排序。如何衡量“用戶滿意度”呢?這就是我們一直在努力的。”
相信大家閱讀了這段內容後應該深有體會,百度算法和選舉制有很大的雷同之處。那麼我們做為逆向研究的方向是先從數據展現本身研究得出數據分析原則,這個是一項長期計劃,因為我們必須對數以億計的網站進行分析後才可以得出結論,而事實證明百度排序規則中不僅僅只有一條算法規則,會有多重規則。
前期我也已經開發出一個基於關鍵詞的簡單分析程序:
這個工具主要是輔助作用,之前討論的選舉制度主要針對的外鏈的有效性,而此工具的主要內容是針對相關性,也就是搜索結果最後的排序規則中的先後排序規則。當然這個工具還是處於毛胚狀態,很多指標都還是沒有加進去,後期大家可以一起參與這份研究,把一些相對比較重要的指標加進去便於我們的研究更加的完善。
如果你是純粹做一個seoer我覺得到這裡,你也可以停止閱讀這份研究,因為事實證明,你只要獲得最後排序的相關算法即可完成工作,通過此工具你已經能夠輕松的獲得什麼樣的密度情況下可以優先獲得排名。倘若你在做價值數萬的關鍵詞,我覺