搜索引擎對網頁的排序一直是站長們關注的一個問題,而搜索引擎的投票原理一直是網頁排序的一個重要因素,從之前的外鏈投票到現在的用戶投票,投票排序始終百度在更改百度算法時的重點關注點,今天木木SEO也閒不住,根據百度搜索研發部對網頁搜索排序的做一些淺談。
好了,假設蜘蛛數據庫系統裡有n個網頁,有m個特征(頁面質量、頁面加載速度、頁面內容豐富度、頁面超鏈、文本相關性等),現在對這n個網頁的m個特性有不同的打分,那麼:
一、如何根據這些特征的“投票”,選出最適合放在第一位的網頁呢?
百度搜索研發部的看法是這樣的:
1. 設計算法時,要避免出現“贏者通吃”帶來的信息丟失問題。
什麼叫贏者通吃?很簡單,比如美國總統選舉制度,每個州根據其人口多少得到相應的“州票”,州裡的人對總統候選人進行選舉,在某個州獲得票最多的那個候選人,獲得這個州所有的“州票”,然後統計所有候選人的“州票”多少,獲得最多“州票”的候選人獲勝。打個比方只有A州500個人,而B州400個人,那麼對應州票分別是是500和400,如果某候選人小布在A州以251:249獲勝,另一個候選人老奧在B州以400:0獲勝,這樣老奧在全國范圍內獲得了649投票,而候選人小布只有在A州的251投票,但是由於“贏者通吃”,小布獲得了A州的全部500張“州票”,老奧只獲得了B周的400張“州票”,在全國只有少數民眾支持的小布居然會獲得了選舉的勝利。
很明顯這個排序法如果在搜索引擎的算法中,那問題是很大的,為了排序結果NO.1(最相關的網頁),找到了一個特征A(頁面質量),而如果決定結果NO.1的不是特征A,而是由特征A推導出來的特征B(頁面加載速度),那麼在特征A向特征B的推導過程中,除開頁面加載速度外的其他頁面質量信息就丟失了,這樣就造成贏者通吃。
2. 不要因為某幾個特征特別好,就把某個網頁排到最前,或者因為某幾個特征特別差,就把某個網頁拋棄。
這個也很簡單,還是說選舉,如果有4個候選人,有1000個選民,其中候選人A、B、C都是一個派系的,很受推崇,大概有700人是支持他們的,而D單獨一個派系只有300人支持他,但是在選舉投票過程中由於ABC都非常好,導致這700個支持的民眾不知如何選擇,結果票數分散,每人只要200多票,而D盡管比較差就得到300票,但卻勝利。
所以在排序網頁過程中網頁也可能出現各個特征都非常好而得到的投票比較平均的情況,也有可能由於優質特征少而投票集中的情況,這樣就引出了第三條。
注:相關網站建設技巧閱讀請移步到建站教程頻道。
1 2 下一頁 收藏本文
3. 最合適放在首位的網頁不一定是在每個特征上都最好,而應該是能夠兼顧所有特征,綜合表現最好的那個。
這就是搜索引擎需要做的——給用戶提供最滿足需求的頁面。
4. 搜索引擎使用者對搜索結果的點擊行為,可以看成是對搜索結果進行的“投票”。
以上提到的種種投票,僅僅是對選一個結果的情況進行討論,而搜索引擎要面對的問題是對多個網頁進行選擇排序。所以我們來個下一個問題:
二、如何根據這些特征的“投票”,決定n個網頁的順序?
關於多網頁投票排序的問題,百度搜索研發部認為是有一個“不可能的民主”理論的,該理論的大意是“合理”的民主應該滿足3個條件:
1. 那個網頁,如果選民都認為A比B好,那麼最終結果應該也是A比B好。
2. 沒有“獨裁者”。即不存在這樣一個人,無論別人怎麼排序,最終結果的排序都和這個人的排序一致。
3. 無關因素獨立性。即在第一次投票完成後,A排在B前面,現在進行第二次投票,如果所有人都沒有改變自己投票中A和B的相對順序,那最終結果應該也是A在B前面。
而大家可以想想:如果某種投票方式滿足條件1和3,則必然不滿足2,也即必然存在某個“獨裁者”。根據“不可能的民主”理論和搜索引擎算法結合起來看,搜索引擎很難給出一個合理的網頁排序,但是搜索引擎算法和投票也有所不同,有兩個角度可以破解
1. 認為條件3過於強,需要弱化。
2. 也許在網頁排序問題上,真的存在這樣一個“獨裁特征”,這個“獨裁特征”從目前看來,最適合的應該就是“用戶滿意度”了,如果一定要有找一個“獨裁者”,那麼按照用戶的滿意程度來排序網頁就是最合理的網頁排序。