在百度搜索引擎又發生了有趣的事情,搜索“私服”“傳奇私服”“新開傳奇私服”等關鍵詞,淘寶網女人頻道均排在顯赫的位置(見下述圖片|PS:周一早上起來看,發現此現象已經消失!暫不知是為算法改變,還是人工干預)。這個消息在站長圈子裡炸開了鍋,大量的站長朋友對此現象提出了自己的疑問,下面墨明棋妙在此對這個現象做出自己的解釋,也針對性的解答一下比較典型的一些疑問。
許多同學看到這個現象後的第一反應是:淘寶解除了對百度的robots屏蔽,被百度收錄了。在這裡墨明棋妙首先糾正這個錯誤的說法。淘寶並沒有解除對百度的屏蔽,我們打開淘寶網的robots頁面http://taobao.com/robots.txt,我們看到淘寶網的robots設置如下:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
可以明顯的看出,淘寶網屏蔽百度蜘蛛抓取全站信息,那麼,在百度搜索為什麼還能看到淘寶的頁面呢?
在這裡,首先要解釋兩個名詞,抓取和索引。百度蜘蛛抓取是指蜘蛛爬蟲在互聯網上爬行、訪問頁面並獲取頁面內容返回數據庫。而索引則是將數據庫中的內容展示在搜索引擎中供用戶訪問。許多SEO朋友經常有疑問,百度蜘蛛天天來我的站抓取數據,為什麼收錄數還是那麼少?這實質上是因為蜘蛛抓取後並沒有為數據建立索引的原因。蜘蛛抓取數據後不一定索引,而搜索引擎索引數據同樣不一定需要抓取。這實質上是百度搜索引擎為優化用戶體驗而采用的一種策略。對於不允許被百度抓取的網站,如果其他站點對其進行描述和指向,那麼百度會利用其他站點所獲知的信息通過自身的策略對該站點進行索引,並參與到搜索引擎關鍵詞排序中。而淘寶網女性頻道,這是由於這種原因,出現在了百度的索引中,同樣,淘寶網許多其他的頁面被百度索引,也是出於這個原因。
那麼,為什麼在搜索傳奇私服等關鍵詞時,淘寶網為什麼會以私服類的標題出現呢?這還得歸結到百度自身的策略上。不少SEOer都知道,在幾年前,就有百度等搜索引擎將DMOZ對網站的標題描述內容植入索引中供用戶搜索的例子。這種現象通常表現在網站屏蔽抓取、網站無法訪問、網站性質,標題,內容出現大規模的改動 等幾種情況下。搜索引擎會通過其外鏈指向自動為其選擇一個與當前搜索請求最相關的標題展示。淘寶網的標題現象,正是出於此種原因。
其實大家最關注的,還是淘寶網為什麼在這些關鍵詞上取得了如此優秀的排名。我認為,會有朋友給出如下解答:有大量的外部鏈接指向淘寶網女人頻道,導致這個頁面權重極高,所以在標題表現為傳奇私服的時候能取得非常好的排名。我認為這種說法只是對了一半,並沒有抓到最本質的原因。
實質上,這種基於鏈接關系的搜索引擎排序主要依靠幾大算法:超鏈接導向搜索(HITS)算法、TF-IDF算法(相關性算法)和PR算法。因為PR算法得出的數據在一段時間內是比較穩定的,所以分析這個現象,我們並不需要將PR算法做過多的考慮。下面介紹一下HITS算法:HITS算法基本思想是利用頁面之間的引用鏈來挖掘隱含在其中的有用信息(如權威性),具有計算簡單且效率高的特點。HITS算法通過兩個評價權值——內容權威度(Authority)和鏈接權威度(Hub)來對網頁質量進行評估。內容權威度與網頁自身直接提供內容信息的質量相關,被越多網頁所引用的網頁,其內容權威度越高;鏈接權威度與網頁提供的超鏈接頁面的質量相關,引用越多高質量頁面的網頁,其鏈接權威度越高。HITS算法認為對每一個網頁應該將其內容權威度和鏈接權威度分開來考慮,在對網頁內容權威度做出評價的基礎上再對頁面的鏈接權威度進行評價,然後給出該頁面的綜合評價。通過這段解釋,我們可以看到的是,淘寶網女人頻道是有著極高的內容權威度的。
而這,還並不足以讓淘寶網女性頻道達到如此優秀的排名,國內比淘寶網女性頻道外鏈數量多的還是有很多,而其他站點卻並沒有在此關鍵詞上取得排名。這是為什麼呢?
說到這裡,覺得不得不提一下“主題漂移”現象,主題漂移現象是指對於一些大站,其自身權重極高之後,導致只要其網頁出現的關鍵詞,都能取得很好的排名的一種現象,這種現象在早期的搜索引擎中經常出現,而現在,絕大多數搜索引擎都采用了各自的算法對此現象進行了很好的遏制,主要思路即為:判斷網站的主題,給予主題越相關的關鍵詞越高的權重,與主題相關度越低該關鍵詞權重越低,再將這個值與HITS算法結果進行加權,從而降低低相關度的關鍵詞排名。即所說的TF-IDF算法(相關性算法)。譬如我的博客http://www.seo-mmqm.com,主題為深圳SEO,在這個詞上,也有不錯的權重,而搜索深圳趕集網,卻沒有任何排名,我的首頁也出現了趕集網,實質上這是和我的博客相關度極低的詞,所以在這個詞上權重得分極低,所以也就不會有排名。話說回來,對於淘寶網女人頻道呢?這個頻道自身是屏蔽百度搜索引擎的,那麼百度是無法通過獲取其內容來判斷指向它的站與它的相關性的,那麼,百度是如何判斷的呢?
墨明棋妙認為,百度在無法獲知網頁內容的情況下,將綜合網站所有外鏈指向的文本信息,以此作為網頁內容來和任一外鏈對比從而判斷相關性,那麼顯而易見的是,越多相同錨文本相同的詞指向淘寶網女人頻道,該關鍵詞將獲得越高排名,那麼得出的結論是:有朋友開了個小小的玩笑,利用私服類關鍵詞給淘寶網女人頻道做了較多的外鏈,導致此頻道在私服類關鍵詞排名極度飙升。
一個小小的BUG,卻也暴露出百度一些技術方面的不足,回望Google,似乎並沒出現這個現象。搜索的路子,還有很長。
感謝 深圳SEO-墨明棋妙 的投稿