我以前對中文搜索引擎沒什麼認識,真是孤陋寡聞。看到這篇文章,直覺是如果這兩個專利是相似的或有抄襲嫌疑,這牽扯到兩家公司的核心利益。對我這樣的搜索引擎優化人員來說,也能從中了解百度算法的一些內幕。所以馬上去看了李彥宏的專利申請,並再次閱讀了Google PR的專利申請。
我的理解是,這兩個專利申請的區別在於,他們談的根本就是兩回事。要解決的問題和實施方法都不一樣,雖然研究對象是一樣的,都是鏈接。
超鏈分析要解決的是文件與搜索關鍵詞的相關性。李彥宏提出的方法是,除了文件本身對關鍵詞的引用外,還需要考慮反向鏈接中的關鍵詞。
具體來說,一個文件被索引進數據庫的時候,會連同指向這個文件的超鏈接,以及每個超鏈接當中使用的錨文字(鏈接文字),一同記錄在案。而搜索詞也會建立一個數據庫,每個詞連同含有這個詞的超鏈接,以及這些超鏈接所指向的文件一同被記錄在案。
當一個關鍵詞被搜索的時候,含有以關鍵詞為鏈接文字的反向鏈接數目最多的那個文件或網頁,將被作為最相關的結果排在前面。
這是基本思路,當然還有其他變量考慮進去。比如說搜索字符串含有幾個詞的時候,每一個詞都是搜索矢量的一個維度。
我比較感興趣的是,在這篇專利申請中已經提到了詞干技術,而且提到了不同文字文件的相關性。
而Google的PR專利顯然是專注在已經應用了超鏈分析之後還不能解決的問題。在Google的專利申請中,明確提到即使在考慮了指向文件的鏈接及鏈接錨文字之後,搜索引擎還有重要問題需要解決,那就是來自不同文件的鏈接有不同的權重值。
你不能指望來自白宮網站的鏈接和非洲某小鎮上一個學生的個人網站上的一個鏈接,投票值相同。而Google PageRank就是衡量網頁重要性的一個方法。指向一個網頁的鏈接越多,而這些鏈接本身的權重越高,那麼這個被指向的網頁的重要性及PageRank就越高。
Google的專利申請當中給出了具體怎樣計算這一重要性指標,他們取名為網頁級別。網頁級別的計算需要進行多個循環的替代計算,才能得到近似於最終結果的PR值。
Google PR是與搜索詞無關的,或者說與文件相關性無關的。它只描述某一個文件的重要性或地位。
就目前所有搜索引擎的表現來看,可以肯定這兩個技術都已經被應用在排名算法中了,雖然可能名字不一樣。尤其明顯的是,雖然Google一直以PR為旗號,很少介紹它們的其他技術。但近一兩年來, Google算法中對鏈接分析,錨文字分析,詞干技術的重視越來越多。
這裡做的分析完全是針對兩篇專利申請所透露的技術問題,對誰先誰後,誰受誰啟發等等,無意評論。