一直以來,谷歌在國內的搜索市場上占據不了有利的位置,搜索市場份額總是居於30%左右,和百度的競爭也有很多年了,可是,始終也沒有占據上風,相信業內的專家早已對這個問題研究過很多了,我的話自然沒什麼權威性,不過,我還是想以自己小小的博客為例,來看看谷歌到底是怎麼輸給百度的。
眾所周知,谷歌是世界搜索巨頭,百度只是在國內享有盛譽,因此,他們的側重點是有所不同的,這源於外文和中文本質上的區別。英語也好,德語也罷,他們的文字書寫都是一種字母字符語言,而漢語文字相比起來則復雜的多。搜索引擎收錄網頁的基本原理就是把網頁的文字內容抓取,錄取到數據庫中,然後建立相應索引,當人們搜索時,就相當於查詢數據庫中的內容,然後按照索引將內容按照符合條件程度排序,輸出。當然,具體的過程是很復雜的,我也沒有做過很深入的了解研究,在此,我就想以一點為核心來研究一個問題,就是分詞問題。
從搜索引擎的原理看出,建立索引的的前面一步工作就是分詞。
什麼是分詞呢,舉個例子:文隨書林 ,這個詞可以有這些分法
1.文-隨書-林;2.文隨-書林;3.文-隨-書-林;……
當搜索蜘蛛抓取到這個詞的時候,要跟自身的分詞庫對照,自動找到最符合的分詞分法,然後按照詞組建立索引。 英文的分詞很簡單,他是以單詞分詞,每個句子中的詞語要以空格分開,而中文呢,遠遠沒有那沒簡單了。到這裡,就可以看出谷歌輸在百度的一個方面了。看個例子:分別在百度和谷歌搜索“jialiu”,這是結果
這樣看就很直觀了。谷歌輸在百度哪裡?就是輸在分詞上!
試想,一個中文分詞數據庫不完善,中文分詞技術落後的數據庫,在國內的中文搜索,能得到廣大用戶的青睐嗎?中文博大精深,中文分詞不當,導致的只能是搜索者找不到想要的內容,久而久之,這樣的搜索變成了沒有意義的搜索,所以,可想而知,谷歌是該好好更新更新他的中文分詞數據庫了,要不,就在分詞這一塊,就怎麼也不好跟百度競爭的啊!
國人最常用的搜索引擎是百度,所以做國內的網站,大多數的seoer都在研究百度的SEO,因為百度的分詞太厲害了,這就導致在百度做一個關鍵詞的排名難度非常大,即使是該關鍵詞的拼音,也難以做到第一,百度總會先把拼音翻譯成中文再去搜索。相比之下,在分詞稍微落後的谷歌上做關鍵詞的排名就簡單多了,中文長尾關鍵詞是最難讓谷歌分詞分好的,這就完全可以利用谷歌的這個弱勢,關鍵詞在百度上做不上去了,就換種思路好好做谷歌,這也是很多網站的關鍵詞在百度排名不佳,谷歌排名卻很好的原因了。
所以,研究谷歌和百度的分詞,是很有利於seoer做關鍵詞的SEO的。這裡講個方法看怎麼來研究谷歌和百度的分詞。
搜索引擎的基本分詞可以通過快照看出來。比如,在谷歌隨便輸入一個詞搜索,“甲型流感”,看這張圖,
很明顯,谷歌的分詞是“甲-型-流感”。如果要做這個關鍵詞的排名,百度強大的分詞技術肯定不會把這個詞拆開吧,而谷歌竟然把這個完整的詞給拆開了。所以,現在做這兩個關鍵詞的思路應該是這樣的:
1.百度:此關鍵詞極其難做,原因在於這是並且只是一個完整的詞,排在前面的全是網易、搜狐、新浪、騰訊等大站,想要做上去非常不容易。要做的,只能是這一個關鍵詞的堆積。
2.谷歌:谷歌的分詞是把這個完整的詞分開了,這樣就形成了兩個詞,而這兩個詞,加上不分開的一個詞,相當於百度就是有三個關鍵詞可以做。甲,型流感,甲型流感,哈哈,思路就出來了,有三個關鍵詞可以做,即使是關鍵詞的堆積,也可以堆積三個詞,也就是說關鍵詞的密度是“甲型流感”一個詞的三倍,而谷歌不但不會認為你是作弊,相反會對你很友好喔!
當然,這只是一個思路,更多的百度和谷歌有趣的分詞還有待細心的發掘,畢竟,這是利用了谷歌相對百度的一個劣勢。
現在再通過我的博客文隨書林看看谷歌和百度在收錄方面的些不同吧。
我的博客開通於2009年6月份,在一月之內,博名排名在百度和谷歌始終是第一位,(當然和我博客名字在網絡上的唯一性是有關的,這裡暫且不論)。博客最後更新日期是8月,然後被我荒廢了很長時間,近幾天才開始更新。在這期間,百度排名始終第一,谷歌變動了很多次,這裡暫且不討論這期間的問題。然後,從我前幾天開始更新開始看,百度收錄良好,也很及時,可是,谷歌蜘蛛總是聽不到我的呼喚,我的博客更新了,也不來瞧瞧(有足夠外鏈的前提下),博文不收錄了,博客排名都不知哪兒去了。
然後,我具體分析分析了下,看下面兩張圖:
這是一篇谷歌不收錄我博文的時候我寫的一篇文章,本料谷歌很快就會更新,收錄,沒想到時隔今日,谷歌都沒有收錄,這還讓我花點心思好好研究了下。
外鏈充足而且都有最新的,權重也不比我低,所以外鏈一定不是主要原因。那麼原因出在哪裡了呢?難道是進了沙盒,想想不可能,沙盒期早就已經過了。我的博文都是原創,按理谷歌應該很買賬,這次不買帳了,到底是什麼原因呢?
從谷歌上沒有