想把SEO做好,一定要對搜索引擎的蜘蛛足夠了解,要了解蜘蛛,就要認真對日志進行分析,下面我愛騾就根據網站的日志試著對蜘蛛做簡要的分析,下面的幾張截圖是之前分析的網站日志,我們主要就來看看百度蜘蛛和谷歌蜘蛛吧,其他SE果斷無視。
一、抓取的深度和廣度
從圖中可以看出,百度蜘蛛的訪問次數和抓取量分別是98600和224896,谷歌蜘蛛的訪問次數和抓取量分別是31157和172790,讓我們用小學數學老師教的算術來算一下平均每個蜘蛛訪問的頁面數,百度蜘蛛:224896/98600=2.28,谷歌蜘蛛:172790/31157=5.54,可以看出百度的抓取廣度要比谷歌優越一些,而谷歌蜘蛛的抓取深度明顯要高於百度,百度每個蜘蛛平均才看兩個頁面,因此,很多數據量稍大點的網站經常會出現這個情況,谷歌收錄比較多,而百度收錄非常少,針對這一點,做百度收錄量的時候,如果數據量較大,內頁的隨機文章調用這一塊一定要做好,至於如何隨機,自己發揮吧。
二、錯誤鏈接的抓取
上圖是隨便抽取的幾個蜘蛛返回404狀態碼的抓取頁面,從圖中的標注可以看出,即使網站沒有死鏈,蜘蛛仍然會抓取一部分死鏈,百度蜘蛛喜歡抓取一半URL然後就被勾引到別的地方,而谷歌也有htm後綴抓成html的情況,不過相對來說,谷歌的抓取錯誤還是非常少的,而百度就不少了,究其原因,估計只有兩家公司的工程師才清楚,我們也沒必要去關注這個原因。針對這一點,無論你的站有沒有死鏈,盡量都去給加上404錯誤頁面,因為,不管你有木有死鏈,蜘蛛都會抓到。
三、對新站的抓取
根據以前觀察幾個新站日志的發現,百度蜘蛛對一個新站一般第一天會瘋狂抓取,然後會沉寂一段時間,而谷歌比較老實,喜歡按部就班一點一點來,越來越多。上圖是我六月份上的一個新站的日志,6月15號那天掛上去後不到一小時百度收錄首頁,並且瘋狂抓取5500次,第二天就開始在爆發中沉默,而谷歌一開始抓取的很少,慢慢越來越多(聲明:上圖日志的這10天,網站未做任何外鏈,因此不會受任何外在原因影響)。經常看到很多人網站上線第一天看到百度大量抓取感覺很驚訝,覺得是自己網站權重高,然後第二天開始,蜘蛛直接來個1800度調整,每天就稍微來看一下,然後就變得很郁悶,覺得是百度不喜歡自己的站了,其實不是這樣,這是百度蜘蛛的特性。
以上只是簡要分析下百度和谷歌蜘蛛抓取網站的特性,只是冰山一角,網站日志還有太多我們該去分析的東西,本文轉自:福州SEO@我愛騾,原文鏈接:http://www.52luo.com/post/138.html,轉載請注明出處。