撰寫本文的出發點:由於最近項目改版,需要用到新的域名。於是每天開始對蜘蛛及用戶的訪問日志進行分析,以並發現不正常的請求及站內錯誤。廢話不多講,直奔主題。
步驟:
NO1、改版後服務器環境搭好,優化好各項配置參數並測試好對外開放新域名。
NO2、1-2天百度收錄、谷歌收錄。(注:在權重極高的首頁掛了一下)
NO3、10天了,百度還只收錄首頁,內頁動也不動。GOOGLE已經好幾萬了。
NO4、觀察日志LOG,GOOGLE 全是200 0 0狀態碼,百度200 0 64全是這些狀態碼
NO5、搜索大量資料分析這些狀態碼。其中的資料主要來自A5和CHINAZ,發現一些根本不懂的人也在亂講,導致搜出來的內容並不科學占了主導意思。
網絡上的主要意思大概有下面幾個觀點,本人一一作出解答。
1、K站的表現,這一說法主要來自被K過站的站長,然後在散播說,只要留下200 0 64 就表示百度要K你了。
答:錯誤,這只能說是一種偽科學。你有啥證據?百度官方說了嗎。我們站在科學的角度分析:200 0代表連接成功,大家都明白。後面的64 查詢MSDN後得到是網絡不可用。本人開發C++ 3年,C# 4年的經驗判斷,出現這一現象,主要是因為網絡被重置,或者TCP通訊時哪一方主動被斷開。因為本人所從事的工作也經常是網絡開發。只要一方不正常斷開,另一方會導致異常,程序就要去做相應的異常處理,IIS也是個程序,百度蜘蛛也是個程序。那麼雙方都會去處理這個異常。其中IIS日志就會記錄200 0 64。本人觀察正常的浏覽器也會產生200 0 64 碼,原因也是如此。只要浏覽器在DEBUG時然後中斷連接,日志就會產生這種狀態碼。
再說,我一個新域名,也沒有啥優化過度,做個啥的弊,被K啥。
2、網絡廣為流傳的代表64位操作系統。
答:狗屎,滾蛋。中國的互聯網正是因為有了你們這些人,才會有那麼多的垃圾彈窗。
3、GZIP優化後,導致這一情況產生。
答:本人著重針對這一點進行分析,GZIP的原理不說了,為什麼做也不說了。那麼GOOGLE,和市面上大多數浏覽器也是支持GZIP的,百度的蜘蛛也是支持GZIP的。這一點可以從百度的官方得到認可,百度官方的搜索引擎優化指南也提倡這一做法。本人的服務器已經開啟GZIP,得到的狀態碼大多數如下:
2012-02-23 00:11:18 W3SVC571308376 192.168.206.2 GET http://www.***.com/forum.php mod=viewthread&tid=59286&extra=page%3D1&page=1& 80 - 123.125.71.98 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
2012-02-23 00:18:26 W3SVC571308376 192.168.206.2 GET http://www.***.com/index.php - 80 - 123.125.71.110 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
2012-02-23 01:37:23 W3SVC571308376 192.168.206.2 GET http://www.***.com/archiver/index.php action=tid&value=90013& 80 - 123.125.71.56 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
於是本人關閉GZIP進行跟蹤觀察,第二天發現的日志如下:
2012-02-24 01:46:05 W3SVC571308376 192.168.206.2 GET http://www.***.com//archiver/index.php action=fid&value=64& 80 - 123.125.71.22 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
2012-02-24 01:46:08 W3SVC571308376 192.168.206.2 GET http://www.***.com//plugin.php id=vgallery:vgallery&tion=view&vid=59 80 - 123.125.71.16 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
2012-02-24 01:38:54 W3SVC571308376 192.168.206.2 GET http://www.***.com//forum.php mod=viewthread&tid=90290&extra=page%3D1&page=1& 80 - 123.125.71.114 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
為什麼會這樣子呢?我的分析如下:
1、百度在請求頁面內容的時候,得到GZIP加密串,然後進行解密。這一過程沒有及時的將剩余的資源讀取完畢就干自己的事了。導致服務方出現異常,所以產生了網絡被重置,網絡名不可用的日志。GOOGLE這一方面做的非常好,完全按照流程辦事。其實這也是沒有關系的。因為百度已經得到了自己想要的內容。
2、百度在請求頁面內容的時候,得到GZIP加密串,解密失敗。哈哈。這說不過去吧。這正是廣大站長最擔心的,百度也沒有解釋。我認為這點倒不致於。
3、有些人說,我沒有啟用GZIP為什麼也會有200 0 64 ,因為蜘蛛在抓你的內容的時候,你的內容沒有發生變化,它只判斷內容流的前部分就直接關閉這次通訊。導致你