昨天在一個QQ交流群裡看到有一個新手發問,如何去簡單的分析網站日志,清楚知道網站的一個數據抓取情況,哪些目錄抓取較好,有哪些IP段蜘蛛抓取等。
一個網站要發展的更快,走的更遠,它離不開日常的一個數據分析,就如攜程旅行網頁搜索營銷部孫波在《首屆百度站長交流會》上所言,其利用數據模型對頻道改版後,網頁索引量從原來的十幾萬,上升到今年的500多萬的索引量。由此可見,數據分析的重要性。
說到每日的網站日志分析,在這裡強調下,我需要用到兩個工具:Excel和光年日志分析工具。可能也有朋友在對網站的日志分析時,需要另外用到一個工具Web Log Explorer。
其實在網站日志分析中,最需要用到的工具就是Excel(07版Excel或10版Excel),在這裡,簡單跟大家交流一下我的一點經驗。
網站體抓取情況統計:
借助光年日志分析工具,獲取各個搜索引擎的蜘蛛總抓取量、蜘蛛總停留時間、蜘蛛來訪次數(本人由於只做百度優化,就說說百度蜘蛛抓取情況),如下圖1:
把這上面的數據做成Excel即可,如下圖2:
平均停留時間=總停留時間/訪問次數, 計算公式:=C2/B2 enter鍵
平均抓取量=總抓取量/訪問次數, 計算公式:=D2/B2 enter鍵
單頁面抓取時間==停留時間*3600/總抓取量 計算公式:=D2/C2 enter鍵
蜘蛛狀態碼統計:
借助Excel表格,打開日志(最直接的辦法,就是它日志拖到Excel表格裡),然後再統計蜘蛛狀態碼,如下圖3:
通過Excel表格下的“數據”功能下的篩選,下面就可以對蜘蛛狀態碼進行統計了,具體的統計操作如下圖4:
點擊IP段下拉框,找到文本篩選,選擇自定義篩選。
通過圖3,可以看出,蜘蛛抓取的狀態碼200特征是HTTP/1.1" 200,以此類推:狀態碼500是HTTP/1.1" 500、狀態碼404是HTTP/1.1" 404、狀態碼302是HTTP/1.1" 302…..下面就可以篩選出各個蜘蛛狀態碼,如下圖:
如上圖5,選擇包含關系,即可以統計出百度蜘蛛200狀態碼的抓取量,其他以此類推。
蜘蛛IP段統計:
如上圖,把狀態碼換成IP段就可以,如:HTTP/1.1" 200換成202.108.251.33
目錄抓取統計:
如上圖,把狀態碼換成相應目錄名就可以,如:HTTP/1.1" 200換成/tagssearchList/
總結一下:
如何通過簡單的Excel分析網站日志數據,就介紹到這裡。不知道身為seo的你平常有沒有分析網站日志呢。反正我平常都分析這個東東的。自認對網站的日志進行分析是很有必要的。至於分析的這些數據,有什麼作用,如何通過這些數據查到網站的不足之處,然後列出調整方案,有步驟的去調整網站的結構,相信有很多人已經寫過了,我在這裡,就不再多說了。