作為一名seoer,對網站日志分析是必需要掌握的一項基本的技能,通過日志分析可以分析爬蟲抓取頁面有效性,通過日志分析蜘蛛返回的狀態碼能及時發現網站裡面是否存在錯誤或者蜘蛛無法爬取的頁面,排查網站頁面中存在的404錯誤頁面,500服務器錯誤等這些噪音內容上噪音頁面上(重復頁面,低質量頁面,空內容頁面,404頁面,不排名頁面等)
一、網站日志可以為我們做什麼?
1、 可以分析爬蟲抓取頁面有效性(減少搜索引擎在一些噪音頁面上:重復頁面,低質量頁面,空內容頁面,404頁面,不排名頁面 的抓取頻率);
2、排查網站頁面中存在的404錯誤頁面,500服務器錯誤等
3、頁面重要內容是否被爬蟲完整爬到並且快速遍歷;
4、正確分辨蜘蛛爬蟲
二、常見HTTP狀態碼解讀
1、200代碼,表示蜘蛛爬取正常
2、404代碼,訪問的這個鏈接是錯誤鏈接
3、301代碼,永久重定向
4、302代碼,表示臨時重定向
5、304代碼,客戶端已經執行了GET,但文件未變化。
6、500代碼,表示網站內部程序或服務器有錯
接著,我列舉一個網站日志的案例:
日志裡的含義,可以大家看下網站日志中各個數據都代表什麼意思,總之這個文件是記錄的一天發生在網站上的一些行為。當我們拿到這麼一個網站日志,我們就可以審視我們的日志,並且通過對日志文件分析解決網站存在的問題;
三、日志代碼解讀
從日志文件當中可以解讀出兩個部分內容:
1、搜索引擎抓取情況