自從自己從事SEO網站優化以來,自己慢慢的去關注網站日志。網站日志分析成為自己每天工作的第一件事情,每天一到公司第一時間就是對昨天的網站日志進行分析。也許部分站長們還不會分析網站日志,這個可以參閱下之前皇冠網小編發表過的《略懂網站日志分析,網站更安全》,但也有少部分覺得分析網站日志就是在浪費時間,天天看著那些數據有什麼作用。這裡皇冠網小編覺得至少有四點我們可以了解到。
第一、 確定是否有蜘蛛過來爬行
如何確定是否有蜘蛛過來爬行:
1、 通過觀看網站日志代碼進行觀看,這個針對分析高手
2、 通過網站日志分析工具進行觀看,這個比較適合新手使用
通過網站日志分析工具可以直接查看站點有哪些頁面已經被蜘蛛爬行抓取了。
第二、 客戶ip便知蜘蛛類型。
1、220.181.108.*ip段的百度蜘蛛(提權蜘蛛)
2、123.125.71.*ip段的百度蜘蛛(劣質文章捉取蜘蛛)
3、123.125.68.*ip段的百度蜘蛛(考察蜘蛛)
4、117.28.255.*ip段的百度蜘蛛(假冒蜘蛛)
5、。。。。。。
第三、 檢測頁面狀態正常與否
通過網址日志我們可以直接的服務器響應代碼看出我們的頁面哪些有問題,哪些正常的。一般情況下返回的狀態碼是200的話說明正常,出現404的話,說明頁面出現問題。
第四、 搜索引擎對站點的友好程度
從網站日志,我們可以直接的看出蜘蛛來我們站點的爬行次數,爬行次數越多說明蜘蛛對我們的站點越友好。
通過上圖我們可以直接的看出蜘蛛對我們站點的爬行次數了,但是這裡面的爬行次數裡面也存在冒牌的蜘蛛,所以我們還需要通過客戶ip進行確認哪些是真正的蜘蛛,哪些是冒牌的。這個可以參閱《略懂網站日志分析,網站更安全》裡面有圖文教程,介紹如何區別真假蜘蛛,這裡就不再介紹了。
通過上面三點的了解,皇冠網hg-seo.com小編對以上四點進行進一步的探知:
針對上面第一、我們可以直接的查看哪些頁面被爬行抓取了,哪些沒有。隨著算法的不斷更新,新站的考察期越來越長了,以至於好多新站長更新的文章通過site:域名,查收錄都沒有顯示。這大部分是因為搜索引擎滯留了沒有及時釋放。
針對上面第二、我們可以通過客戶ip辨別站點安全信息及文章內容質量怎樣
根據不同的IP我們可以分析網站是個怎樣的狀態,以下常見的百度蜘蛛IP:
1、123.125.68.*常來,別的來的少,那麼站點進入沙盒,或被者降權的可能性非常高。
2、220.181.68.*每天只增加沒有減少,則是進入沙盒或者被降權的預兆。
3、220.181.7.*、123.125.66.* 搜索引擎開始要抓取東西。
4、121.14.89.*擺脫了新站考察期。
5、203.208.60.*站點開始不正常。
6、210.72.225.*這個ip段不間斷巡邏各站。
7、220.181.108.*高質量文章內容頁或首頁抓取。
一般成功抓取返回代碼都是 200 0 0返回,若返回狀態顯示304 0 0代表網站沒更新,蜘蛛來過,但沒抓取。如果是 200 0 64,那麼也別擔憂,這只不過是一些動態頁面的抓取。
針對上面第三、如果服務器返回狀態,比如200 表示正常訪問。404 表示頁面不存在。304代表網頁還沒更新。這些都可以通過網站日志裡面的代碼直接看出來的。如果大量的出現404的話,那麼非常有必要對這些404的頁面進行采取措施。我們可以用robots.txt協議來屏蔽這些頁面,不讓搜索引擎來爬行這個頁面。
針對上面第四、真的蜘蛛來的次數越多越好!
好了,對網站日志就介紹裡面。網站日志可以通過以下兩種方式獲得:
1、 ftp空間log文件夾
2、 登入你站點的服務器,通常網站日志位置C:WINDOWS-system32-LogFiles
尊重原創,注明出處,你就是在為互聯網環境淨化做出自己的一份努力。本