相信很多站長都知道IIS日志的存在,可是並不重視,因為一些基本數據我在站長工具就可以查詢到,何必去看IIS日志呢?你這樣想,就錯了。想要了解真正的去了解蜘蛛,了解網站概況,觀察IIS日志是必須的!
那麼通過IIS日志我們能知道什麼?
1、我們發的外鏈是否起到效果?
2、我們買的空間是否能夠穩定?
3、蜘蛛對我們的那些頁面比較喜歡而對哪些不喜歡?
4、蜘蛛什麼時候抓取我們的網站頻繁,我們需要什麼時候更新內容?
而這些問題其實我們可以通過我們的服務器IIS日志可以簡單的分析出來,作為一個合格的SEO,要真正會分析IIS日志才可以而不是簡單的去看看狀態碼,下面給大家介紹幾點通過IIS日志分析出的網站問題。
一、IIS日志的重要作用?
1.通過IIS日志可以了解蜘蛛對網站的基本爬取情況,可以知道蜘蛛的爬取軌跡和爬取量,通過我們的IIS日志,外鏈的多和少和網站蜘蛛的爬取量是有直接影響的,我們所說的鏈接誘餌就是如果你做了一個外鏈,蜘蛛在爬取這個外鏈頁面並把頁面放出來時,蜘蛛可以通過你留的這個鏈接來爬取你的網站,而IIS日志正是會記錄下蜘蛛的這次爬取行動。
2.網站的更新頻率也和IIS日志中蜘蛛抓取的頻率有關,一般來說更新頻率越高,蜘蛛的抓取頻率越高,而我們網站的更新不僅僅只是新內容的添加同時還有我們的微調操作。
3.我們可以根據IIS日志的反應情況,對我們的空間的某些事情和問題提前進行預警,因為服務器如果出問題的話在IIS日志中會第一時間反映出來,要知道服務器的穩定速度和打開速度兩者都會直接影響我們的網站。
4.通過IIS日志我們可以知道網站的那些頁面是很受蜘蛛歡迎的,而哪些頁面是蜘蛛連碰都不去碰的,同時我們還能發現有一些蜘蛛由於是過度爬取對我們的服務器資源損耗是很大的,我們要進行屏蔽工作。
二、如何下載日志及日志設置注意事項?
1.首先我們的空間要支持IIS日志下載,這一點是很重要的,在我們購買空間之前必須要先問好支不支持IIS日志下載,因為有的服務商是不提供這項服務的,如果支持的話空間後台一般都有日志WebLog日志下載這個功能把它下載到根目錄在用FTP傳到本地就可以,服務器的話可以設置將日志文件下載到指定路徑。
2.這裡有個很重要的問題,IIS日志強烈建議設置成每小時生成一次,小型的企業站和頁面內容較少的網站可以設置成一天,它默認是一天,如果內容多或者大型站設置成一天生成一次,那麼一天只生成一個文件,這個文件會相當的大,我們有時電腦打開是會造成死機,設置的話找空間商協調設置即可。
三、IIS日志的分析。
1.日志的後綴名是log的我們用記事本打開,選擇格式裡的自動換行這樣看起來方便,同時用搜索功能搜索BaiduSpider和Googlebot這兩個蜘蛛。
例如:
百度蜘蛛
2012-03-13 00:47:10 W3SVC177 116.255.169.37 GET / – 80 – 220.181.51.144 Baiduspider-favo+(+ baidu /search/spider ) 200 0 0 15256 197 265
谷歌機器人
2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt – 80 – 222.186.24.26 Googlebot/2.1+(+ google /bot ) 200 0 0 985 200 31
我們分段來解釋
2012-03-13 00:47:10 蜘蛛爬取的日期和時間點
W3SVC177 這個是機器碼這個是惟一的 我們不去管它
116.255.169.37 這個IP地址是服務器的IP地址
GET 代表事件
GET後面就是蜘蛛爬取的網站頁面,斜槓就代表首頁
80 是端口的意思
220.181.51.144 這個IP則是蜘蛛的IP,這裡告訴大家一個鑒別真假百度蜘蛛的方法,我們電腦點擊開始運行輸入cmd打開命令提示符,輸入nslookup空格加蜘蛛IP點擊回車,一般真百度蜘蛛都有自己的服務器IP而假蜘蛛則沒有。
如果網站中出現了大量的假蜘蛛則說明有人冒充百度蜘蛛來采集你的內容,你就需要注意了,如果太猖獗那會很占用你的服務器資源,我們需要屏蔽他們的IP.
200 0 0這裡是狀態碼 狀態碼的意思可以在百度裡搜索下
197 265最後兩個數字則代表著訪問和下載的數據字節數。
2.我們分析的時候先看看狀態碼 200代表下載成功,304代表頁面未修改,500代表服務器超時,這些是一般的其他代碼可以百度一下,對於不同的問題我們要處理。
3.我們要看蜘蛛經常爬取哪些頁面,我們要記錄下來,分析他們為什麼會經常被蜘蛛爬取,從而分析出蜘蛛所喜歡內容。
4.有時候我們的路徑不統一出現帶斜槓和不帶斜槓的問題,蜘蛛會自動識別為301跳轉到帶斜槓的頁面,這裡我們就發現了搜索引擎是可以判斷我們的目錄的,所以我們要對我們的目錄進行統一。
5.我們分析日志分析時間長了,我們能夠看出蜘蛛的抓取規律,同一目錄下面的單個文件的抓取頻率間隔和不同目錄的抓取頻率間隔都可以看出來,這些抓取頻率間隔時間是蜘蛛根據網站權重和網站更新頻率來自動確定的。
6.蜘蛛對於我們的頁面的抓取是分等級的,是根據權重依次遞減的,一般順序為首頁、目錄頁、內頁。
7.不同IP的蜘蛛他們的抓取頻率也是不相同的
IIS日志是我們分析網站的重要參考數據,我們要經常對其進行分析,總結經驗,這樣可以讓我們對網站一些問題了如指掌。才能做到一切在掌握之中!