查看日志是seoer日常工作中的重要一環,有些站長顯然還沒習慣去分析繁瑣的日志,但無論如何,養成經常查看日志的好習慣是必不可少的。在查看日志的時候,除了查看蜘蛛抓取次數、時間之外,還有一項很重要的內容,就是狀態碼的查看。今天我們著重講述304和200狀態碼的應用。
首先我們先來了解一下這兩種狀態碼分別意味著什麼。當搜索引擎蜘蛛程序對網頁進行抓取的時候,通常它首先需要對頁面進行監控和解析,監控頁面是否發生了變化,也就是是否更新。那麼蜘蛛是如何快速判斷頁面是否變化的呢?當蜘蛛抓取監控區域內容的時候,它會與保存在搜索引擎服務期上最近一次抓取的內容進行比較,如果有差異就表明網頁發生了變化,就會進行解析。
一般而言,同一個網站相對比較穩定的模板,監控區域也是固定的,比如內容區域和列表區域。當蜘蛛發現頁面沒有變化時,通常會返回304狀態碼,如果發現有變化,則返回200狀態碼。了解了這一點之後,我們就很容易在日志裡發現蜘蛛認為我們的哪些頁面發生了變化。通過對比分析,這些頁面是否是新頁面,變更的部位,我們可以大致明白如何讓蜘蛛返回更多的200狀態碼,這意味著我們的網站首頁能夠獲取最新的網頁快照。
1、如何讓首頁保持更新
之前有看到牛人采用程序,使首頁每次刷新都會出現新的內容,這一招非常迎合蜘蛛的口味,蜘蛛每次來的時候發現頁面都是新的,於是不停不停的抓取,快照想不新都難。不過一般來說,大多數網站顯然做不到這一點。有些網站首頁采用調用論壇或者博客的形式,來不斷使首頁保持最新。但不幸的是,由於一些人不是很了解這麼做的目的,采用了JS或者iframe調用的形式,這麼做的結果,不僅無法使蜘蛛認為你的網頁發生更新,而且JS和iframe調用的內容也非常不利於抓取。基本上在做無用功。請記住,無論你使用什麼程序,一定要確保浏覽器執行的時候是具體的內容和鏈接。
明白了監控區域這個概念之後,我們可以想象:在首頁上如果有很多欄目列表,那麼倘若我們長時間只更新一個欄目,這樣做的結果會讓蜘蛛認為其他列表部分是不會變化的,也就是非監控區域。這樣某天當你不更新這個欄目,而更新其他欄目時,就可能出現滯後的情況,以至於蜘蛛短期內並不認為你的網頁發生變化,直到完整的核對之後。這樣就可能造成快照停滯的情況。請仔細理解這段話。
基於這一點,我們在更新內容的時候,盡可能保持整個網頁各個區域都在均衡的變化,也就是在首頁上出現的每個欄目都適當的更新內容,這樣的好處是只要有一點點更新,蜘蛛都能及時發現,也就是說,我們要讓網頁上盡可能多的區域都成為蜘蛛的監控區域。那麼只要我們網頁有一點點的變化,都會讓蜘蛛最快的時間內發現並進行更新。這樣一般能解決快照最新的問題。
2、欄目列表頁
事實上欄目列表頁的快照較慢,讓很多人無奈。倘若欄目列表頁僅僅是列表在逐漸的刷新,的確很難讓快照及時。針對它的思路是,盡可能擴充區域,除了正常的內容列表之外,右邊放置大量的最新內容列表、熱門點擊列表、隨機內容列表等等,有人認為這些板塊一方面是為了盡可能讓浏覽者點擊內容,從而有利於用戶體驗,同時有利於增加內鏈。事實上不僅僅如此,它還有利於擴充蜘蛛的監控區域,最大化保持頁面的更新,讓蜘蛛返回更多的200狀態碼。
3.內容頁
內容頁相對來說,監控區域更加穩定,就是內容展示部分。基本上更新的內容一下子就可以監控出來。所以網站裡內容頁是最容易判斷是否更新的,而且有的頁面是新頁面,蜘蛛在索引庫中完全沒有記錄,這樣的頁面幾乎無須判斷都可以判定為新頁面,會返回200狀態碼。
了解了這些之後,你可以測試一下自己的網站監控區域在哪裡。比如以網站首頁作為實驗對象,一點一點的改動,每個區域逐個更新,更新一塊之後,暫停,等待蜘蛛來訪,然後查看日志的狀態碼。這樣最終你可以發現自己網站的哪些部分是蜘蛛的監控區域,從而更加有針對性的進行內容更新。事實上日志裡還有更多的內容可以研究,以後我們將逐個講解。關於304和200狀態碼的應用暫時就講到這裡,希望大家的日志裡充滿了200。