DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO最新資訊 >> 百度搜索算法 >> 常用抓取返回碼示意詳解
常用抓取返回碼示意詳解
編輯:百度搜索算法     

       百度爬蟲在進行抓取和處理時,是根據http協議規范來設置相應的邏輯的,所以請站長們也盡量參考http協議中關於返回碼的含義的定義來進行設置。百度spider對常用的http返回碼的處理邏輯是這樣的。     

        1)最常見的404代表“NOT FOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內如果spider再次發現這條url也不會抓取;
        2)503代表“Service Unavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對於網頁返回503狀態碼,百度spider不會把這條url直接刪除,同時短期內將會反復訪問幾次,如果網頁已恢復,則正常抓取;如果繼續返回503,那麼這條url仍會被認為是失效鏈接,從庫中刪除。
        3)403代表“Forbidden”,認為網頁目前禁止訪問。如果是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;如果是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。如果網頁正常訪問,則正常抓取;如果仍然禁止訪問,那麼這條url也會被認為是失效鏈接,從庫中刪除。
        4)301代表是“Moved Permanently”,認為網頁重定向至新url。當遇到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平台網站改版工具,以減少改版對網站流量造成的損失。

1440940833983244.jpg

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved