站長網(www.dnzg.cn)5月6日消息,今日百度站長平台lee發布了一篇文檔,在文中談到了網站404頁面對於搜索引擎收錄的影響。lee表示沒有任何主體內容並未做404處理的頁面,搜索引擎將花費大量的資源在這種無效頁面上,同等耗損下用在重要頁面上的資源將被大量擠占,正常優質頁面在搜索引擎的部分表現將受到影響。lee建議刪除內容後沒有任何價值的頁面直接做死鏈處理並返回404,並在百度站長平台死鏈提交工具中提交死鏈sitemap。
針對404頁面,lee列舉了兩類情況,一是網頁臨時性打不開;二是,頁面永遠無法打開。針對第一類問題,建議不要立刻返回404,而是使用503。針對第二類問題,永遠無法打開的頁面,404,不用考慮。各種web2類頁面刪除後同樣需要返回404告知搜索引擎該頁面已失效。
文檔詳細內容:
今天為什麼要說一下404問題呢,最近看case過程中發現個很有意思的網站,該網站被灌了大量的垃圾信息,被其發現後及時地進行了刪除,這一點是值得肯定的。通常情況下,正常網站將自動返回404狀態碼,搜索引擎進行更新並刪除,避免對網站用戶及搜索引擎帶來負面影響。但問題來了,該網站只刪除了內容,沒有任何主體內容的頁面被保存了下來,未做404處理。當然,存在一類網站只刪除內容後返回正常200狀態碼,提醒一句“該內容已刪除”,但其都沒有。可以發現目前這個搜藏中的url仍然正常返回200,http://cang.baidu.com/Lee/snap/3b0a0cc8e7d7899facd36fad.html,造成的後果:搜索引擎將花費大量的資源在這種無效頁面上,那麼,同等耗損下用在重要頁面上的資源將被大量擠占,可想而知,正常優質頁面在搜索引擎的部分表現將受到影響。經過我們運營同學的多方溝通下至今仍未進一步處理。我覺得,21世紀第二個十年了,這種問題不應該再存在了的。
好吧,承認我被打敗了。簡單說一下:
404狀態碼代表‘Not Found’,spider更新時會認為該頁面已失效,此時呢將在索引庫中刪除,短期內spider再次發現該url不再會抓取。因此,出來了兩類問題:第一,網頁臨時性打不開;第二,頁面永遠無法打開。針對第一類問題,我建議不要立刻返回404,而是使用503。503等同於告訴spider該頁面臨時訪問不了,過段時間再來光臨。關於503,spider會認為該網頁臨時無法訪問,短期內會再光臨。如果網頁已經恢復,即刻正常抓取;如果繼續返回503,短期內還會再光臨幾次,但如果該頁面長時間返回503,該url仍會被認作失效鏈接,從索引庫中刪除。針對第二類問題,永遠無法打開的頁面,404,不用考慮。各種web2類頁面刪除後同樣需要返回404告知搜索引擎該頁面已失效。
回歸之前那個網站,刪除內容後該頁面沒有任何價值。最恰當的處理是:
1、直接做死鏈處理並返回404;
2、在百度站長平台死鏈提交工具中提交死鏈sitemap。
最後呢,提醒一下各位站長朋友,當您的網站存在被發布大量垃圾信息時,請:
1、及時刪除相關垃圾頁面,並做404處理;
2、制作符合要求的死鏈sitemap;
3、登錄百度站長平台,進入死鏈提交工具提交死鏈sitemap。
相關閱讀: 百度外鏈判斷標准文檔發布 闡述問題外鏈判斷和處理原則