接到站長反饋後,院長聯系了spider工程師,工程師在後台查詢了這些未收錄的鏈接,發現均顯示為“死鏈”,然而這些所謂的死鏈現在訪問都是好好的。根據後台顯示的抓取時間,院長反復和站點進行溝通,終於找到了根源:原來,站點為了搶新聞,提前制作了新聞稿並制作成鏈接並且發布,雖然沒有在首頁等重要頁面推送給用戶,但卻被BaiduSpider發現,更重要的是,這些鏈接向BaiduSpider返回的狀態碼是404。
舉個例子,中國女排進入決賽後,某網站做了A和B兩個頁面,分別為奪冠和摘銀,為了防止用戶在比賽結束之前閱讀到頁面內容,站點將兩個鏈接都設置為404!404!(等到比賽結束後,再將其中一個頁面的html返回碼改為200)。雖然頁面並沒有向用戶推送,但還是被聰明的BaiduSpider發現。然而這裡的問題是,BaiduSpider發現頁面是404,又無法判斷出這是一個重要頁面,於是直接打入冷宮不再理睬。
所以,學院反復強調,確認頁面真的不需要被搜索引擎保留時可以使用404(臨時閉站可使用百度站長平台的閉站保護工具),如果還希望和搜索引擎保持友好關系的話,請使用503,防止頁面被刪除。雖然Baidu有對高價值內容的“刪除保護”功能,但畢竟不是每個站點都可以享受到這個特權的。
(本文轉載自百度站長平台,原文地址:http://zhanzhang.baidu.com/college/articleinfo?id=892)
天涯SEO再來給大家普及一下在SEO過程中最常見的HTTP狀態碼:
200 - 服務器成功返回網頁
301- 請求的網頁已永久移動到新位置。當URLs發生變化時,使用301代碼。搜索引擎索引中保存新的URL。
302 -請求的網頁臨時移動到新位置。搜索引擎索引中保存原來的URL。
404 - 請求的網頁不存在
503 - 服務器目前無法使用(由於超載或停機維護)。通常,這只是暫時狀態。
所以我們一定要熟知這些返回碼的用法,避免用盡了洪荒之力還被搜索引擎打入冷宮,所以和搜索引擎保持友好關系的話,請使用503,防止頁面被刪除。