編輯辛苦搶先制作的原創稿件,百度卻不收錄!怎麼辦?別著急,百度官方公布原因啦。。。
裡約奧運會結束了,資訊站點的小編們終於可以松口氣了,可有些SEOer卻高興不起來:編輯辛苦搶先制作的原創稿件,百度卻不!收!錄!
院長奧運會期間接到了四五起這樣的反饋,經追查,原來是站點的搶發行為不夠友好,導致spider抓取失敗。結論:
1,頁面制作完成後再放到spider可以發現的地方,這樣才能達到最好的抓取效果。
2,頁面未對外公開之前,千萬不要通過工具推送給百度呀。
接到站長反饋後,院長聯系了spider工程師,工程師在後台查詢了這些未收錄的鏈接,發現均顯示為“死鏈”,然而這些所謂的死鏈現在訪問都是好好的。根據後台顯示的抓取時間,院長反復和站點進行溝通,終於找到了根源:原來,站點為了搶新聞,提前制作了新聞稿並制作成鏈接並且發布,雖然沒有在首頁等重要頁面推送給用戶,但卻被BaiduSpider發現,更重要的是,這些鏈接向BaiduSpider返回的狀態碼是404。
舉個例子,中國女排進入決賽後,某網站做了A和B兩個頁面,分別為奪冠和摘銀,為了防止用戶在比賽結束之前閱讀到頁面內容,站點將兩個鏈接都設置為404!404!(等到比賽結束後,再將其中一個頁面的html返回碼改為200)。雖然頁面並沒有向用戶推送,但還是被聰明的BaiduSpider發現。然而這裡的問題是,BaiduSpider發現頁面是404,又無法判斷出這是一個重要頁面,於是直接打入冷宮不再理睬。
所以,學院反復強調,確認頁面真的不需要被搜索引擎保留時可以使用404(臨時閉站可使用百度站長平台的閉站保護工具),如果還希望和搜索引擎保持友好關系的話,請使用503,防止頁面被刪除。雖然Baidu有對高價值內容的“刪除保護”功能,但畢竟不是每個站點都可以享受到這個特權的。
文章來自百度站長學院