原標題:【官方說法】網頁不收錄,都是邀請制惹的禍
前方高能——本篇文章是攻城獅們根據日常收到的case整理而來,親自編寫,希望站長親們給個好評哦!
平台攻城獅近日接到了百度內部用戶的反饋,說lvshi.baidu.com站點的收錄情況比較差,希望協助追查原因。
攻城獅追查的過程如下:
首先通過
site語法檢索,發現收錄量確實比較少,只有11條,而且還發現一部分是死鏈數據。
然後根據用戶反饋的部分url,檢測發現這批鏈接在2016年12月26日當天已經就已經抓取回來了,首次抓取上是沒有問題;
緊接著發現這批網頁都被百度爬蟲判定為空短頁面,從網頁庫中獲取當時的抓取頁面,檢查發現這些頁面抓取回來的內容是一樣的,都是提示讓輸入邀請碼。
被百度爬蟲判斷為
空短頁面,肯定是不能被百度搜索收錄的。
有站長可能會問,
那等網站全部開放後,是不是就可以收錄了呢?對於百度爬蟲來說,當對一個網站抓取後發現大面積都是低值的空短頁面時,爬蟲會認為這個站點的整體價值比較低,那麼在後面的抓取流量分布上會降低,導致針對該站點的頁面更新會比較慢,進而收錄也會比較慢。這裡學院君再次強調一下,不要讓爬蟲給站點畫上不優質的標簽哦,後果很嚴重!
那麼該如何避免呢?方法其實比較簡單,網站在邀請測試階段使用robots封禁就可以。
總結:
1.空短頁面,百度是不收錄的。
2.空短頁面,是屬於低質頁面,會降低百度對整個站點的價值估量,所以建站之初就應該注意。
3.在網站內容正式上線之前,用robots.txt封禁就可以。