前段時間seowhy開啟未登陸用戶禁止訪問論壇的權限,讓我想到的是,如果用戶未登陸不能查看帖子,那百度蜘蛛能否索引到內容呢,我簡單的理解為百度蜘蛛的爬行其實就是順著網站中的錨文本鏈接爬行,然後形成一張大網,但如果論壇禁止未登陸用戶訪問,那麼蜘蛛爬行的鏈接就是死鏈,就抓取不到內容,發帖就沒有效果,其實我的想法是錯誤的,百度蜘蛛其獨特的爬行機制不是我們想象的那麼簡單。
前日(10月22日),我修改公司網站的數據庫,而後測試發布了一篇以“啊啊”為標題、內容的信息,前台並沒有生成頁面,也就是說這篇文章只有數據庫中存在,前台沒有它的一點信息(因為我有數據庫潔癖,為了不讓文章ID錯亂,想著不用刪除,等第二天更新文章修改掉就行,反正也沒生成頁面),第二天(10月23日),我把這條測試文章修改了,又發不了一篇新的文章,等待收錄查看快照是這樣的。
修改的那篇文章是22日的快照,新發布的正常,22日時是“啊啊”的內容,但點擊百度快照進去發現是新的內容,讓我又想到,難道百度收錄文章的快照與文章更新的時間有關系?於是,今天(10月24日)我又更新了兩篇文章,然後進數據庫把一片文章的發布時間改為昨天,等待收錄。
同一時間發布的兩篇文章變成了上面的收錄展示形式,可見22日發布的那篇文章其實當天就收錄了,只是蜘蛛可能知道內容不是用戶要發布的所以一直沒放出,23日修改內容後,前台更新,蜘蛛順著鏈接爬行到這個網站知道內容是真正內容了,就替換了22日的收錄並放不來,但快照沒有修改,至於今天發布的兩偏文章展示不一樣,都只是暫時的,你明天查看,都會變成24日快照,沒有什麼不同,只不過今日查看一個顯示詳細收錄時間,一個顯示當天。
從上面的分析可以看出,百度蜘蛛爬行有時是不按我們的常規思考進行的,它會通過各種方法進入你的數據庫,抓取內容,而非與網站前台的種種限制能阻擋,除非你用robots文件來限制,seowhy雖屏蔽未登陸用戶訪問,但其實百度蜘蛛是可以抓取到內容的,因為它與我們用戶的訪問方法不一樣。至於文章的發布時間,一定程度上會影響文章收錄的快照,但不是絕對。
原文鏈接:鄭州seo http://www.zzzhu.net/news/?p=401
感謝 鄭州seo 的投稿