自從百度站長平台"抓取診斷"工具上線以來,很多站長朋友都把此工具當做引蜘蛛的手段,可是筆者親測了下,發現"抓取診斷"工具存在各種各樣的問題,所以 我們不能過於依賴,而應選擇性的應用。下面我們就來探討下百度"抓取診斷"工具具體有什麼作用以及需要改進的地方。
首先我們來看看百度官方的解釋:
一、什麼是抓取工具?
1)抓取診斷工具,可以讓站長從百度蜘蛛的視角查看抓取內容,自助診斷百度蜘蛛看到的內容,和預期是否一致。
2)每個站點每月可使用300次,抓取結果只展現百度蜘蛛可見的前200KB內容。
二、抓取診斷工具能做什麼?
1)診斷抓取內容是否符合預期,譬如很多商品詳情頁面,價格信息是通過JavaScript輸出的,對百度蜘蛛不友好,價格信息較難在搜索中應用。問題修正後,可用診斷工具再次抓取檢驗。
2)診斷網頁是否被加了黒鏈、隱藏文本。網站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時才出現,需要用此抓取工具診斷。
3)檢查網站與百度的連接是否暢通,若是IP信息不一致,可以報錯通知百度更新IP.
4)如果網站有新頁面或頁面內容有更新,百度蜘蛛較長時間沒來訪問,可以通過此工具邀請它快速來抓取。
筆者測試了一下,有些網站可以抓取成功,如下圖所示,這裡面包含了很多信息,同時還能很好的顯示網頁的源代碼,可以為站長提供一定的幫助。
可是對於雙線主機和做了別名解析的非固定IP主機,總是出現抓取失敗或者抓取中的現象,偶爾也能抓取成功,如圖所示:
這是否意味著,百度百度蜘蛛無法抓取到我們的網頁呢?答案是否定的,筆者剛測試的這個抓取失敗的網站,當天所發文章全部都是秒收,證明百度蜘蛛能很好的抓取網頁,單身"抓取診斷"工具卻出差,這說明這項技術還不成熟,所以我們只能參考,不能過於依賴。
還有一點需要注意的是,抓取同一個頁面以後,百度會有很長時間的緩存,如下圖所示。筆者上午11點09分抓取了一個頁面,並在頁面裡掛上"黑鏈","抓取 工具"抓到的源代碼裡有這些"黑鏈"代碼,可是筆者把這些"黑鏈"全都去了以後,晚上19點13分又抓取了一次,發現抓取到的頁面還是上午11點09分抓 的頁面,中間相隔了8個小時。
除此以外,抓取工具對於網站IP地址的判定經常會出錯,一旦IP地址判定錯誤,就會出現抓取失敗的現象。但是這並不代表蜘蛛不能訪問我們的網站,其實蜘蛛是蜘蛛,抓取工具是一種工具,大家千萬不要混為一談。
當然了,任何工具的新上線,都存在這樣那樣的問題,我們只要選擇對我們有利的地方去應用就行了,而不應過於依賴所有的功能。同時也希望度娘能盡快加以改 進,把有問題的地方都處理好,給廣大站長朋友一個有用的工具。
本文由安徽美食網(http://www.ahbbz.com/ )撰寫,轉載請注明出處。
注:相關網站建設技巧閱讀請移步到建站教程頻道。
收藏本文