有些人可能疑問,我的站點禁止所有蜘蛛訪問抓取網頁,為什麼在搜索引擎結果中依然可以找到,並且關鍵詞就是站點標題,今天艾瑞就來帶大家分析下。
首先,所有的搜索引擎都支持robots.txt,甚至是我們偉大的百度,低估他了。也就是蜘蛛是不會違背抓取原則的,那為什麼依然可以在搜索結果中找到禁止抓取的網頁呢?
有些時候,我們可能看到禁止抓取的網頁在搜索結果中的描述是空的,或者根本就不是網頁中實際的描述,而是其他網站對其描述、評價的。其實這就是問題的答案。
因為很多時候禁止搜索引擎抓取的網站都是比較權威的網站,之前在搜索引擎中的權重極其之高,當然禁止蜘蛛抓取後,外部鏈接依然不受到影響。如此權威的網站不出現在搜索結果中,實為憾事,這些搜索引擎的初衷何以呈現,何以給用戶最佳搜索體驗。
然而,做事不能沒有規則,你不讓我抓取,我就不抓取,但我可以收錄你,描述可取其他權威站點對其之描述,比如DOMZ、維基百科等。
在Google中的出現的案例目前還是沒有找到,不過淘寶禁止百度的那點事,我還是記憶猶新。現在我們以淘寶禁止百度抓取為例來分析問題。
1.首先看看robots.txt內容,不過多說什麼。
http://www.taobao.com/robots.txt
http://my.taobao.com/robots.txt
User-agent: Baiduspider
Disallow:/
User-agent: baiduspider
Disallow:/
2.可以看到www.taobao.com收錄並且有描述的,但沒有快照。
值得注意的是,此描述非www.taobao.com本站之描述,而是其他權威站點對其之描述。
<meta name=“description” content=“淘寶網 – 亞洲最大、最安全的網上交易平台,提供各類服飾、美容、家居、數碼、話費/點卡充值… 2億優質特價商品,同時提供擔保交易(先收貨後付款)、先行賠付、假一賠三、七天無理由退換貨、數碼免費維修等安全交易保障服務,讓你全面安心享受網上購物樂趣!” />
3.大家看到my.taobao.com有收錄,但是無描述
從Google搜索 my.taobao.com 獲得大約 510,000 條查詢結果,並且從搜索結果頁面顯示有很多url指向my.taobao.com,值得注意的是由於訪問my.taobao.com需要登錄的權限,所以一般未登錄用戶值得返回到登陸頁面。
無描述的原因是這個二級域名沒有其他權威網站對其簡要描述。
.
4.如果有Google方面的案例,歡迎提供分析
感謝 艾瑞seo 的投稿