站長之家注:死鏈直接關系到網站的抓取收錄和流量轉化,因而對站長們而言至關重要。近日,百度站長學院針對BaiduSpider及站點死鏈的相關問題做出了一系列的解答……
具體內容如下:
問:robots屏蔽對阻止百度抓取死鏈是否有效
答:當然有效,百度嚴格遵守robots協議,若發現百度依然抓取,先確認是否為Baiduspider,若確認,可以通過反饋中心進行投訴。
如何正確識別Baiduspider移動ua?
新版移動ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;)AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 MobileSafari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
之前通過“+http://www.baidu.com/search/spider.html”進行識別的網站請注意!您需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:
1. 通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取。
2. 通過關鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。
另外需要強調的是,對於robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即,無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由於PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。
如何識別為百度spider?
百度蜘蛛對於站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平台不同驗證方法不同,如linux/windows/os三種平台下的驗證方法分別如下:
1、在linux平台下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
3、 在mac os平台下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
問:已被百度抓取的死鏈,可以通過robots屏蔽的方式讓百度刪除嗎?
答:不建議你這樣做,最快最有效的方法是通過百度站長平台死鏈提交工具(地址:http://zhanzhang.baidu.com/badlink/)進行處理
問:我已經通過死鏈工具進行提交了,可是通過日志發現百度還是在抓我們的死鏈
答:您提交規則後,spider為了驗證鏈接是否真的死掉,需要抓一部分回來驗證。
問:百度對死鏈的抓取,對正常文章抓取的影響會有多大。
答:這個沒有統一的標准,如果你沒有設置robots也沒有向百度提交,死鏈量還特別巨大的時候,有可能會占用你網站大量抓取配額,導致正常內容無法抓取。如果僅僅是spider為了驗證死鏈規則抓一部分,那麼對正常內容不會造成影響。
問:百度對死鏈的要求是什麼?怎麼設置死鏈效果最好?
答:目前百度支持協議死鏈、內容死鏈和跳轉死鏈,其中最效果最好的是協議死鏈。
百度標准死鏈官方文檔:
幾乎所有網站都會出現不再需要展現的網頁,如何處理這樣的網頁也成為站長經常談論的話題。為此,百度站長學院專訪了負責死鏈識別處理的工程師,了解到百度眼中的死鏈其實包括三種:協議死鏈、內容死鏈、跳轉死鏈,每種都有門道哦,同時了解到目前比較流行的“個性化死鏈”對百度並不友好(後面會有詳細介紹)。在此我們向各位站長