“蜘蛛陷阱”是阻止蜘蛛程序爬行網站的障礙物,雖然網頁界面看起來非常正常,但這些蜘蛛陷阱會對蜘蛛程序造成障礙。消除這些蜘蛛陷阱,可以使蜘蛛程序收錄更多的網頁。SEO優化中,網頁被收錄是基礎工作,但對於搜索引擎來講,極少情況會100%收錄你網站的所有網頁,搜索引擎的爬蟲程序設計得再精巧,也難以逾越所謂的蜘蛛陷阱。
哪些做法不利於蜘蛛爬行和抓取呢?怎麼去避免這些蜘蛛陷阱呢?
1、 登錄要求
有些企業站和個人站設置一定要用戶注冊登錄後,才能看到相關的文章內容,這種對蜘蛛不是很友好,因為蜘蛛無法提交注冊,更無法輸入用戶名和密碼登錄查看內容。對於蜘蛛來說,用戶直接點擊查看到的內容也是蜘蛛所能看到的內容。如果你的網站有這種情況,請取消這一功能,但網站如果有VIP用戶或部分資源,是可以這樣設置的。
2、動態URL
動態URL可以簡單理解為在URL中加入過多的符號或者網址參數,雖然隨著搜索引擎的技術發展,動態URL對於蜘蛛的抓取已經越來越不是問題了,但是從搜索引擎友好度上講,靜態哪陷是偽靜態相對來說都比動態URL要好。URL優化將在本章第6節中討論。 /
3、強制用Cookies
強制用Cookies對於搜索引擎來說相當於直接禁用了Cookies,而有些網站為了實現某些功能。會采取強制Cookies,例如跟蹤用戶訪問路徑,記住用戶信息,甚至是盜取用戶隱私等,如果用戶訪問這類站點時沒有啟用Cookies,所顯示的頁面就會不正常。所以,對於蜘蛛來講,同樣的網頁無法正常訪問。
4、 框架結構
早期框架網頁到處被泛濫使用,而現在很多網站已經很少使用了,一是因為現在隨著各大CMS系統的開發問世,網站維護相對越來越簡單了,早期網站使用框架是因為對網站頁面的維護有一定的便利性,現在已經大可不必了,而且不利於搜索引擎收錄也是框架越來越少被使用的原因之一。
5、各種跳轉
對搜索引擎來說,只對301跳轉相對來說比較友好,對其他形式的跳轉都比較敏感。如JavaScritp跳轉、MetaRefresh跳轉、Flash跳轉、302跳轉。
有些網站的做法很讓人無奈,當打開網頁後,會自動轉向其他頁面,如果打開的頁面和你要找的頁面豐體相關.+掃.笪討很去,佃是很大部分的網站轉向讓你無任何理由和目的,這種轉向不推薦大家使用,如果非要做轉向,只推薦用301永久跳轉,可以將權重進行傳遞,除此轉向其他都不推薦,因為很多其他轉向欺騙用戶和搜索引擎,也是黑帽的一種手段,建議大家不要使用。
6、Flash
有的網站頁面使用Flash視覺效果是很正常的,例如用Flash做的Logo、廣告、圖表等,這些對搜索引擎抓取和收錄是沒有問題的,但很多網站的首頁是一個大的Flash文件,這種就叫蜘蛛陷阱。在蜘蛛抓取時,HTML代碼中只是一個鏈接,並沒有文字,雖然大的Flash效果看上去很好,外觀看著也很漂亮,但可惜搜素引擎看不到,無法讀取任何內容,所以,為了能體現網站優化的最好效果,不提倡這種Flash作為首頁圖片。
7、采用session id的頁面
有的銷售類站點為了分析用戶的某些信息,會采用會話ID來跟蹤用戶。訪問站點時,每個用戶訪問都會增加一次:?ssion id而加人到URL中。同樣,蜘蛛的每一次訪問也會被當作一個新用戶。每次蜘蛛訪問的URL中都會加入一個。Ession id,產生同一個頁面但URL不同的情況,這種情況會產生復制內容頁面,造成高度重復的內容頁,同時也是最常見的蜘蛛陷阱之一。
8、JavaScript跳轉
雖然現在搜索引擎對於JavaScript裡的鏈接可以跟蹤,甚至嘗試拆解分析,但是我們最好不要寄望於搜索引擎自己克服困難。雖然通過JavaScript可以做一些效果不錯的導航,但是CSS同樣也可以做到。為了提高網站對搜索引擎的友好度,使網頁能夠更好地蜘蛛爬行,盡量不要采用JavaScript當然,在SEO中,JavaScript有一個好處就是站長不希望被收錄的頁面或者友情鏈接可以采用JavaSc:npt。當然,有一種方法可以消除JavaScript蜘蛛程序陷阱,即使用<noscript>標簽。<noscript>標簽是為不支持JavaScript的浏覽器提供備選的代碼。蜘蛛程序不會執行JavaScript,因此,它們通過處理<noscript>代碼來代替。在SEO中,JavaScript也有一個好處就是站長不希望被收錄的頁面或者友情鏈接可以采用JavaScript。