搜索引擎蜘蛛(又被稱為網頁蜘蛛,網絡爬蟲),是一種按照一定的規則,在網上自動提取網頁,並把文件抓取下來的程序。
各大搜索引擎每天會派出蜘蛛,起點是權重比較高的網站或是訪問量很大的服務器。蜘蛛會順著內外鏈入口訪問更多的網站頁面,把網頁信息存入數據庫。就像圖書館一樣把不同的圖書分類整理,最後壓縮加密成自己可以讀取的方式,最後放在硬盤上,供搜索的人索取。我們搜索的因特網,就是這個數據庫。從搜索引擎蜘蛛抓取的原理來看,SEO要想培養蜘蛛定期抓取網站,應該做到以下三點:
首先,搜索引擎蜘蛛喜歡抓取規律更新的網站。從一定意義上說,網站的更新頻率與抓取頻率成正比的。即使在網站前期沒有蜘蛛來抓取文章,也要定期更新。這樣蜘蛛會獲取並統計這個網站更新的規律,定期來進行新增內容抓取,使得網站文章更新後,能夠盡可能快被抓取到。
其次,原創度、新鮮度較高的內容網頁更容易被蜘蛛抓取收錄。網站如果存在大量重復內容,會讓蜘蛛覺得抓取過多沒有意義,還會使搜索引擎對網站質量產生質疑,導致懲罰。
“新鮮度”主要指內容的熱門程度和實效性,新近發生的“大事”、“熱門事件”是比較容易被用戶關注和被蜘蛛抓取。
除了以上兩點外,關鍵詞的分布也對蜘蛛的抓取有重要的影響。因為搜索引擎分辨頁面內容的重要因素之一就是關鍵詞,關鍵詞堆砌行為會被搜索引擎視為“作弊”行為,所以關鍵詞的分布應該在控制在5%左右。
服務器的穩定性不但關系到用戶體驗度問題,還會對蜘蛛的抓取造成很大影響。
SEO應該定期檢查服務器狀態,查看網站日志,檢查是否有500狀態碼等標記,及時發現存在的隱患。
如果網站遇到黑客攻擊、服務器網站誤刪、服務器硬件癱瘓等問題,並且宕機超過12個小時,應該立即開啟百度站長平台的閉站保護功能,防止百度抓取無效及死鏈頁面,及時修復網站及服務器。
長期不穩定的服務器會導致蜘蛛不能有效爬取頁面,降低搜索引擎友好度,從而出現收錄下降、排名下降的情況。所以網站一定要選擇性能穩定的服務器。
如果網站內容好,但是頁面卻收錄卻寥寥無幾時,多數是因為頁面根本沒有被蜘蛛爬取。這時就應該對網站進行全面檢測,主要包括Robots文件、頁面層級、代碼結構、網站鏈接等方面。
1、Robots文件,全稱“網絡爬蟲排除標准”(Robots Exclusion Protocol)。網站通過Robots協議可以告訴蜘蛛哪些頁面可以抓取,哪些頁面不能抓取。
2、頁面層級,表現在網站物理層級結構、邏輯層級結構等多方面。以邏輯層級結構URL結構為例,方便記憶、層級簡短、長度適中的靜態URL是被搜索引擎蜘蛛所喜愛的。URL結構(以“/”為劃分標志),一般不宜超過4層,結構太復雜不利於搜索引擎收錄,也會影響到用戶體驗度。
3、網站代碼類別、結構也會影響網頁是否被蜘蛛抓取。如:iframe、Java Script等代碼,目前還不能被百度搜索引擎蜘蛛有效的理解、抓取,所以需要盡量減少這類代碼的使用。另外,過大的代碼量也會導致蜘蛛抓取不完全,如果部分入口未被爬取,對應的頁面也就不能被收錄。
4、網站鏈接是網頁間權重傳遞的“入口”,鏈接的數量和質量,直接影響到頁面能否被蜘蛛抓取和收錄。低質量鏈接堆砌只會給網站帶來毀滅性的災害,所以要及時排除錯誤鏈接和死鏈接,減少蜘蛛對死鏈接的抓取時間。盡量多從正規和相關站點獲得反向鏈接,這樣才可以提高網站的權重。
另外,網站也可以給蜘蛛提供一些快捷通道,比如sitemap。一個結構清晰的網站地圖既能讓用戶方便查找網站內容,又可以方便搜索引擎蜘蛛清楚的了解網站結構從而順利的抓取整個網站頁面。如:http://www.qqseo8.com/sitemap.html。
通過規律性的高質量內容更新、優質的鏈接交換、優化網站結構,可以讓蜘蛛更好的了解網站,抓取網站頁面。但是不能為了吸引蜘蛛抓取而發布一些和網站內容無關的頁面,或是過度優化網站。因為只有真正用心去做,並能給用戶帶來價值的網站,才能被各大搜索引擎蜘蛛和用戶喜歡。