從我們輸入關鍵詞然後到百度給出搜索結果的過程,經常都是只需要短短的幾毫秒迅速完成。那麼百度是如何在如茫茫大海的互聯網資源中,以如此之快的速度將我們自己的的網站內容展現給用戶呢?這背後蘊含著什麼樣的工作流程和運算邏輯呢?事實上,百度搜索引擎的工作並不是僅僅如同首頁搜索框一樣的簡單明了。
搜索引擎為用戶展現出來的每一條搜索到結果,都對應著互聯網上的一個個的頁面。每一條搜索結果從產生到被搜索引擎展現給用戶,都需要經過四個過程:抓取、過濾、建立索引和輸出結果。請大家關注本欄目將持續更新四個過程詳解。
抓取
Baiduspider,或稱百度蜘蛛,會通過搜索引擎系統的計算,來決定對哪些網站施行抓取,以及抓取的內容和頻率值。搜索引擎的計算過程會參考您的網站在歷史中的表現,比如內容是否足夠優質,是否存在對用戶不友好的設置,是否存在過度的搜索引擎優化行為等等。
當您的網站產生新內容時,Baiduspider會通過互聯網中某個指向該頁面的鏈接進行訪問和抓取,如果您沒有設置任何外部鏈接指向網站中的新增內容,則Baiduspider是無法對其進行抓取的。對於已被抓取過的內容,搜索引擎會對抓取的頁面進行記錄,並依據這些頁面對用戶的重要程度安排不同頻次的抓取更新工作。
需您要注意的是,有一些抓取軟件,為了各種目的,會偽裝成Baiduspider對您的網站進行抓取,這可能是不受控制的抓取行為,嚴重時會影響到網站的正常運作。這個我們要多多注意。