淺談搜索引擎的基本工作原理

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 淺談搜索引擎的基本工作原理

淺談搜索引擎的基本工作原理

編輯：SEO優化集錦

目錄一、爬蟲二、索引器三、檢索器四、用戶接口正文

爬蟲是搜索引擎的最基本的、最基層的程序。它是可以用c語言等的編程語言來編寫的。爬蟲又叫蜘蛛、機器人。一般來說搜索引擎為了提高信息捕捉速度會有幾個爬蟲程序，而每個爬蟲程序可以在一秒中之內同時爬行幾個百個網頁（甚至更多），蜘蛛的爬行就是分析網頁內容的過程，通過分析然後決定是否被收錄。蜘蛛的爬行是通過網頁中的超級鏈接來進行的。

這裡有兩種方式：

第一種，是通過已知的url集合（通常是知名的網站，該網站上有很多的鏈接，或是已經爬行過的網站）來逐個爬行，直至遍歷所有的網頁。

第二種，就是按照網頁空間的域名，ip段，一個ip或是域名的區間來訪問，通常是一個或幾個蜘蛛負責一段區間的窮盡搜索。蜘蛛在爬行的時候會分析關鍵詞，會切詞……下面會有介紹。

索引器索引器是是參與搜索引擎最重要的過程的程序，索引器在分詞與索引的過程中扮演者非常重要的角色。搜索引擎的查找信息的方式和我們平時查找的方式（例如在文本編輯器中輸入ctrl+F）那是不一樣的，按照這樣的方式進行信息的查找，即使是一台功能非常強勁的超級計算機那也得花上非常長的一段時間，這樣的方法顯然是行不通的，因為用戶等不了。

搜索引擎的開發人員一開始便考慮到了這樣一點，所以采用了一招很聰明的方法，就是按關鍵詞建立索引，這有點像我們平時在字典中查找字，我們在字典中查找一個字的時候並不是一頁一頁的翻來查找的，而是通過目錄建立的索引來查找的，這個目錄通常是按照偏旁部首、字母abc來建立的。那麼搜索引擎也采用了相似的處理方式，在蜘蛛分析一個網頁的時候是按照關鍵詞的出現位置，頻次然後建立索引。

比如說，通過分析江南社區這個論壇的網頁找到了“網絡營銷論壇”，同樣在別的網站比如說www.***.com（只是舉個例子不一定存在這樣的網站），那麼搜索引擎就會給我的網站歸為這一類關鍵詞的索引中，並且給它排個序。同樣的“seo優化”這個關鍵詞出現在一些以seo為內容的網站上，比如seo十萬個為什麼等的，同樣也涉及seo優化，所以“seo十萬個為什麼”屬於這個關鍵詞目錄中，當用戶在搜索框中輸入“seo 網絡營銷”關鍵詞時，檢索器就要進行邏輯與運算，最後返回既符合seo搜索者的需要，有符合網絡營銷的網站——江南社區（這裡只是舉個例子）。這個邏輯與的運算其實它是二進制的運算，這個屬於檢索器的工作范疇，這裡只是簡單的提下方便大家有個整體的把握，更為詳細的內容我會再寫內容來詳細介紹，不過也很簡單。

我這裡只是簡單分析，但是實際上搜索引擎的原理肯定是比我所說的要復雜的多的檢索器檢索器用於拆分用戶輸入的關鍵詞。先分詞（常見的中文分詞方式有正向最大匹配，反向最大匹配，最短路徑分詞法等的）。拆分後然後匹配檢索索引目錄然後返回匹配結果（就像上面介紹的那樣）以一定的順序返回給用戶。最後就是用戶接口用戶接口比較簡單，就是提供給用戶的是什麼樣的搜索頁面，以及以什麼樣的結果頁面返回給用戶。這個涉及到復雜和簡單接口，簡單接口就是輸入字符串；復雜接口就是我們有時候用的一些命令，如site，link等的可以讓用戶對查詢結果進行限制的。

上一頁:淺談百度轉帖之輕松提高網站流量與外鏈
下一頁:SEO“內容為王外鏈為皇”其實是浮雲

SEO優化集錦

關鍵詞選取優化之軟件或產品服務類網站: 關鍵
伴隨著成長與收獲，SEO之殇將涅槃重生！: 最近一直忙著做推廣工作，已經許久沒有寫SEO的文章了。從4.19網站被K，到5月中下旬網站恢復至今，
淺談SEO最新外鏈建設: 在過去，SEO在做外鏈的過程中，都會浪費很多時間，一個網站的外鏈也體現了網站的整個權重。眾多的站長在

SEO基礎教程 SEO進階教程 SEO高級教程 SEO技巧 SEO最新資訊 SEO相關 SEO優化集錦

小編推薦

利用新浪博客做外鏈是否到頭了漢網天下：分享seo優化經驗艾瑞快評：後google時代搜索用戶流量變化分析什麼是nofollow？真不敢相信！網站一個月百度權重竟然升到2 醫院如何做好品牌服務營銷 SEO入手統籌優化步驟友情鏈接的作弊手段大暴光站群該如何選擇域名來更好的推動排名企業網站該如何做用戶體驗？

DIV CSS 佈局教程網

相關文章