DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 淺談搜索引擎的基本工作原理
淺談搜索引擎的基本工作原理
編輯:SEO優化集錦     

目錄一、 爬蟲二、 索引器三、 檢索器四、 用戶接口正文

爬蟲是搜索引擎的最基本的、最基層的程序。它是可以用c語言等的編程語言來編寫的。爬蟲又叫蜘蛛、機器人。一般來說搜索引擎為了提高信息捕捉速度會有幾個爬蟲程序,而每個爬蟲程序可以在一秒中之內同時爬行幾個百個網頁(甚至更多),蜘蛛的爬行就是分析網頁內容的過程,通過分析然後決定是否被收錄。蜘蛛的爬行是通過網頁中的超級鏈接來進行的。

這裡有兩種方式:

第一種,是通過已知的url集合(通常是知名的網站,該網站上有很多的鏈接,或是已經爬行過的網站)來逐個爬行,直至遍歷所有的網頁。

第二種,就是按照網頁空間的域名,ip段,一個ip或是域名的區間來訪問,通常是一個或幾個蜘蛛負責一段區間的窮盡搜索。蜘蛛在爬行的時候會分析關鍵詞,會切詞……下面會有介紹。

索引器索引器是是參與搜索引擎最重要的過程的程序,索引器在分詞與索引的過程中扮演者非常重要的角色。搜索引擎的查找信息的方式和我們平時查找的方式(例如在文本編輯器中輸入ctrl+F)那是不一樣的,按照這樣的方式進行信息的查找,即使是一台功能非常強勁的超級計算機那也得花上非常長的一段時間,這樣的方法顯然是行不通的,因為用戶等不了。

搜索引擎的開發人員一開始便考慮到了這樣一點,所以采用了一招很聰明的方法,就是按關鍵詞建立索引,這有點像我們平時在字典中查找字,我們在字典中查找一個字的時候並不是一頁一頁的翻來查找的,而是通過目錄建立的索引來查找的,這個目錄通常是按照偏旁部首、字母abc來建立的。那麼搜索引擎也采用了相似的處理方式,在蜘蛛分析一個網頁的時候是按照關鍵詞的出現位置,頻次然後建立索引。

比如說,通過分析江南社區這個論壇的網頁找到了“網絡營銷論壇”,同樣在別的網站比如說www.***.com(只是舉個例子不一定存在這樣的網站),那麼搜索引擎就會給我的網站歸為這一類關鍵詞的索引中,並且給它排個序。同樣的“seo優化”這個關鍵詞出現在一些以seo為內容的網站上,比如seo十萬個為什麼等的,同樣也涉及seo優化,所以“seo十萬個為什麼”屬於這個關鍵詞目錄中,當用戶在搜索框中輸入“seo 網絡營銷”關鍵詞時,檢索器就要進行邏輯與運算,最後返回既符合seo搜索者的需要,有符合網絡營銷的網站——江南社區(這裡只是舉個例子)。這個邏輯與的運算其實它是二進制的運算,這個屬於檢索器的工作范疇,這裡只是簡單的提下方便大家有個整體的把握,更為詳細的內容我會再寫內容來詳細介紹,不過也很簡單。

我這裡只是簡單分析,但是實際上搜索引擎的原理肯定是比我所說的要復雜的多的檢索器檢索器用於拆分用戶輸入的關鍵詞。先分詞(常見的中文分詞方式有正向最大匹配,反向最大匹配,最短路徑分詞法等的)。拆分後然後匹配檢索索引目錄然後返回匹配結果(就像上面介紹的那樣)以一定的順序返回給用戶。 最後就是用戶接口用戶接口比較簡單,就是提供給用戶的是什麼樣的搜索頁面,以及以什麼樣的結果頁面返回給用戶。這個涉及到復雜和簡單接口,簡單接口就是輸入字符串;復雜接口就是我們有時候用的一些命令,如site,link等的可以讓用戶對查詢結果進行限制的。

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved