DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 淺析搜索引擎原理:文件匹配與初始子集的篩選
淺析搜索引擎原理:文件匹配與初始子集的篩選
編輯:SEO優化集錦     

文件匹配與初始子集的選擇時搜索引擎在排名的過程中非常重要的兩個方面,今天就這兩個方面給大家做一些基礎性的總結。雖然這些看似和我們沒有關系,但是大家多了解一些基礎性的原理,對以後網站的建設和優化都有一定的指導意義,當然,這些只是自己的一些總結,如果有不對的地方,還希望大家做指正。

當搜索引擎經過預處理的前幾個階段之後,搜索引擎得到的是以詞為單位的關鍵詞集合。在這個之前,搜索引擎首先得到的是一個文件對應多個關鍵詞,但這樣的查詢效率太低也不現實,所以搜索引擎會把這些文件進行反向映射,得到的是一個關鍵詞對應多個文件。這樣在用戶搜索某個關鍵詞的時候,就在這個關鍵詞對應的所有文件中進行計算和匹配,並返回給用戶最佳的搜索結果。了解了這個大體的過程,下邊就開始分享今天的兩個主要方面。

首先是文件匹配:搜索引擎的蜘蛛是無時無刻的都在爬行和抓取,另外不斷對抓取的數據進行整理歸納以及存儲。這些過程並不是用戶在搜索的時候進行的,而是在搜索之前以後預處理好的,真正當用戶搜索某個關鍵詞時,搜索引擎只是在自己的數據庫中進行查找,而不是實時的對互聯網上所有的網站進行查找。為了表達的更加清楚,我以一個簡易的圖來給大家說明:

倒排索引快速匹配文件表

這個圖就是典型的倒排索引快速匹配文件表,當用戶搜“關鍵詞1 關鍵詞16”,那麼搜索引擎就會在這兩個詞對應的所有文件中進行簡單的計算和匹配,找到既包含關鍵詞1也包含關鍵詞16的所有頁面。

其次是初始子集篩選:子集就是為了更加快速的滿足用戶的需要,搜索引擎需要從所有的相關頁面中進行選擇,只計算權重稍高的頁面返回給用戶,這個過程就是常說的初始子集的篩選。大家可以試想,當我們搜索某個關鍵詞時,往往包含這個關鍵詞的頁面數量是巨大的,甚至幾十萬、上百萬。如果搜索引擎從這麼大的數據中進行匹配的話時間顯然更長,為了更好的滿足用戶的需求,實際中搜索引擎只會選擇哪些權重高的頁面去匹配,但是什麼樣的頁面才是權重高,才符合搜索引擎的條件呢?這就包含了多方面的內容和頁面相關元素的影響,既有外部因素,也會有內部因素。這個問題不是本文總結的一個重點,以後的文章會慢慢和大家分享。

平時我們搜索時不可能一一產看所有的搜索結果,一般情況下只會去查看前幾頁甚至只是前幾名,雖然搜索引擎返回的相關結果有很多,但這些結果仍然是互聯網上符合條件眾多網頁中的一小部分,所以,用戶的搜索習慣在發生變化,搜索引擎也面臨著很大的挑戰,如何能更好的幫助用戶搜索到需要的信息,永遠是搜索引擎在努力的一件事。

到這裡,通過文件匹配以及初始子集的篩選給大家分享了一些搜索引擎的基本原理,當然,在技術上往往要涉及的東西還有很多,考慮的各方面也更周全、更復雜,這些只是在大體的原理上給大家做了總結。通過了解搜索引擎的各個方面,對於我們網站的建設以及搜索引擎優化都能起到一定的指導作用。

好了,本文就到這裡,以後會繼續和大家總結分享。本文來自:北京SEO,網址:http://www.seostudy.org/,轉載請保留版權,謝謝!

感謝 北京SEO 的投稿

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved