昨天答應 小博要給他寫點關於搜索引擎的東西,於是就寫這篇博文了。
先談一點,搜索引擎的基本原理。做為一個SEO或者以SEO這個角色來混口飯吃的人來說,如果基本的搜索引擎原理都不知道,那就做不好,把握不住基礎的東西。言歸正傳,搜索引擎一般分為四部分:抓取、索引、排序、緩存。抓取是在建立資源庫、索引是在建立信息庫、排序是最終服務、緩存是在調查用戶的動向。
我給這篇博文擬定了一個題目:詞是搜索引擎的血液,因為我要重點介紹索引這個部分,了解這個部分後,你就真實的了解了什麼是原創,什麼是偽原創,以及非原創。
說下過程:
搜索引擎通過蜘蛛抓取來了網頁,之後就進入了索引的過程。通過一定的程序,剔除了代碼,就會形成了只有文字的字符串。之後,就是去除停止詞,消噪,只留下文章的內容。此時,你看到就是滿篇的純文字,這個時候就進入了中文分詞階段。通過一定的算法,搜索引擎會將你的主要內容,分割成一個個詞語,計入正排數據庫(一個URL對應多個詞語)。但是這樣又不利於用戶的查詢,就將這些詞提取出來,放在一起去對應不同的URL,這就形成了倒排索引,方便用戶的查詢了。
之後就是排序向用戶展示了,用戶通過一定的搜索詞搜索,被搜索引擎分解成他所認知的信息,然後與倒排索引對比,就找到了用戶查詢的東西。在經過相關性計算、網站的權重、和違規記錄、以及競價的干擾等展現一個排序呈現到用戶的面前。
是不是整個過程中都是以“詞”為核心。