《走進搜索引擎》這本是是比較簡單的講解了主流搜索引擎的大體系統,主要分為爬蟲系統,分析系統,檢索系統,查詢系統。
爬蟲系統(又稱下載系統):下載萬維網各種類型的網頁,並且保持同步。
1.采取寬度優先. 2不重復抓取策略 采用md5或者哈希函數3網頁抓取優先策略,主要基於鏈接歡迎度(數目質量,反向連接)連接重要度,平均鏈接深度,4.網頁重訪策略 ,分為統一重訪策略和個體重訪策略。
分析系統:下載得到的網頁數據進行pagerank 和分詞計算
1網頁結構分析:文本(長度,位置)打分 。2網頁去重 有i-match算法和single算法。3通過字典對文本進行分詞。4pagerank打分
索引系統:將分析處理後的網頁對象索引入庫。
1通過倒排索引。[詞 文檔數 偏移量] [單文檔數 詞個數 域列表]
查詢系統:分析用戶查詢請求從索引庫中檢索出相關網頁並排序後以查詢結果返回用戶。
1計算信息熵[查詢詞和檢索詞] 2自動摘要
以上是大致的提綱,下面是我做的思維導圖。歡迎各位指教。