垂直搜索對信息的更新有著特別的要求,根據這些特點可以從以下幾點考慮:
1.信息源的穩定性(不能讓信息源網站感覺到spider的壓力)
2.抓取的成本問題
3.對用戶體驗改善程度。
根據以上幾點制定一種比較好的策略,要做到恰到好處。
策略上可以評估網站/網頁更新的系數、網站/網頁的重要系數、用戶點擊系數(或曝光系數)、網站穩定系數……,根據這些系數來確定對這些網站/網頁更新的頻率。再由於新信息和更新了的信息list頁面前面或者首頁,所以對網頁進行很好的分級可以以低成本很好的解決更新問題,系數比較低的網頁一月update一次,稍微高點的一周update一次、中等的幾天到一天一次、高的幾小時到幾分鐘一次。類似搜索引擎的大庫、周庫、日庫,小時庫……
基於視覺網頁塊分析技術,模擬IE浏覽器的顯示方式,對網頁進行解析。
根據人類視覺原理,把網頁解析處理的結果,進行分塊,再根據需要,對這些塊進行處理,如:采集定向、介紹抽取和一些必要的內容的抽取正文抽取……
結構化信息抽取技術,將網頁中的非結構化數據按照一定的需求抽取成結構化數據。
有兩種方式,簡單的就是模板方式,另外就是對網頁不依賴web結構化信息抽取方式,這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區別就是對網頁信息結構化抽取後再結構化數據進行深度的處理,提供專業的搜索服務。所以web結構化信息抽取的技術水平是決定垂直搜索引擎質量的重要技術指標。其實web結構化信息抽取在百度、google早已經廣泛應用了,如:MP3、圖片搜索、google的本地搜索就是從網頁庫抽取出企業信息,添加到其地圖搜索中的,google通過這種技術正在顛覆做內容的方式。同樣的技術應用還在qihoo、sogou購物、shopping等各種應用中體現。
簡單的語法分析,簡單的語法分析在搜索引擎中非常重要,可以通過簡單的語法分析來改善數據的質量,低成本的獲得某類信息,改善排序,尋找需要的內容……
信息處理技術,信息處理包括的范圍比較廣
主要包括去重、聚類、分析……,這根據需要相關的技術就非常多。
數據挖掘,找出您的信息的關聯性對於垂直搜索來說非常重要,有效,可以在這些相關性上為用戶提供更細致的服務。
分詞技術,面向搜索的分詞技術,建立和您的行業相關的詞庫。
注意這是面向搜索的分詞,不是面向識別和准確的分詞。就這個工作安排十幾個人不停的維護也不會嫌多。
索引技術,索引技術對於垂直搜索非常關鍵,一個網頁庫級的搜索引擎必須要支持分布索引、分層建庫、分布檢索、靈活的更新、靈活的權值調整、靈活的索引和靈活的升級擴展、高可靠性穩定性冗余性。還需要支持各種技術的擴展,如偏移量計算等。
其它技術,略。
垂直搜索引擎的技術評估應從以下幾點來判斷
1. 全面性
2. 更新性
3. 准確性
4. 功能性