正如學習SEO不是一朝一夕可以學成一樣,搜索引擎同樣面臨很多挑戰,搜索引擎的智能化之路還有很遠的路要走。
搜索引擎目前是互聯網上算法最復雜的系統之一,主流的搜索引擎服務商都是有人力和財力龐大的大公司,就算他有技術和財力還有人力的保證,但是搜索引擎還是要面對很多技術上的挑戰。搜索引擎十多年中技術得到了很大的進步,現在我們看到的搜索引擎跟十多年前相比較好多了,但是這些只是個開始,搜索引擎還會有很多創新,提供很多更精准的內容。總體來說搜索引擎還會面臨以下五個方面的挑戰:
一、頁面抓取需要快而全面
互聯網是一個動態的網絡,每天都有無數的頁面更新和創建,無數用戶在網站上發布內容和溝通聯系。要找到最有用的內容,搜索引擎就要抓取最新的頁面。可是由於頁面數量龐大,搜索引擎蜘蛛每更新一次數據庫中的頁面就要花很久的時間。搜索引擎剛誕生的時候,這個周期往往以幾個月來計算。現在主流搜索引擎的都已經能在短短幾天內更新重要的頁面,權重高的網站新文件幾乎在幾小時甚至在幾分鐘之內會被收錄。但是,這種這種快速收錄及更新也只有限於高權重的網站。許多頁面幾個月不被抓取和更新,也是常有的。要有最好的結果,搜索引擎也一定抓取盡量全面的頁面,這就要解決很多技術的問題。有的網站也並不利於搜索引擎蜘蛛爬行及抓取,諸如網站鏈接結構的缺陷及大量使用Flash、JavaScript腳本,或把內容放在用戶一定要登錄以後才能訪問的部分,都會增加搜索引擎抓取內容的難度。
二、海量數據存儲
有一些大型網站單是一個網站就有幾百萬上千萬個頁面,可以想象網上所有的網站加起來是一個什麼樣的數據量。搜索引擎抓取頁面後,還要有效存儲這些數據,數據的結構還要准確合理,具備很大的擴展性,寫入和訪問的要求也很高。除了頁面數據以外,搜索引擎還必須要存儲頁面之間的鏈接關系和大量的歷史數據,這樣的數據量通常都是用戶難以想像的,這樣大規模的數據存儲和訪問存在很多技術挑戰。我們經常在搜索的結果中看到,排名沒有明顯的上下波動,甚至有可能刷新一下頁面,就會看到不同的排名,有時候網站的數據也有可能丟失。這些都很可能與大規模數據存儲的技術難題有關。
三、索引網站數據處理快速有效且具可擴展性
頁面數據抓取及存儲後,還要進行所以索引處理,其中包括了鏈接關系的計算和正向索引及倒排索引等。由於數據庫中頁面數量龐大,進行PR之類的計算也會耗時費力的。想要提供相關又及時的搜索結果,只是抓取是沒用的,還要進行大量索引計算。由於隨時都可能有新的數據和新頁面加入,因此索引處理也一定要具備很好的擴展性。
四、査詢返回處理快速准確
査詢是用戶唯一能看到的搜索引擎工作步驟,用戶在搜索框中輸入關鍵詞,單擊搜索按鈕後,通常都是不到一秒就能看到搜索的結果。表面上最簡單的過程,事實上涉及很復雜的後台處理。在最後的查詢階段最重要的難題是怎麼在不到一秒的時間,快速的從幾十萬和幾百萬甚至幾千萬包含在搜索詞的頁面中,找到了最合理和最相關的1000個頁面,而且是按照相關性和權威性排列。
五、判斷用戶意圖及人工智能
應該說前面4個挑戰現在的搜索引擎已經能比較好的解決,但是判斷用戶意圖還處在初級階段。不同的用戶搜索相同的關鍵詞,但很有可能是在尋找不同的東西。例如搜索“小米”,用戶是想要食物小米呢,還是小米手機?還有《手機》電影的信息?沒有上下文,沒有對用戶搜索習慣和意圖的了解,就完全無從判斷,以及搜索結果也無法達成智能顯示的目的。
搜索引擎目前正在致力於依靠用戶搜索習慣、歷史用戶搜索數據,綜合判斷用戶搜索意圖,返回給用戶更精准、更相關的數據結果。至於搜索引擎是否能夠達到人工智能判斷用戶搜索引擎意圖,估計還有很長的路要走。SEO在SEO實戰當中,也常常會發現一些不可思議的現象,例如在QQ群友SEO交流中,發現一個論壇,數據量為0,關鍵詞設置也很差,但是百度快照卻更新很及時,排名也保持在第一頁當中,這些都是SEO實戰人員,在進行SEO過程中發現的冰山一角,其實搜索引擎排名要做到更准確、更相關、更智能,恐怕還是任重而道遠。
學完了該課程的SEOER,還閱讀了seo課程培訓免費教程系列。