今天開始講排名,上次說到經過倒排索引,每一個關鍵詞對應一系列的頁面,用戶在搜索時填入關鍵詞後,排名程序就調用它,計算排名再顯示給用戶,排名過程是與用戶直接互動的。搜索引擎接收到用戶輸入的搜索詞,需要對搜索詞做一些處理,才能進入排名過程。這裡有一個過程跟之前的頁面索引是一樣的,那就是中文分詞,搜索詞也必須進行中文分詞,將查詢字符串轉換為以詞為基礎的關鍵詞組合,分詞的原理跟頁面分詞是一樣的,這裡就不詳細說了。
搜索詞進行處理後,搜索引擎得到的是以詞為基礎的關鍵詞集合,所以需要進行匹配,前面已經講過每一個關鍵詞對應一系列的頁面,當然就是有這些關鍵詞的頁面,比如搜索“張家港彎管機”,那分詞分為“張家港” “彎管機”這兩個詞的話,只要找到這兩個詞頁面的交集就可以了,簡單的說就是都包含這兩個關鍵詞的頁面,也就是頁面12為了方便理解,我劃了個表格。
關鍵詞1 頁面1, 頁面3,頁面8,。。。頁面N 關鍵詞2 頁面11, 頁面13,頁面18,。。。頁面N 張家港 頁面6, 頁面8,頁面12,。。。頁面N 彎管機 頁面2, 頁面12,頁面18,。。。頁面N 關鍵詞Y 頁面13, 頁面23,頁面38,。。。頁面N
找到包含這些頁面後,還不能進行相關性計算,因為這些頁面多的嚇人,這樣需要的時間就非常長,所以一般顯示出來的也就一百頁左右,如果每頁顯示十條的話,這樣就只要計算1000個結果的相關性,這1000條結果就是按權重大小選取的。所以說網站的權重是非常重要的,權重不高是沒有機會獲得排名的。
得出這1000條結果後,然後就要進行相關性計算了,影響相關性的主要因素有哪些呢:
1.關鍵詞的常用程度,越常用的詞對搜索詞的意義越小,這個用個例子來說吧,比如用輸入“我們站長” “我們”這個詞的常用程度非常高,“站長”這個詞的常用程度就小,這樣的話如果A,B兩個頁面,A頁面的“我們”只是出現在了普通文字中,“站長”卻在標題中,而B頁面正好相反的話,那A頁面的相關性就比B頁面高,這樣好理解了吧。
2.關鍵詞的密度,在不堆積關鍵詞的前提後,關鍵詞密度越高,相關性越高,但現在的重要程序越來越低了,所以保持一定的關鍵詞密度就可以了,一般在2%~8%之間。
3.關鍵詞的位置及形式,頁面關鍵詞出現的格式如標題,黑體,H1等,說明頁面與關鍵詞越相關。
4.關鍵詞距離,這個很容易理解,比如“我們站長”這個關鍵詞,如果連續出現,當然是最相關的,但“我們小站長”要比“我們全部站長”相關性要高,因為距離近嘛。
5.鏈接分折及頁面權重,這個不多說了,權重越高越好,內鏈,外鏈,要做好,就OK啦。
相關性計算好以後,再經過一些小調整就可以了,整個搜索引擎工作原理就講到這裡,這裡只是講了一些重點,明天有空的話想單獨講一下鏈接原理,因為這裡面有好多東西要講的。今天就到這吧,本文由張家港彎管機 http://www.zjgjixie.com站長撰稿,轉載請留鏈接。
感謝 magersu 的投稿