TF-idf算法其實是一種用戶資訊檢索與資訊探勘的常用加權技術,常常被SEOER們應用到,而很多人或許不太知道,其實最直觀的了解就是“網站關鍵詞密度”。
直接切入主題,TF-idf算法到底是如何計算的:
公式:
TF:詞頻
IDF:逆文本頻率指數
TF-IDF=TF*IDF
我們舉例說明,TF詞頻的意思,是指一個詞出現在頁面中的次數,如果一篇文章的總詞語數是200,而“網站優化”這個詞出現了4次,那麼這個詞頻TF=4/200,也就是0.02。
而IDF也就是很文件頻率,指這個詞在多少頁面出現過計數為N,文件總數計數為M,那麼IDF=lg(M/N)。假設“網站優化”在2000個頁面出現,總文件數為1億,那麼文件頻率IDF=lg(100000000/2000)=4.69897,那麼計算最後的TF-IDF=0.02*4.69897=0.0939794。
這只是一個判斷一個頁面的相關度的問題,而在SEO網站優化中,並不只是判斷TF-IDF的值加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權重其實應該是0。計算公式:TF-IDF=log(1萬億/一萬億)=log1=0。
其實在搜索引擎檢索中,計算權重的時候,會根據每個詞分詞來計算,例如:“SEO網站優化的技巧”這個詞。
假設:SEO頁面檢索數位2000萬,網站優化的檢索數為1000萬,技巧的檢索數為50000萬
搜索引擎索引總數假設為100億。
SEO在www.ruihess.com這個網站中頁面(頁面總詞數400)出現8次,網站優化出現10次,技巧出現16次。
那麼各自的詞頻
TF(SEO)=8/400=0.02,
TF(網站優化)=10/400=0.025
TF(技巧)=20/400=0.04
TF(的)=上面已近提到,的屬於高頻停止詞,權重為0。
那麼搜索“SEO網站優化的技巧”這個頁面的相關度為:TF(總)=0.02+0.025+0.05=0.095。
而IDF(SEO)=LOG(10000000000/20000000)=2.69897
IDF(網站優化)= LOG(10000000000/10000000)=3
IDF(技巧)=log(10000000000/100000000)=1.69897
這麼算下來之後,每個詞為搜索“SEO網站優化的技巧”為頁面的權重和相關度貢獻的值分別為:
Tf-idf(seo)=0.02*2.69897=0.0539794
Tf-dif(網站優化)=0.025*3=0.075
Tf-idf(技巧)=0.04*1.69897=0.0679588
由此可以看出,雖然技巧出現的頻率更高,但識別度沒有SEO和網站優化高,所以為頁面的權重貢獻度並不是太大。
一個詞的預測能力也就是識別度越高,那麼這個詞的權重越大,反之則越小,看到“網站優化“可能你就已經基本了解這個頁面要講什麼,但是看到技巧,你可能還不是太明白頁面的主題。
當然這支持搜索引擎的算法的一個點,我們還要結合標簽來實現權重的提升,例如H標簽,而主關鍵詞周邊的詞也會加分,這裡周邊是指在一個標簽內的例如:SEO網站優化的技巧主要是一些搜索引擎優化思路的介紹
Design by www.ruihess.com