網頁教學提示:Google關於Blog Ranking的Patent.
讀了一下 Google 關於 Blog Ranking 的 Patent,總結如下。
正面的指標:
- [0038] 訂閱數
統計 blog 在各種 reader 中被訂閱的數量。被訂閱的越多,ranking 越高。但同時會使用一些方法處理“subscriptions spam”,諸如驗證訂制人和 IP 的唯一性。
- [0039] 搜索點擊數
統計 blog 作為搜索結果時被點擊的次數。點擊次數越多,ranking 越高。
- [0040] 在其他 blogger 的 blogroll 裡的出現次數
blogger 通常會使用 blogroll 來整理指到其他 blogger 的鏈接集合。統計所有 blogroll 中,指向某個 blog 的鏈接越多,ranking 越高。
- [0041] 來自高質量的 blogroll 的鏈接數
高質量的 blogroll 的鏈接大多都指向著名的或值得信任的 blog。
- [0042] 來自高質量的 blog 的 blogroll 的鏈接數
這裡的假定是著名的或值得信任的 blogger 不會放指向 spam blog 的鏈接。
- [0043] 有Tag
blog 作者如果分析了 blog 內容,歸類並打上了 tag,起碼可以說明作者的態度比較認真。
- [0044] 來自郵件和聊天記錄的鏈接數
如果在 Email 正文裡或者聊天記錄裡出現了指向 blog 的鏈接,會加分。GEmail 和 Gtalk 被用在了這裡。
- [0045] PageRank
PageRank 越高對應的 blog 也就越重要。考慮到blog的更新比較頻繁,最新的 blog post 可能還沒有PR。這時可以用對應的 blog 的 PR 來代替。
其中 [0040-0042],其實是類似於傳統網頁間 PageRank 計算的一套模式,只不過這裡把它限制在了 blog 之間。
負面的指標:
- [0047] 更新頻率異常
更新過於頻繁或者非常有規律,會被認為是在 spam,ranking 會降低。這裡提醒喜歡在每天的固定時間更新 blog 的朋友注意一下了。
- [0048] feed 內容和 blog 內容的不一致
spammer 有可能會為了提升自己的 ranking 而把有價值的內容放到 feed 裡面,同時在 blog 內容裡面放一些指向不相關內容的廣告鏈接。為了懲罰這種情況,對於 feed 內容和 blog 內容不一致的情況,要降低 ranking。
- [0049] 出現重復內容
有些 spammer 為了讓某些內容能夠多次長時間的出現在 feed 裡面,會重復發布同樣的內容。這樣的情況會被懲罰。
- [0050] 垃圾詞過多
通過詞頻統計(bi-gram 或者 tri-gram 等),如果 blog 內容裡垃圾詞的比較過高,會降低 ranking。
- [0051] 多數 blog 長度相近
這個主要是針對使用機器自動生成 blog 的情況。
- [0052] 鏈接異常
當 blog 裡的鏈接多為指向單一網頁,或者單一的外站,會被認為是在 spam,ranking 會降低。
- [0053] 廣告太多
如果一個 blog 頁面內含有過多的廣告,會降低 ranking。
- [0054] 廣告出現在正文裡
一般 blog 頁面會包括三方面的內容:最近發表的 blog,blogroll 和 metadata。如果廣告出現在正文裡,會降低 ranking。不知道 adsense 的廣告有沒有特殊待遇?