為了扼制Web2.0頁面越來越嚴重的垃圾信息、群發信息,以及不斷蔓延的在Web2.0頁面做外鏈、做SEO的趨勢,百度站長平台今日發布了Web2.0反垃圾詳細攻略。
根據《Web2.0反垃圾詳細攻略》,百度站長平台不僅警告了在博客、論壇、SNS等Web2.0頁面發垃圾信息以SEO的部分站長,也對網站管理員提出了防止垃圾信息的建議。百度站長平台《Web2.0反垃圾詳細攻略》如下:
一、web2.0站點與垃圾內容
由於大多數web2.0建站系統存在漏洞,攻克技術成本較低,且群發軟件價格低廉,容易被作弊者利用,近期我們發現大量web2.0站點被群發的垃圾信息困擾。這些垃圾群發內容無孔不入,除論壇、博客等傳統的web2.0站點受到困擾外,現已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網盤等更多領域內,甚至連新興的分享社區也受到了影響。從以前的論壇帖子、博客日志,擴展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內容的地方,都會被作弊者發掘利用,形成大量的web2.0性質的垃圾頁面。
搜索引擎在發現web2.0性質的垃圾頁面後必將做出相應應對,但對真正操作群發的作弊者很難有效的打擊,所以作弊者容易利用web2.0站點極低成本且自身安全這些特點,做出更多危害網站、危害用戶、危害搜索引擎的行為。若網站自身管理不嚴控制不力,很容易成為垃圾內容的溫床;有些網站為了短期流量而對垃圾內容置之不理,這無異於飲鸩止渴。網站不應僅僅是平台的提供者,更應該是內容的管理者,積極維護網站自身質量非常重要。若網站任由垃圾內容滋長,不僅會影響網站的用戶體驗,同時也會破壞網站口碑和自身品牌建設,造成正常用戶流失,嚴重時,還會使搜索引擎降低對網站的評價。
對於作弊者來說,在web2.0站點上發布垃圾內容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網站和搜索引擎上消失,他們依然會持續不斷地產生更多垃圾內容。百度站長平台希望和站長一起打擊垃圾頁面,幫助網站良性發展,共同維護互聯網生態環境。
二、哪些內容會被百度判別為垃圾內容
一切對用戶無意義,且會傷害用戶的內容,就是垃圾內容。我們總結了以下幾種比較典型的案例,以示說明:
1,與網站或論壇版塊主題不符的內容
群發者通常都是大面積群發內容,多數情況下不會注意站點及版塊主題,有時我們會在視頻網站中見到“XXX醫院治療白癫風效果好”的內容,會在化妝品論壇發現航空公司的虛假電話,會在音樂網站中找到商品推銷信息(當然不是賣CD的)等等。對於這些主題明確的站點或論壇,清理垃圾內容的意義不僅在於保證網站體驗,也是從自身發展考慮維護用戶忠誠度,提高核心競爭力的事情。舉例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html 網站主題為化妝品,出現“找小姐”等不良內容廣告
http://cang.baidu.com/cases99/snap/f84bec4e99508525a9e67fce.html 網站主題為視頻,出現明顯商業廣告性質的醫療信息
2,欺騙搜索引擎用戶的內容
1)垃圾信息為了在眾多搜索結果中脫穎而出、吸引用戶注意,通常會使用誘人的標題,或在內容中添加大量關鍵詞,有別於真實用戶發帖時使用自然語言表達的情況。舉例:
http://cang.baidu.com/cases99/snap/c2c0b07346650b4d292e0368.html “優酷土豆%守望的天空29集”--有悖於普通用戶發布信息的習慣。
2)有些帖子內容是一段沒有任何意義的文字,或者隨意采集來一篇文章,而中間穿插了一些熱門關鍵詞。舉例:
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
http://cang.baidu.com/cases99/snap/1baad31c3d640eeceb11823d.html
3)有些文章看標題以為在說A事,而主要內容卻在講B,且與A毫無關系。舉例:
http://cang.baidu.com/cases99/snap/ce87d21d625937ebd9eee4c2.html
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
4)對於視頻音頻網站來說,無論內容上傳者是否為惡意,只要視頻或音頻文件不能滿足用戶需求或者與標題所述不符都應該清除掉。舉例:
http://cang.baidu.com/cases99/snap/c8ea73b9a98c51205104b3c1.html 乍一看以為是電視劇專輯,實際視頻平均不足1分鐘
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html 視頻內嵌入了聯系方式,名為介紹武藝,實際是在推廣另一藝人,視頻站點成為其免費的推廣平台。
3,欺騙網站詐取分帳式廣告收益的內容
部分web2.0站點為了鼓勵用戶上傳內容,會設計一套現金鼓勵機制,比如視頻網站,根據視頻前面的廣告展現量來計算用戶收益,少數分成用戶會采取一些不正當的手段從搜索引擎騙取流量,從站方詐取分成收益。如大量上傳短小視頻,並在視頻網頁上堆積誘人的關鍵詞。
4,惡意利用web2.0網站為自己做推廣、謀福利的內容。
舉例:
http://cang.baidu.com/cases99/snap/16107c3e4e885c024d29ed38.html
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html
視頻內嵌入了聯系方式,名為介紹武藝,實際是在推廣另一藝人,視頻站點成為其免費的推廣平台。
5,有違法律法規的不良信息,如詐騙中獎聯系方式、虛假聯系電話、不良信息。
舉例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html
http://cang.baidu.com/cases99/snap/30c36a2b013ae249aacfbc3e.html
http://cang.baidu.com/cases99/snap/af71c5ec8b83e2eed1cb783d.html
http://cang.baidu.com/cases99/snap/f4633d781c76393f9b11343d.html
三、網站管理員面對垃圾內容,如何應對
出於對網站自身發展的考慮,為了使搜索引擎能夠提供更加公平的結果,為了維護互聯網生態環境,以及給網民提供更好的上網體驗,我們認為web2.0站點或論壇版塊裡存在上述內容是非常不合適的,網站管理員應對垃圾內容進行重點清理,可以采取以下措施:
1,刪除垃圾內容,並將這些頁面設置為404頁面後,及時通過百度站長平台http://zhanzhang.baidu.com/ 的死鏈工具提交死鏈列表。不僅令百度對站點的自我清理行為及時響應,更方便站點主動控制網站內容在搜索引擎的呈現情況。
2,提高注冊用戶門檻,限制機器注冊
1)群發軟件通常使用自動的程序探測論壇默認的注冊文件名、發帖文件名。管理員可以不定期的修改注冊用戶文件名、發帖文件名;注冊、發帖按鈕使用圖片;與程序默認的不同,可以防止被自動程序搜索到。
2)發帖機通常是機器注冊,行為模式單一。管理員可添加一些需要人工操作的步驟,有助於限制機器注冊。 如:使用驗證碼;限制同一郵箱注冊ID的數量,同時啟用郵箱驗證;使用更為復雜的驗證機制;經常更換注冊問答。
3)除了在注冊處設置門檻外,還可以控制新用戶權限。如要求完成上傳頭像、完善用戶信息等人工操作步驟後才開放發帖功能;在一定時間內限制新用戶發帖;限制新用戶發布帶鏈接的帖子,待達到一定級別後再放開。
3,嚴控機器發帖行為,如使用驗證碼、限制短時間內連續發帖等。
4,建立黑名單機制,將群發常用詞、廣告電話和網址等加入黑名單,對含有黑名單內容的帖子進行限制或清除。黑名單應該不斷維護,以堵截原有垃圾詞匯發生變形和新生垃圾詞匯。
5,對站內的異常進行監控。發現注冊量、帖子數,甚至站點流量爆增後,及時發現和查找原因。
6,對站點內用戶的行為進行監控
1)部分異常用戶的ID結構有別於普通用戶,如使用無意義的字母數字、或幾個單個漢字的無序組合,如:gtu4gn6dy1、蝶淑琴;使用商業詞作為ID,如:軸承天地7、hangkongfuwu123。
2)發布內容間隔過短
3)發布的內容絕大部分非常類似
4)發布的大部分內容裡含有類似的特征,如某個網址、電話、QQ號碼等聯系方式
7,不允許發布帶有可執行代碼的內容,避免彈窗、跳轉等嚴重影響用戶體驗的情況發生。
8,對部分web2.0位置提及的鏈接,使用“nofollow”進行標記,如:bbs簽名內的鏈接、BLOG回復ID自置的鏈接
http://cang.baidu.com/spamcase/snap/a3103920926c494f0e3030ad.html
9,論壇中的廣告、灌水版塊,建議加上權限限制,或者禁止搜索引擎收錄。
10,關注建站程序的安全更新,及時安裝補丁程序。保障用戶賬號安全,避免發生盜用正常用戶賬號或歷史沉寂用戶賬號發布垃圾內容的情況發生。