網頁信噪比是指一個網頁上的文字內容與所有HTML代碼的比率,這同樣是我們所必須了解的SEO基礎知識。從搜索引擎的原理來講,其抓取系統首先是將整個 網頁下載下來,然後將裡面的文字內容提取出來,經過分析去除HTML格式,清除噪音,然後分詞,最後存入索引庫。在這個過程中,搜索引擎也會經過去噪的過 程,我們很明顯地就能知道,網頁信噪比越高,搜索引擎蜘蛛抓取的效率越高,搜索蜘蛛每天要處理的文檔非常之多,如何能夠快速的提取網頁的主題信息是個重要任務。
其實不單單是指所有本文與代碼的比率,還包括了當前頁面文本內容中的有用信息與無用信息的比率。何謂有用信息,就比如我這篇文章的 主題是網頁信噪比,整篇文章有1000個字,而當前頁面所有的文字內容有2000個文字,而其他文字是與信噪比無關的,那這些無關的信息就是噪音了。所 以,提高網頁信噪比分為兩個方面:包括優化代碼和優化內容。
一、去除噪音代碼
我 們知道,搜索引擎去噪的第一步則是清除HTML格式,那麼提高網頁信噪比的第一步就是優化HTML代碼。為什麼我們常說,網頁代碼要符合W3C標准、代碼要簡潔、要用DIV+CSS,其實都是基於這個原理。實際上,很多朋友只是看到網上的文章說要這樣去寫代碼,但卻不知道為何要這麼做,這也是我建議大家先 學習SEO原理的原因(我知道,實踐大於理論,但如果理論都沒有,怎麼去實踐,沒有一個出發點)。去除噪音代碼包括以下幾個方面:
減少JS使用,必須要用的JS代碼進行封裝。
將CSS代碼進行封裝。
減少DIV層嵌套(很多朋友不知道原理的話,一味地追求DIV+CSS,卻同樣產生大量冗余的代碼。)
減少圖片、FLASH的使用
二、去除噪音內容
同樣的,搜索引擎提取網頁文本內容後,還要進行分析二次去噪,也就是確定當前網頁的主題。那麼在這個過程中,我們如何讓搜索引擎更精確地判斷我們的網頁主題(這也就是相關性的問題),如何提高網頁的相關性?那麼就是降低頁面噪音內容。
我 們很常見的就是一些電子商務網站的商品詳細頁面,可能一部分做電子商務網站SEO的人員並未注意,在產品介紹內容下面有一些關於配送方式或者幫助信息的說 明,這些內容的存在,提高了各個產品頁的相似度,同時也降低了信噪比。這些信息從用戶體驗的角度來講是友好的,是提升網站的信任度,但從搜索引擎的角度來 講是有一定不利的,所以我們可以將這些內容使用IFRAME或者JS來封裝調用,這樣雙方都照顧到。主要也是有包括以下幾個方面:
重復內容進行封裝調用
導出不必要的鏈接列表進行封裝調用
精簡版權信息
增加相關內容的文本長度
方 法是以上幾個,具體如何實現還要看自己對技術的了解或者掌握。雖然我們知道搜索引擎在索引預處理階段會對網頁進行去噪處理,但如果我們自己做好了網頁信噪 比的提高,一方面減輕了搜索引擎的工作量,從而提升其在我們網站上抓取索引的效率,一方面提升了搜索引擎判斷的准確度。那麼,可想而知,我們的網頁是更加 被信任的。
感謝 蕭涵SEO 的投稿