對於重復內容想必大家都知道,顧名思義,就是網站內容重復,或者說是高度重復,也叫做復制網頁即重復內容網頁。在中國由於互聯網環境的原因,抄襲采集是相當流行的,尤其是在近年來眾多CMS不斷問世後,越來越多的站長注冊個域名,上傳個CMS程序就開始采集建站。這種做法實際不可取,一來是對用戶來說大量重復的內容會產生厭惡,搜索引擎是基於用戶體驗出發的,所以說同樣不會喜歡。
有的網站因為自身程序的問題,可以實現同一個頁面使用不同的url來訪問,關於這個我在之前url標准化的文章裡有過提及,對於url的規范化是相當重要的,在這裡就不再多提了,對於url的標准化可以說是所有seo優化必須要做的。對於搜索引擎來說他是不喜歡重復內容的,程序會自動判斷原始的版本是哪一個,然後再把其他的頁面忽略掉。但是對於搜索引擎來說,一個是耗費寬帶資源,另外一個就是浪費時間。而對於網站管理員來說,多個url這種的不僅會分散權重降低排名,還面臨著被搜索引擎懲罰的危險。而且你要知道,蜘蛛畢竟只是個程序,它自行挑出來作為規范化的網址未必是我們自己所想要的。對於復制內容頁面懲罰的問題,seo業界一直有爭論,就是懲罰與不被懲罰的問題。個人認為還是會被懲罰的,雖然谷歌在站長官方指南裡曾明確的表示,重復內容網頁不會被懲罰,但是請不要創建大量重復的內容網頁,這樣不利於網站排名。而百度同樣明確的提出過:如果你的網頁大多數內容都與網上已有的內容重復,你的站點將很可能被百度所拋棄。而且當這些重復的url被收錄後,當搜索引擎返回給搜索者這些重復內容網頁的時候會嚴重影響用戶體驗,因為搜索引擎是基於用戶的體驗為核心,它不希望列出來的搜索結果都是重復的內容,他只願意列出一份,而對於其他重復內容頁面搜索引擎會將做降權或直接在索引裡刪除處理。
這幾天在看《網站流量大提速第二版》的時候,發現對於重復內容網頁還有一種情況就是產品的銷售商和代理商從生產商的網站上復制過來的商品信息,這樣對於生產商來說並沒有什麼,因為生產商一般都會同意;但是這就造成了一個問題就是大量的重復內容出現在不同的網頁上,這對於搜索引擎來說恰恰是不喜歡的。而這些網站可能為了使自己的產品更能被客戶所熟悉,可能會提供一些更適用於打印的版本,如果不針對這些url做好處理的話,同樣會造成復制內容頁的情況。
還有種情況就是在前天一篇文章裡所提到的蜘蛛陷阱,就是一些電子商務類網站,會采用會話id的形式給予不同的用戶不同的id,這種情況每次蜘蛛訪問的時候同樣會造成復制內容頁面,具體的可以看下有關避免蜘蛛陷阱的這篇文章。搜索引擎在判斷復制網頁的時候,會有一套相關的算法機制進行處理,這種的就要涉及到不同的搜索引擎不同的有關重復內容檢測機制算法了。因為網站的權重不同問題,所以搜索引擎可能會把真正原始出處當成了復制,而把復制的當成了原始出處,這種的在百度中對待權重過高的網站尤其如此,就像我這篇文章就算我發布後被百度收錄,但是如果被新浪轉載的話,還是可能會被百度判斷為我是轉載的。
重復內容頁除了網頁的內容部分外,還有標題重復,結構重復,模板重復等;現在做seo的童鞋都知道,網頁的title是相當重要的,所以當你為一個網頁命名一個標題的時候盡量去百度和谷歌裡搜索下,是否已經有存在這個或者相似這個的標題,盡量不要去重復標題。關於結構重復,常見的比如一些cms系統和建站程序及論壇程序等,這些程序由於被廣泛的使用,往往其url結構也存在著大面積的重復,這個大家可以自行研究下,盡量做到url結構獨一無二。那麼什麼是模板重復呢?現在建站的門檻越來越低,很多人上傳一個程序,套用了一個默認的模板後就不管了,雖然說內容為王是最重要的,但是默認模板的話還是建議修改下好,默認的模板一般使用的非常廣泛,其布局結構和模板裡的html代碼或css代碼往往也會造成重復,雖然說搜索引擎判斷頁面是將所有的HTML代碼去掉,但是對於我們seo愛好者或者說seo從業者來說,為了更好提升seo性能,還是建議修改好。
還有就是鏡像類網站,這個在本博客裡有提到,可以大家可以搜索看下,在這裡就不再講述了。對於文章的轉載和抄襲所帶來的復制內容頁問題,同樣也不再多敘述了。還有一點要避免的就是,網站內容過少,比如說有些站點的內容頁面實質內容過少,再加上每個頁面不可避免的會有通用的部分,比如說導航欄,頁面底部等,如果實質內容的數量少於這些內容的話,也會有可能被搜索引擎判斷為重復內容頁。同樣還有個細節的地方,一些網站因為疏忽或其他原因而造成的空白頁面,如果存在大量的空白頁面也會被誤認為內容重復。
還有一種是服務或者產品類型網站,在進行地區劃分運營的時候,某些產品或者服務類型區間較小,或者說是一樣的,這種頁面只是把地區等參數信息進行了修改,但是其他大多數內容還是一樣。還有常見的新聞類網站,采用RSS feed生成網頁內容,而這些內容也比較容易泛濫。有的網站在未改版之前生成真實的靜態文件,在改版之後並未刪除這些真實的html頁面,如果在網站結構更改了但是內容未變的情況下,當不刪除這些真實目錄下的html文件的時候,同樣會造成網頁內容高度重復。同樣,摘要設置不當也可能會導致重復內容頁,為了提升用戶體驗,現在越來越多的網站尤其是新聞網站開啟了文章摘要功能,這些摘要在給用戶帶來方便的浏覽的同時可能會誤認為重復內容,還有一種不常見的情形就是http和https這種情況等等,對於網站優化在細節上下功夫是必不可少的,而網站重復內容會在一定程度上影響網站的排名。本文來源:深圳SEO 出處http://www.zhsem.com/ 轉載請注明,謝謝!
感謝 小無名 的投稿