現在百度提倡用戶體驗,更加強調網站內容的原創度,但是百度蜘蛛是怎樣分辨一篇文章是不是原創呢?同一篇文章發在不同平台上被收錄後百度是如何辨別哪篇是原創哪篇不是原創呢?
1、文章對比
搜索引擎來到這個網站並且抓取到了這篇文章,放到數據庫,並且在收錄數據庫中沒有發現類似內容,那麼就會被認為是原創,也有站長朋友認為是用公式計算出的,即:TF IDF ,TF是TermFrequency的縮寫,譯成中文是詞頻,指的是某一個詞在文章中出現的次數;IDF是InverseDocumentFrequency的縮寫,中文譯成反文檔頻率,IDF越大,表明這個詞在其它文章中出現的次數很少,說明這個詞有很好的類別區分能力。
2、文章與網站主題的相關性
在網站初期就會對此網站規劃一個主題,那麼百度等搜索引擎在收錄此網站的時候,就已經為這個站確定了主題范圍。如果某篇文章的主題與整個站點的主題相關度很低,比如你的站是一個做seo的站,其中卻有篇文章是說教育類的,那麼百度蜘蛛就會認為這篇文章與網站主題不符,即不會判斷為原創。
搜索引擎比較喜歡原創類文章,那麼在網站建設完成後在做關鍵詞布署時一定要考慮是否與網站主題相關,因為站內不相關的文章或者網頁占到一定幅度,就可能被降權甚至K站,所以網站的主題相關性也很重要。
3、網站權重
同一篇文章發在不同平台上,收錄快慢都是有區別的,如果你寫了一篇文章,在未收錄前被別人轉載了,並且沒有保留你網站的鏈接,那麼他發在一個權重較高的網站上,隔天收錄了,這個時候如果百度再去收錄你網站中這篇文章時,在數據庫裡面發現了同一篇文章,那麼百度就會認為你這邊是抄襲的,並且不會被收錄,所以很多站長朋友都很清楚,寫的原創文章一定是發布在自己網站上等收錄後再發到其他網站上。
4、網站的跳出率等
百度現在更多的是考慮用戶體驗,所以偽原創文章,尤其是程序生成的偽原創文章,大量存在網站中,用戶體驗是非常差的,這樣會導致用戶快速跳出頁面,並且點擊其他搜索結果,如果跳出率過高的話,百度就會認為這個站點是垃圾站點,那麼以後這個網站內的文章,也會被認為是偽原創文章。
通過以上的分析我們可以發現,現在的seo不僅僅是簡單的偽原創外鏈那麼簡單的,更要充分注重用戶的感受,所以偽原創之路已經不可取了,建議站長朋友更多的去寫原創類的文章。
文章來自:http://www.shenzhensem.com/ 轉載請保留,謝謝!
注:相關網站建設技巧閱讀請移步到建站教程頻道。
收藏本文