在如今的互聯網上,存在著龐大而繁雜的內容、信息,大量重復的內容或者信息是不可避免的,那麼搜索引擎爬蟲是如何區分這這些內容的呢?換句話說,它是如何判斷原創內容的呢?seo了解這些有助於我們可以做一個高質量內容的站點。下面先看一張圖片:
從上面圖中我們可以得知搜索引擎是如何判斷原創內容的,以下四步
1.發現:當搜索引擎爬蟲發現新的內容,他會立刻與之前收錄的內容進行比較確保內容的原創性。
2.丟棄:首先,搜索引擎會放棄收錄那些來自鏈接工廠,MFA站點(Made For Adense)和被列入黑名單的IP的頁面
3.分析:這一步就是分析每個頁面的入站鏈接,判斷鏈接的質量和源頭。
4.確定:最後就是回顧之前收錄的頁面和相關鏈接,決定哪一個頁面才是絕對原創。
根據這四點我們做的工作有很多,這個是區分不同網站或者不同域名的一個判斷,那麼我們自己的網站內部有許多重復內容又怎麼去避免呢?下回有空可以分享一下這方面的文章,希望大家繼續關注葉松的博客,謝謝!
轉載自網站推廣博客 http://www.1860z.com