文章是否原創,搜索引擎應該也沒法從技術上作出絕對正確的判斷,甚至大致正確的也不能,無數的站長辛辛苦苦原創的文章經常排在許多垃圾博客的轉載甚至是采集之後。到目前為止,本人認為搜索引擎判斷文章是否原創的標准已經運用的有以下幾點:文章收錄時間、網站上的鏈接、網站的權重。
文章收錄時間:你的文章是十年前就收錄了,我的一篇一模一樣的文章十年後才收錄,當然你的文章是原創的了。但是如果收錄時間距離較短的話就難以判斷了,因為權重高的博客收錄更快,我的文章五天前就發表了結果一直不收錄,結果你轉載了我的文章幾分鐘後就收錄了,如果搜索引擎認為你的文章是原創的而我的是抄襲的,那我豈不是太冤了嗎?
網站上的鏈接:這個應該是判斷原創標准最主要的一點了吧。如果你的文章結尾有一句:文章轉載於某某SEO博客,或者網站中某些關鍵詞上有鏈向該關鍵詞的鏈接,那麼判斷你的文章是轉載該博客的應該會比較准的。因為如果你鏈向了該文章的頁面判斷還是比較准的,如果鏈向該站域名的話判斷還是很難的。總不能你文章鏈向了他的博客結果他轉載你的文章都被搜索引擎認為是原創吧?
網站的權重:這個做SEO的人應該更能理解一點。搜索引擎認為一個高權重、高PR的博客文章原創的可能性更大一些。
其實還有一個標准可以判斷文章是否原創,即查看網頁的創建時間。例如你的文章是頁面是去年創建的,我的是今年才創建的,並且文章內容一模一樣,那麼十有八九我是轉載你的。如果還不能理解的話,就想想一下我們常用的 Word、Excel吧,是不是經常看到他們的最後修改時間呢?我們還經常用修改時間進行排列呢。相信這個記錄修改時間的技術對百度和谷歌來說絕對不是問題,這個技術性問題應該隨便一個程序員都可以解決的吧?不知道現在百度和谷歌有沒有利用這種技術。當然這個技術也是有缺陷的,就是如果我的文章是原創的那麼我可能會經常改動,那麼我的文章的最後一次修改時間可能要比轉載我的文章要晚,這個搜索引擎可以記錄同一文章的所有修改時間來解決,這個技術上也很容易實現。但是這又遇到了兩個問題:第一、這意味著多大的工作量?百度、谷歌索引的可不是一台電腦上的東西,也不是一個網站的東西,而是數千億的頁面,記錄每次頁面的修改時間不知道在工作量和搜索引擎服務器反應能力上意味著怎樣的壓力;另一方面即使判斷出那個頁面時最先創建的了,但是如果站長把最先創建的頁面原內容刪除替換成轉載別人的文章,這又該咋判斷啊?
寫了這麼多,大家可看到了每種判斷方式各有優缺點 ,搜索引擎應該也特別希望能做出正確的判斷,不過先不說技術問題,光是判斷標准就夠令人抓狂的了。畢竟搜索引擎只能根據人的命令才運行,如果我們無法給出絕對正確的判斷標准,那麼搜索引擎也是沒法解決這個問題的……
文章由seoclubs原創,轉載請保留鏈接:http://www.seoclubs.com/