偽原創的目的是為了是搜索引擎認為這是一篇原創文章,從而給此文章比較高的權重。而目前偽原創有很多做法,例如替換詞語,交換句子等。
在這裡將從各方面分析偽原創以及手把手教你制作偽原創程序。與昂貴的偽原創軟件說拜拜!龍居客網站長提供
教程環境:
1、PHP
2、MYSQL
3、SCWS分詞系統
類似PHP腳本,類似MYSQL數據庫,類似分詞系統亦可,在此只提供思路。
第一步:配置好你的環境!
在此需要做的是下載SCWS分析系統,按照官方的教程安裝此系統,並且測試通過。其他的後台腳本,數據庫就不多說了。SCWS是設計給C語言使用的,也為PHP做了擴展庫,你也可以使用C語言制作你的偽原創程序。
第二步:獲取文章,肢解文章
所謂肢解文章,就是將文章分句,分句需要自己寫程序進行,我提供一個思路:以句號、感歎號、問號為分句標識,以上引號,左括號,左書名號等位起始符,以右引號、右括號、右書名號為結束符。遍歷文章,當遇到起始符則進入不可分句狀態,遇到結束符則退出此狀態,當遇到分句標識時,僅當當前為可分句狀態是,將讀取到的內容分為一句,以此循環,將文章肢解問一個一個的句子。在此做分句狀態的目的,是為了保護位於括號、引號、書名號等一段內容內的分句標識,例如【他說:“我愛你。”】這裡的【我愛你。】不會被誤分解。
第三步:分詞
將分解的句子進一步肢解,得到分詞。例如【蘋果與西紅柿一個是水果一個是蔬菜】這個句子可以分為【蘋果】【與】【西紅柿】【一個】【是】【水果】【一個】【是】【蔬菜】,在這個步驟中,需要SCWS的幫助,正常安裝此分詞系統後,分詞操作只需要一個函數。就這個簡單!另外,除了分解出詞語之外,還要獲得詞語的性質,例如名詞、動詞等。
第四步:關鍵詞同義替換
在此需要一個知識庫的支持,下載《哈工大信息檢索實驗室同義詞詞林》擴展版,裡面是非常全的同義詞大全,每個詞有多個編碼,代表該詞多義,一個編碼下有多個詞,表示這些詞是同義詞,將他們讀取並保存到數據庫中備用。
根據相關領域,設置你的關鍵詞,例如你是做房產類網站,那麼你的關鍵詞可能是租房,出租,二手房,買房子,房屋合同,要找出很多的該領域的關鍵詞,然後根據同義詞詞林對它們進行替換。為什麼只替換關鍵詞呢?因為一個非關鍵詞部分替換了,可能會引起奇異,而且不是該領域的詞,權重沒有領域關鍵詞權重高,損失語句通順度來做偽原創,得不償失。
第五步:標點亂舞
文章相似度的計算是根據句子相似度計算的,句子的相似度又是根據詞相似度計算出來的,所以即使更換了關鍵詞為同義詞,所得到的文章與原文還是會被判定為相似文章,怎麼辦呢?首先我們看看如何進行文章相似度計算。
前面說的同義詞詞林的編碼,其實這裡面大有學問,不是隨便亂編的碼,同義詞詞林的拓展版將一個詞的詞義,用一個編碼標識,編碼可分為5部分,分別是大類、中類、小類、詞群、原子詞群,例如學生和老師,這兩個詞,肯定是屬於一個大類的,因為他們都是人,而西紅柿和番茄,肯定是一個詞群的,因為他們指的就是一個東西。那麼相似度的計算就簡單了,按照100為完全相同來計算,若大類相同,則為10,若中類再相同,則為20,若小類再相同,則為50,若詞群再相同則為90,若原子詞群再相同,則為100。這裡為什麼要用“再”字,因為只要其中有一個不同,則無需再對比下去,例如大類都不同的兩個詞,中類,小類肯定不同了。
在此對比兩個文章中的一個句子出現的詞的相似度,計算每個句子的相似度,進而計算文章相似度,這裡涉及一個算法,類似google的PR算法,以貢獻度來疊加計算相似度。
說了這麼多,我們該如何做,我們要打亂標點符號,干擾搜索引擎的分句處理。
人看文章時,特別是新聞或者資訊,一般不在意標點符號,甚至有些人只是一眼而過粗略的看,即使斷句混亂,文章大意不會有任何問題,所以我們要隨意的將文章中的句號和逗號隨意的替換,這樣影響搜索引擎對文章進行分句,從而影響其相似度計算。
第六步:建立摘要置於段首
文章越靠前的內容越重要,這點毋庸置疑,所以我們需要對文章進行摘要,置於文章頂部,摘要的制作要有一定的壓縮率,如1000字的文章,做100字的摘要即可,這裡不按字數來統計,按句子數來統計比較方便,因為我們已經對文章進行了分句處理。500句規模的文章,做20句摘要左右。摘要的核心在於選取摘要句子,因為摘要本身是讓人了解個大概意思,所以又那麼一點點語義不通是可以承受的。
前面說過了關鍵詞,提取摘要也需要關鍵詞,我們以權重的方式提取摘要句,包含關鍵詞的句子,權重高,包含的數量越多,權重越高,以此計算出每個句子的權重。然後根據原文的順序,按權重高低順序將他們提取出來,直到提取夠你所需要的句數為止。將他們拼接,成為文章的文摘。
在此還可以做的更好一些,在網上找句子相似度計算算法,計算句子相似度,將相似句剔除,防止語義重復。因為包含很多關鍵詞的句子很有可能意思是重復的。
第七步:標題的自定義
偽原創很重要的一點就是改標題,標題一定要改,根據相似度計算的算法,我們改標題一定要改得煥然一新,例如【高考10招】改成【高考十招】,這種改法,你簡直是把百度當傻逼了。那要怎麼改呢?編瞎話你會不?【專家十點建議,助你備戰高考】【做到這十項,高考得滿分】【清華離你只有十步!】改成這些標題意思沒變,但是很吸引人去點擊,並且不會被搜索引擎發現是雷同文章。不錯把?
第八步:打亂權重較低的句子的順序
權重低的句子也能派上用場,雖然我們認為這些句子不是很重要,但是搜索引擎可不知道,我們把他們的順序稍微打亂,並不影響語義,反而起到了偽原創的效果,很好。
對於目前的偽原創軟件,無章法的打亂句子順序,是不可取的。例如一篇文章介紹了10個軟件,已經標記好了1、2、3、4的順序,經過偽原創之後,順序亂了,讀者讀起來就匪夷所思了。而本文介紹了句子打亂,是從局部范圍內打亂,而且都是非關鍵句。
即解決了偽原創的問題,又解決了文章可讀性的問題,除非你的文章只是給搜索引擎看的而不是給人看的,否則,趕緊動手制作自己的偽原創程序吧!感謝龍居客網站長提供(http://www.longjuke.com)
感謝 duway 的投稿