這段時間老師問我,為什麼我復制了多個URL中去檢測網站的收錄,確沒有看到收錄的情況。
其實做SEO的都會關注搜索引擎的實時動態,更會分析並解釋搜索引擎發布的公告,百度搜索引擎優化指南中對收錄就有這樣的公告
“百度希望收錄這樣的網站:網站能滿足一定用戶的需求網站信息豐富,網頁文字能清晰、准確地表述要傳達的內容。有一定原創性或獨特價值。”
眾所周知,網站只要別太垃圾百度都會去收錄的,收錄網站只是一個笑話。將網站收錄換成網頁就可以說通我們的問題了,百度喜歡信息豐富(內容含量多)、
網頁文字清晰(語句通順、不堆積關鍵詞)、准確表述傳達內容(邏輯清晰,主次分明,內容主題高度相關),原創或獨特價值(對用戶有用,有價值)。
這就是百度想要收錄的東西。
說到這裡,可能老師已經明白了,為什麼我們的內容沒有被收錄的問題。很多人一直處於燈下黑的狀態,認為只要我動手寫了就是原創,是搜索引擎認可的原創。
可問題是一字一語敲擊上去的就是原創?不見得吧,原創也能是垃圾的發源地,沒有任何實用價值。做搜索引擎,文章的原創只有搜素引擎說是原創,那才是真正的
原創。
對老師的問題在補充一點,用URL查詢沒有查到內容,也可能是百度已經抓取並且保存,正在後台對比分析該頁面的價值沒有放到前台展示。這種情況是新站最為常見
的情況,有個術語叫“沙箱”說的就是這個回事。
接著說原創吧,搜素引擎是如何識別網站的原創的呢?說說我所知道的幾種方案,第一,根據切詞匹配度。第二,人工審核。第三,ping機制。
不要認為第二種是廢話,覺的數以萬計的頁面,怎麼去判斷“原創”,其實完全沒有那麼難,抓取少量,判斷價值就行了。對於,其他兩點的判斷方法,因為是
機器程序判斷,所以有很多的可操作空間,就不一一敘述了。
回到開頭,百度公告中是說“喜歡收錄這樣的網站”而不是內容,那麼網站的布局和框架等也是百度搜素引擎考慮的因素之一。前階段發現 www.wmpic.me被www.wmtp.net
完美的抄襲模仿,相似度超過100%。說的一點也不誇張,這個網站連www.wmpic.me的關鍵詞布局都抄襲去了很多,但是百度依然收錄,並且排名竟然比原創站高。可見
模板布局在搜索引擎是收錄極其小的影響對於網站的影響。無恥的拿來主義,只會讓他們站在巨人的肩膀上,讓他們看的更遠,走的更遠。
作為廣安SEO,我對上述內容做個小結:
1)模板框架對搜索引擎的收錄影響很小。
2)內容的“原創”並不一定是要手動寫。