零維護網站創意和SEO方法
SEO非常重要,但對於起步者來說,通過原創或消耗大量人力內容編輯去做流量、做排名並非易事。
SEO是通過合理手段使得網站易於搜索引擎索引,從而使得網站對用戶友好(User Friendly)、對搜索引擎友好(Search Engine Friendly),進而更容易被搜索引擎收錄並達到優先排序的目的。SEO工作貫穿網站的策劃、建設、維護整個過程的每一個細節。策劃並非易事,一個好的點子比建設和維護更加重要。對於初學者來說,而有些好的創意往往因為無力建設和維護而不得不擱淺。
下面我們以一個網站為例來說明一個低門檻的創意,以拋磚引玉。在本例中,我們將分析這個網站的得失,希望這一網站的建設者也能看到此文,以參考改進。
近日,一個pdf文檔搜索引擎http://paper-search-engine.com引起了我們的注意。這個網站是一個以pdf文檔搜索為用途的專業網站,可以提供pdf paper的摘要、預覽、搜索功能,是實用的。初學者可能覺得這個網站過於專業,門檻過高,而實際情況並非如此。
這一網站的創意實際上是借雞下蛋:其提供的搜索內容大都來自於Google。因此可以判定這個paper search engine並未開發自己的搜索引擎內核,而僅僅是一個內容聚合器。(如果判斷錯誤,願意和網站站長討論)。那麼,這樣一個沒有自己內核的網站是如何引起爬蟲興趣的呢?
我們在這個網站的搜索框中輸入一組關鍵詞,比如“paper search”,然後回車,會看到結果頁面為“http://www.paper-search-engine.com/pdf/paper-search-pdf.html”。如果我們細心點,會發現,短時間內如果再搜索這個“paper search”,該網站返回的是一個HTTP 304(Not Modified),這就意味著,用戶這一搜索結果頁面已經被存儲起來。假如爬蟲找到這個頁面,那麼,爬蟲肯定會對這一結果頁面上的相關文章鏈接和摘要感興趣。那麼,爬蟲並不會自己輸入查詢,它是怎麼到達這一結果頁面的呢?
在本網站內容首頁,可以看到一行“Popular Searches: United States United Kindom Australia Canada Russia Germany France Italy Sweden Netherlands Japan Korea Taiwan ”。點擊任意標簽看到這些國家的搜索記錄,如果點擊這些搜索記錄就能進入相應的結果頁面。GOOD!這就是秘密所在了:這一文檔搜索引擎將用戶的最近搜索存入了數據庫,並按照國家分類存儲了起來。這樣,爬蟲就能根據這些Popular Searches Tag逐級爬取,並樂此不疲。
更重要的是,當google爬取了搜索結果後,google會將這些關鍵詞頁面作為內容存儲到google的數據庫中。這就是改網站的精妙之處了。因google的收錄,當用戶通過google搜索響應關鍵詞時,會在不自覺的情況下進入paper-search-engine.com的相應關鍵詞頁面上。而因為這一搜索引擎具有一定的實用性,用戶可能使用這個引擎再次搜索其它關鍵詞,這樣,這些新的關鍵詞又被這一文檔搜索引擎寫入數據庫並生成新的搜索結果頁,進而又引起google爬蟲興趣。看吧,這是在滾雪球;而且,無需維護。
在分析本網站時候,我們也注意到設計者並非SEO高手,比如,網站的keyword竟然是“paper search engine,ebook,pdf,business plan,finance book,technology book,business book,marketing book,science book,free ebook,free ebooks,pdf search,search pdf”。這個兩公裡長的關鍵詞組足以嚇死很多爬蟲。
希望初學者能從本文中受益。
感謝 lala3698 的投稿