一.前言
本文比較適用與中大型網站的SEO人員,小網站也可以參考。
目的在於探討一種挖掘網站的內容潛力,把網站中用戶可能會關心的內容呈現給用戶,滿足其需求,獲取相應的SEO流量。
很多大型網站都在用的一種方法,但是很少有人出來詳詳細細的解釋。
這樣的SEO流量是如何獲得的,下面舉一個通俗易懂的例子。
假設我在百度上搜索“iOS 英雄無敵3”,目的是找一個能在iOS下運行的英雄無敵3這個游戲。
事實上這個游戲並不存在。因此壓根不存在一個頁面可以讓我找到我想要的內容(如果有也是標題黨)
於是我進入了tgbus的這個關於iOS 英雄無敵3的頁面。
我在這個頁面上找到了iOS上的英雄無敵2這個游戲以及其他類似英雄無敵3的iOS游戲,以及一些奇奇怪怪的新聞(ok,這個頁面做得並不是很容易閱讀)
Finall,我在tgbus上下載了英雄無敵2的iOS版本試試。
OK,我們再換個實際生活中例子:
一個姑娘去買衣服,於是看上一條粉紅色的連衣裙,但是沒她要的尺碼。
這時候營業員會怎麼做,沒錯,推薦一些類似顏色or款式的連衣裙,並且有碼。
(TGBUS似乎推薦出了一條牛仔褲。)
SO,我們應該如何去找出用戶想要的連衣裙和我們倉庫中有的連衣裙,並且在最恰當的時候給用戶最好的結果,還能獲取到SEO流量,這並不是一件很簡單的事情。
Wait,這不是就一個推薦引擎麼?這麼復雜的玩意交給工程師做就行了。事實上多數時候,這只是SEO們一廂情願的東西,工程師才不會來鳥你什麼推薦引擎,我們先從一個可執行的角度,自力更生來把這個SEO方法實施下去。
二.內容分析,關鍵詞分析,數據接口設計
一個SEO知道自己網站有多少內容很重要,經常遇到和人說:“你網站這個XX頁面有問題” “啊?這是什麼頁面啊,我從來沒見過。”
一般一個網站垂直去分,有首頁,內容頁,列表頁。
內容頁中,又可能分圖片頁,評論頁,文章分頁等等
列表頁中,又可能分頻道頁,產品列表頁,索引頁,專題頁等等。
一般一套頁面對應一套甚至多套php模板。
需要弄清楚這些模板是否在一個架構內,是否公用數據庫,頁面上使用了哪些字段,最好可以找到對應模板的開發人,如果有條件申請到源代碼查看權限,可以自己看一下。一個內容聚合的需求可實現度很大程度上取決於上面這些內容,先弄清楚把配料都弄齊全了,再開始做菜,否則巧婦難為無米之炊。
橫向去分可能是更多往business方向考慮,比如有我們有賣線路的,賣門票的,賣酒店的,攻略,用戶圖片,論壇帖子等等各個頻道,各個頻道可能是由不同的部門在負責。哪些是網站熱賣的,需要熱推(至少你做個SEO的東西得有商業價值,在電商公司非常重要),包括各個頻道是否有人還在運營,一個常年無人打理的頻道,顯然不是一個好的內容源。一般來說,主要的產品線,和UGC的內容一般是網站內容提供主力。如果我們想挖掘用戶需求,也可以優先考慮它們。
這個步驟需要花很多時間,復雜一些網站甚至要1個月才能弄清楚網站到底有多少類型的頁面。在弄清楚上面的問題之後,
接下來,就需要只要知道各類內容有多少數量。
比如多少個SKU,多少文章,多少帖子,多少tags,多少分類等等
這是很多人在做類似工作時考慮不周全的,憑感覺去做。最後做出來一大堆重復內容的頁面,重復頁面對SEO有多壞的影響就不用再提了。
這個統計內容數量的辦法(從好到壞排序)。
1.讀數據庫
2.通過一些”巧妙”的辦法去數
3.用工具抓
4.靠經驗猜(基本不靠譜)
讀數據庫是最簡單,也是最准確的辦法了,一個select完事
如果沒有數據庫權限,就要去想辦法知道。比如文章有多少條,那可以計算分頁數量*每頁文章數量來統計
如果是自增id,那來湊自增id來數;
如果是固定格式數據,比如來北京的圖片,北京的天氣,地區數量*類型來計算,等等;
通過工具抓是很多seo的夢想,無數人問過這樣的問題,有沒有什麼工具可以統計出我網站有多少網頁啊。
抱歉,還真沒有,由於種種網站原因,沒有任何一個工具可以統計出一個中大型網站到底有多少網頁(誰有那這個工具比google,百度爬蟲還NB),太多的爬蟲陷阱,阻礙深入抓取的東西了。當然,這樣的抓取工具並不是一無是處,對於小型網站,或者特定頻道,甚至特定區塊的抓取,還是有一定作用的。比如 Httrack,Xeun,當然還有我比較喜歡用的火車頭。python,shell等腳本語言一直是萬能的。
上面基本就是內容分析的大致情況了,弄清楚內容的種類,數量和運營情況,對SEO是有很多好處的。
三.關鍵詞挖掘,清洗與過濾
關鍵詞的挖掘說難不難,說簡單也不簡單。
基本每個人都會問,怎麼挖掘關鍵詞制作詞庫。先說說一些常用的手法。
1.baidu/google API
2.采集愛站,chinaz,伯樂等數據
3.采集百度下拉框(其他搜索引擎同理)
4.采集百度相關搜索(其他搜索引擎同理)
5.站內搜索和自然流量關鍵詞
6.現成字典/詞庫
講點具體實現的一些注意點,都是在實踐過程中總結出來的東西。方法說了,基本10個人裡面有1個人去實踐一些就不錯了
1.百度和google的api是要申請的,想辦法搞一個,如果沒有,只能用百度網頁級別的采集,百度競價後台經常改,所以不是很穩定,這邊友情推薦一個工具http://www.lingdonge.com/(暫時備案中可能打不開),作者很nb,搞俠客站群軟件的。百度API的python的 SOAP通信有BUG,連不上(可能我水平太低了T_T),PHP會SOAP通信的話可以自己寫腳本來跑,Google的沒玩過,應該差不多;
2.API是有精確搜索量的數據,所以是詞庫第一數據
3.百度下拉框反采集做的比較少,采集地址為http://suggestion.baidu.com/su?wd=xxxxxxxxx+一堆參數的,具體調整一下,一個小腳本可以搞定,但是數據深度有限,一般采集2輪後就不用再采了,基本采不出新數據了;
4.相關搜索可以用火車頭或者飛達魯金花之類的,因為是采集SERP,反采集這塊要想辦法繞過;
5.站內搜索和自然流量關鍵詞去GA搞一下就行,批量導出不說了。很簡單,不是用的GA可能會悲劇一些;
6.拼音輸入法詞庫,推薦一個數據網站http://www.datatang.com/,可以看看,裡面會有一些行業詞庫;
7.一些特殊的搜索引擎,淘寶,youku之類,他們也積攢了大量的數據信息。
四.分詞/檢索/排序/修正
五.頻道的運營,維護,拓展
六.數據監控
注:文章來自陳汝一供稿,轉載請注明出處。