經常有人讓我幫忙簡單說說SEO相關的數據分析怎麼做,甚至期望能幾小時速成。但這方面涵蓋的太多,不可能三言兩語就說盡,也不知可從哪裡簡單概括。
SEO是一個非常不成熟的行業,能參考的資料極有限,大多數東西都要通過數據來摸索,而摸索的過程中,往往能揭露憑過往的直覺沒有意識到的真相。所以數據化有時對於SEO是非常殘酷的,往往一份簡單的數據就可以否定掉一群人數年的努力工作。
就拿最常見的例子來說,SEO流量是怎麼組成的?大多數人覺得那是靠熱門關鍵詞撐起來的,或者認為是大量的熱門關鍵詞撐起來的,於是認為熱門詞的排名上去流量肯定會漲,卻不然。對於大多數稍大的網站,絕大多數SEO流量都是由百度指數都沒法看到的極其長尾的詞帶來的。因此哪怕用再大的力氣去做熱門詞的排名,它們貢獻的流量依舊很有限。
或許有人會認為這不可思議,因為從來沒看到過這樣的數據。但這數據是只有通過分析網站的原始日志才能得出的結論,而Google Analytics此類采樣率極低的統計系統無法看到這樣的數據。更不提哪怕會熟練用GA的SEO也甚少,因此SEO流量的真相幾乎是從不被人看到的。
所以,有時聽人說“SEO已死”,而我經常說“SEO還沒活過”,一點也不誇大。
如何開始學習數據分析
SEO的最終目的是給網站產生收益,因此核心指標有兩個:轉化、流量。
比如流量再可以細分:流量 = 收錄 * 排名 * 點擊率 * 搜索量
收錄可以再細分:收錄 = 抓取量 * 頁面質量
而比如抓取量,它的瓶頸依情況,可能是抓取時間封頂、可能是抓取總量封頂、可能是頁面總量封頂。各種情況都有不同的處理方式,需加入不同的數據指標。
通過類似這樣的分法,從最終數據指標(轉化、流量)可以逐步細分出幾十幾百個數據指標,這些數據指標都是有用的,因為它們的數值變動以後,最終也會影響到轉化或流量。
(有本熱門的SEO書籍,花了很大的篇幅去寫了對一個網站分析並操作的實例,但最後那個網站的SEO流量卻很低,沒見多大效果。因為盡管其中有大量的“分析”,卻多是在看沒意義的數據。)
當一個主要數據指標產生波動的時候(最常見的是總流量變動),就需要通過細分數據來分析具體的原因,後面有兩個舉例提及大致思路與步驟。
之間涉及到的面則非常廣——
首先要了解搜索引擎的基礎原理,這才能知道在什麼情況下什麼數據指標是有關的;
之後需要對多種技術的入門級知識,因為各類數據的獲取方式都不同,有些需要采集、有些需從日志提取、有些從數據倉庫導出、有些從API獲取等等,需要學習的方向不盡相同;
單單的數據只是數字,還需要分析數據才能讓它產生價值。臨時性的分析一般用到Excel,監控類的分析則需要自己做個能輸出圖表的報表系統。
這些至少要花個半年功夫才能學會,但並不算難,沒有什麼可畏懼的。就如學習1+1時都會覺得9*9是難的,但學會後再往回看,那就沒什麼了。
一個基礎的假想案例分析
假設個較接近於實際應用的例子:
一個游戲類論壇,A板塊為網盤游戲下載,很多頁面上有到X網盤的導出鏈接;B板塊為BT下載,頁面上有一個站內的種子下載鏈接,無站外導出鏈接。
開始分析:
統計頁面的抓取數量與即時收錄數量,並計算之後,發現A板塊的頁面質量明顯低於B。(頁面質量 = 收錄數量 / 抓取數量)
那麼此時猜測,是否是A板塊帖子頁面上,X網盤的導出鏈接導致了它的頁面質量低?
為了驗證猜測,再將A板塊的帖子頁面分為兩組,其中aa組有X網盤的導出鏈接、bb組沒有X網盤的導出鏈接。分別計算其頁面質量。如果aa組帖子的頁面質量明顯低於bb組,那麼可以得出初步結論:
“X網盤的導出鏈接,使得自身帖子頁面質量降低,影響到收錄量,並最終導致SEO流量受損。所以需將該類導出鏈接做特殊處理,比如由自己站內URL,301跳轉到X網盤等。”
當然這個結論未必是正確的。比如,aa組帖子具備的特征,除了具有X網盤的導出鏈接外,也可能具備的特征如轉載帖子比較多(游戲資源貼許多會是轉載),可能是後者真正導致了其頁面質量的低下。
盡管更嚴謹的數據分析(比如再將轉載帖子與非轉載帖子分組)更可能得出准確的結論,但這般嚴謹下去就沒個頭了,SEO畢竟不是火箭科學,在某步的數據獲取很有難度時,借助經驗來猜測下可能更劃得來。
所以可以先實施項目,然後再監控整個A板塊相對B板塊的頁面質量是否有拉近,從而以最終效果來證實之前的猜測正確與否。
盡管這個例子完全為假設,我並不確定實際情況中,帖子到網盤的導出鏈接是否會影響到頁面質量。但類似的例子平日能遇到很多,且此類分析的時候所需的數據收集起來方便,因此這是日常SEO數據分析最容易碰到的一類情況。
一個進階的實際案例分析
(數字與實際數值不等,但大致比例相同)
內頁的流量在某一時間段大幅度下降,需分析其下降原因。
一個常用且管用的思路是,取25%的熱詞,看它們帶來的流量、與另外75%詞分別的變化。如果得出的數據是熱詞的流量下降多,即多半為熱詞的排名有下降;如果下降程度相當,則為整體的影響。
首先,計算得出25%的熱門關鍵詞,它們的流量下滑幅度為35%;而75%的非熱詞,它們的流量下滑幅度為30%。
但雖然數據差了5%,但差距還不是特別明顯,需要進一步分析才能確定。
因為關鍵詞往往是可以被進一步分詞的,如“SEO文章”可進一步分為兩個檢索詞——“SEO”、“文章”,而且檢索詞才是搜索引擎真正在處理的。所以進一步的分析就去分析25%的熱門檢索詞流量的變化。
最終得出的數據是,包含25%熱門檢索詞的關鍵詞流量下降了40%,不包含熱門檢索詞的詞流量僅下降10%。
那麼結論就很清晰了,熱門檢索詞相關的流量產生了變化。之後對比網站近期的項目上線列表,沒有涉及到這部分的修改,所以這是百度的算法調整所導致的。
知道了流量的變動原因後,自然也就可以有一些相應的改進方案了。盡管方案能執行與否尚取決於網站對SEO的重視程度,但至少不用借口於:“百度總是喜歡K我們的站”之類。
文章