全自動監控網站關鍵詞排名（Python實現）

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 全自動監控網站關鍵詞排名（Python實現）

編輯：SEO優化集錦

從這篇文章開始不打算再花費大量精力去寫程序本身的知識，畢竟是各類書籍上有的內容。其余主要需要學習的是內置函數的使用，和一些模塊的使用方式，尤其是pycurl，re，threading這些需要慢慢熟悉起來。

若在學習中有不解的地方，在文章評論中可以提出，如果有空會盡力幫忙解答。

程序需求

對於稍大的一個網站，往往會有許多關鍵詞需要每隔一個周期監控它們的排名，以分析SEO效果的好壞，及判斷百度Google的動向等等。

有一個關鍵在於數據的收集全自動與否的問題。若經常用Google Analytics分析數據的話應該會感覺到，數據分析的需求是多種多樣的，只有事先已經有了完善的各個維度的數據以後，才能隨著最初的想法進行分析，而不會為數據的匮乏所局限。像Google Analytics這樣出色的工具完全自動的將這些數據收集了起來，才給SEO對於流量的多樣化分析打下了基礎。同樣的，如果想分析的時候更自由的話，就需要記錄盡多種類的歷史數據，如果這些作為每日工作，那將耗時非常長，所以自動化的收集就體現出了其重要性。

現有的監控排名主要解決方案是使用商業軟件Rank Tracker，但它也有些不是很理想的地方。比如對於幾乎所有既有軟件都存在的問題，功能不靈活。另外它最大的弊端之一在於它一定要找個具有圖形界面的系統運行（因為它是Java實現的，有多操作系統版本，所以不一定是Windows）。

對於DIY的Python腳本，在Linux系統裡面可以將其放到crontab中（系統級計劃任務），全自動的定時運行收集原始數據。然後在需要的時候，再用另外的腳本來處理原始數據，進行各個維度的分析。所需的一般情況下為：Linux系統的低配置VPS一台，總共不超過100行的Python代碼（Windows也能實現這些，但相對比較麻煩）。

然後再來分析更具體的需求。此處我總結了一些原則：

1. 除非數據量大到會對硬盤帶來壓力（比如每日數G的日志的分析等），不然把能想到的盡多的數據都記錄下來。因為分析的需求是多變的，數據若全面即可有備無患。

2. 同上，除非數據量極大，不然務必把歷史數據全部保存下來。在大數據量的時候，也需要按實際情況保存一定時間區間的數據（打個比方，前3年每月保存一副本，當年每周保存一副本）。歷史數據的對比在很多時候的意義非常大。

3. 當數據非常單一的時候，使用txt按行保存；當數據比較簡單的時候，使用csv按行列儲存；當數據比較復雜的時候，可以考慮使用MongoDB等key-value型NoSQL儲存；再復雜的時候，使用MySQL之類的關系性數據庫儲存。但這些不是絕對的，還是要看實際情況而定。

對於目前的需求，因為是要監控關鍵詞排名趨勢，所以一般最多監控幾千個關鍵詞就夠了。或許網站比較大，想了解數十萬的關鍵詞的排名，但對於了解排名趨勢的情況下，沒必要全部查詢，隨機選取其中一小部分作為樣本就可以了。

因為最多幾千個關鍵詞，所以最好每天記錄一次它們的排名數據（保證穩定的情況下，對於單IP，Google每天可以查詢5000+詞，百度則可以查詢數萬的詞）。而且數據本身，主要為關鍵詞、排名、著陸頁URL這幾項，文件體積很小，所以每天都保存一份數據。

數據的儲存方式上，此時一般建議選擇csv。它和Excel表格（xls）在數據的儲存方式上是一模一樣的。

代碼實現

這些代碼需要以下運行環境：

Linux操作系統

Python的第三方模塊pycurl

Python下載網頁的最簡單方式是：

import urllib2

print urllib2.urlopen('http://***.com/').read()

但urllib2模塊本身功能雖然還行，卻仍離pycurl模塊有較大距離。且在做稍微復雜一些的操作時，pycurl模塊使用起來比urllib2模塊方便很多。pycurl是必須要熟練運用的模塊之一，但也因為它上手可能會讓人有點頭疼，這裡我自己寫了一個模塊，以此即可方便的使用它：

from pycurl import *

import StringIO, time, random

def curl(url, retry=False, delay=1, **kwargs):

'''Basic usage: curl('http://www.xxx.com/'), will download the url.

If set `retry` to True, when network error, it will retry automatically.

`delay` set the seconds to delay between every retry.

**kwargs can be curl params. For example:

curl(url, FOLLOWLOCATION=False, USERAGENT='Firefox')

'''

useragent_list = [

'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6',

'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',

'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)',

'Opera/9.20 (Windows NT 6.0; U; en)',

'Mozilla/4.0 (compatible; MSIE 5.0; Windows NT 5.1; .NET CLR 1.1.4322)',

'Opera/9.00 (Windows NT 5.1; U; en)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en

SEO優化集錦

網站排名為何下降？巧用軟文做提升: 一
門戶網站的seo優化思路: 一般的企業站seo優化需要考慮的就是排名、長尾、轉化率。可是對於大型門戶站的seo優化則需要考慮很多
淺談如何拯救被K的網站: 筆者和大家說說我當時是用哪些方法快速恢復被K的網站的，當然筆者用的方法不一定就適合每個被K的網站，歡

SEO基礎教程 SEO進階教程 SEO高級教程 SEO技巧 SEO最新資訊 SEO相關 SEO優化集錦

DIV CSS 佈局教程網

相關文章