我記得很多人知道我的博客是因為一篇關於nofollow的文章,恰好是在2年前寫的。真沒想到兩年就這樣轉眼而過。現在我就來講一下那篇文章中提到的那個nofollow做得好網站是哪個,以及他們如何做nofollow的吧。這個例子是我各種培訓中都會講到的,都已經講得快起繭所以不想以後再說了。同時也為了讓大家看看數據分析是如何指導SEO的。
這個網站就是曾經在外貿B2B領域做得很成功的網站–Tradekey。這裡先介紹一下這個網站的歷史:這是一個完全依靠SEO起家的網站,總部在迪拜,現在是一家跨國公司,創始人非常年輕。我以前寫過一篇《依靠SEO去打造一個成功的網站》,那這個網站就是經典案例。在外貿B2B領域,曾經有的網站一年都需要十來萬費用,還拿不到多少詢盤。但是曾經在Tradekey上,免費會員都能拿到很多不錯的詢盤。所以它依靠口碑在B2B領域慢慢流行起來,被譽為“B2B領域的一匹黑馬”。在國內一些都比較懂網絡的外貿人群中也很流行,以至於有段時間國內都出現了很多tradekey的偽代理。Tradekey是如此的強勢,所以它後來基本關掉了免費會員,也就是所有在這個網站上發布產品的供應商,都要成為付費會員才可以。 在B2B領域,基本都是靠免費會員來拉人的,這樣做真的需要底氣。
Tradekey的底氣,就來源於它不錯的SEO技術。很多做英文SEO的人都應該知道,在google上搜索很多的產品關鍵詞,它都能有不錯的排名,它的SEO流量非常的可觀。加上和那些熱門平台相比,它的供應商數量不是很多,所以大家的效果相對都能得到保證一些。
這個網站也是我唯一見過的收錄量曾經達到100%的大中型網站。我要講的nofollow 的應用,就從這個網站如何提升收錄開始。
現在很多人都會把類似“注冊”或“登錄”這樣的鏈接nofollow掉,這是因為google官方就建議這樣做,當然tradekey也做了。
紅色框內的是nofollow的鏈接
不過一個網站中可以加nofollow的地方還有更多。我們來看它的導航條,在主頁上,只有“Member Area” 這個鏈接被加了nofollow。 (如上圖)
但是在這個網站的其他網頁上,導航條上所有的鏈接都被nofollow了。
導航條更多的nofollow
很少有人能敢把導航條上的鏈接nofollow掉,它這麼做的原因,通過數據來分析一下也就明白了。
如果你經常使用《光年日志分析系統》這樣的軟件來分析日志,就會發現一個網站中有很多的鏈接在一天之內是能被訪問很多次的。如:以下就是這個軟件統計出來的某個網頁一天內被搜索引擎爬蟲訪問的數據:
一天內不同蜘蛛的訪問次數
理論上來說,如果一個網頁上的內容更新得不是很頻繁,那這個網頁一天被抓取一次就可以了。對於那種已經被收錄而且內容一直不變的頁面,一天被抓取一次都太多了。就算是更新很頻繁的網頁,一天被訪問50次也完全夠了。不過實際情況遠比理論上的糟糕,就像上面的這個抓取數據,一個無關緊要的頁面,百度爬蟲一天都能抓取166次。大中型網站更糟,有一次我們分析完一個大型網站的數據,發現這個網站爬蟲每天的抓取量雖然有120多萬,但是其中有16萬次抓取都是在抓首頁這麼一個網頁,可以想象其他網頁又有多嚴重。
為什麼我們要這麼在意一個網頁被重復抓取的幾率呢? 這是因為一個網站中還有很多其他的網頁,爬蟲壓根就抓取不到。哪怕你的網站只有幾百個網頁,都可能面臨著這個問題。一個網站如果每個頁面平均被重復抓取10次,盡管可能爬蟲每天的抓取量有100萬,那也只有10萬個頁面被抓取了。一天之內的情況是如此,時間拉長到一個月內、半年內,情況不會有多大改善。雖然搜索引擎也試圖解決重復抓取的狀況,但是由於各種原因,會導致今天重復抓取的頁面,明天還是會重復抓取的。所以很多的大中型網站,一年下來,還有一半的網頁,爬蟲壓根都沒看到過。 如果不是分析了很多網站的數據,很多人都是無法想象情況有這麼嚴重的。
在抓取量一定的情況下,適當減低一些頁面的重復抓取量,那會有更多的其他頁面會被抓取到。 一個網站中,最容易被過度抓取的頁面,就是那些經常曝光的頁面,導航條上的鏈接就是經常曝光的。所以Tradekey的解決辦法很簡單,就是在首頁這麼一個頁面上,給爬蟲留下入口去抓取導航條上的鏈接,但是在其他網頁上,就把導航條上的鏈接nofollow掉。這樣處理,會使導航條上鏈接的抓取量,從以前被抓取上萬次降低到現在被抓取幾十次。雖然不能達到理想中的狀況,但是也比以前好了非常多。
Tradekey就用這種思想處理了網站上的很多鏈接。如:
大量應用nofollow
想象一下,當爬蟲以這麼一個頁面作為訪問的入口時,由於很多通用的鏈接都被屏蔽掉,這樣就“逼著”爬蟲去訪問那些它以前從來沒有看到過的頁面。 整個網站能被爬蟲訪問到的頁面就大大增加了。
在google咖啡因改版的很久以前、Tradekey還只有英文版、產品信息只有200多萬條的時候,它整個網站的真實收錄量