隨著2006年Web2.0技術的發展,搜索引擎也在不斷地調整自己的
網站抓取策略和網站排名算法,下面就從這兩方面談一下Web2.0技術對SEO(Search Engine Optimization,搜索引擎優化)的影響。
搜索引擎針對RSS的改進
SEO技術一直都專注更有質量的原創內容、更有針對性的文章標題和更吸引人的文章摘要上。自從2006年Blog興起後,RSS訂閱也同時開始流行起來,這在很大程度上也改變了很多人的網絡閱讀方式,而搜索引擎總是跟隨用戶的關注而不斷地改進自己的排名算法,所以為你的網站內容系統提供一個RSS訂閱功能會是一個非常重要的方面,而且你會發現效果非常好。
現在無論是通過Google、MSN, 還是Yahoo進行搜索,RSS都會出現在搜索結果中,例如,當你用Google搜索一個非常流行的Blog——boing boing,你會發現排名第三的就是FeedBurner記載該Blog的Flog,實際上我們會發現Google確實給擁有Flog的網站額外的PR值。
當然某些網站不希望部分RSS被搜索引擎索引,RSS2.0已經可以為RSS Flogs添加標示,類似noindex, follow,搜索引擎將不再索引你的RSS。
補充材料問題
Google的補充材料問題是今年比較受關注的SEO問題。
補充材料(Supplemental Result), 是Google輔助索引的一部分。對輔助索引進行抓取的限制少於主要索引。例如,一個網址的參量可能使該網站無法被抓取到主要索引中,但仍可能被抓取到Google的補充索引裡。
根據Google的說法,作為補充材料的網頁,只是一種輔助、補充的索引,並不作為主要索引。也就是說,這些網頁並非在Google的主數據庫中,而是在輔助數據庫中。一般情況下,當我們在Google上進行搜索時,它展現給我們的結果是主數據庫中的網頁,並非輔助數據庫中的網頁。由此可以得出結論,作為補充材料的網頁,在Google的表現會非常差。
根據一些搜索引擎關注者的觀察,作為補充材料的網頁,被Google爬蟲爬行的間隔時間非常長,很多時候幾個月、甚至半年都不會被Google爬蟲造訪,嚴重影響網頁在Google數據庫中的更新。同時,這些網頁的排名非常差,只有在搜索結果很少的時候,才會被Google列出來。一般情況下,根本無法在搜索結果裡看見這些網頁。
如果網頁被Google列為補充材料,這對於網站來說是一件不幸的事情。被列為補充材料的網頁,在搜索結果中的排名,都會表現非常差。如果網站本身的PR值較高,情況會稍好一些。
是什麼原因造成了網頁被Google認為補充材料呢?從Google自己提供的信息中,我們看不到任何有價值的資料。主要原因可能是網頁的Head部分的Description書寫不規范造成的和網頁內容是復制的。
某位搜索引擎關注者曾經有6個相同主題的網站,這些網站都是用同一個數據庫生成的,其中有100多個網頁的內容幾乎完全一樣,而且都是用XHTML+CSS技術制作。在這些網站中,只有一個網站的所有網頁不是補充材料,其他的網站的頁面,除了首頁之外全部都是補充材料。因此懷疑補充材料是由於復制網頁造成的。
在復制網頁的情況下,補充材料是某一個特定的URL,而不是一個網頁或者一個文件。比如說xxx.com和www.xxx.com,一般來說是同一個文件,但是是兩個不同的URL。這兩個URL有可能其中一個是正常網頁,另外一個卻是補充材料。
補充材料是針對特定的日期所抓取的網頁快照,也就是說即使是相同的URL,在Google數據庫中也可能存在多個版本,其中一個版本是日期A所抓取的新的內容,這個URL+這個特定的日期和網頁快照,可能是在正常的數據庫中。而另外一個日期B所抓取的內容(同一個URL,比較老的內容),卻可能是在補充材料數據庫中。
在分析了不是補充材料的網站的網頁後,還發現只有這個網站的Description書寫規范,Description內容由成段的句子組成,與網頁的內容吻合; 而被作為補充材料的網頁,Description內容書寫得都很不規范,都是將關鍵詞堆砌幾遍。發現這個問題後,搜索引擎關注者將其中某些網站網頁的Description修改為規范的寫法,以期觀察。但是由於Google幾個月都不更新這些頁面,無法觀察到結果。於是,搜索引擎關注者又用同樣的數據庫,做了兩個網站,這兩個網站的內容與以前的網站幾乎完全相同,但是Description采用規范的寫法。這兩個網站被Google收錄後,所有網頁都不是補充材料。
由此,得出結論,Google補充材料形成的原因是: 網頁的Description寫法不規范。
補充材料對排名的影響
這個問題就比較復雜,要具體情況具體分析。
像前面講的,同一個URL可能出現在不同的數據庫中,新版本的URL可能會出現在正常的主要關鍵詞的搜索中。但是在其他關鍵詞搜索中,它也可能出現在補充材料中。
如果你的網站有很多補充材料,有可能影響排名。但是如果這些補充材料都有一個相應的新的URL+日期+網頁快照版本,對排名的影響就不大。如果這些補充材料沒有新的版本,影響就比較大。
怎樣避免出現補充材料?
1. 網頁的Description寫法不規范
解決網頁被Google列為補充材料的主要方法,就是規范書寫Description。不要在Description裡堆砌關鍵詞,Description的內容要與頁面的內容吻合; 保持合理的網站結構,確保每個頁面都有連接指向,並且連接不被埋藏得很深。
2. 有網址規范化問題。也就是帶有www和沒有www的兩個網址版本都在數據庫中,其中一個就有可能被標為補充材料。
目前可以通過Google提供的管理員工具來統一www和無www域名的網站。
3. 有時候已經被刪除的網頁,也就是實際上應該返回404錯誤的URL,會被列為補充材料; 或者域名已經過期了,也有時會被標成補充材料。
4. 有時候站長在改動網頁之後,新舊內容的兩個版本的網頁都會出現在