原著:Serge Thibodeau
編譯:Sunny
參考: 了解Google Dance工具 如何提高網站的Google PR值 淺談Google網頁級別 Google的原罪--網頁序列等級 Google-Dance-Machine
摘要:Google是如何更新全部索引的?這是一個范圍相當寬的問題,大家都知道,Google為確保向用戶提供最具相關性和質量最高的搜索結果而對其數據庫按月進行更新。為了回答上述問題,在本文中我將向大家詳細說明Google更新過程的每個步驟。
有相當多的用戶和公司都已經發現,為了在早期的搜索引擎優化中,能在Google裡有個很好的排名,在認真做計劃之前就要采取一切必要的措施。就免費提交的搜索引擎來說,Google是為數極少之中的一個,也是最早將網站收錄到數據庫的搜索引擎之一。到2003年7月10日為止,Google已經成為收錄34億個網頁之多的最廣泛的數據庫。其中只有一小部分不能夠被Google訪問,因為這些站點是不能夠被搜索引擎爬蟲或蜘蛛所訪問的。 就象在現實生活中一樣,無論是對網站所有者、網站管理員還是搜索引擎優化專家來說,當開始一個新產品的市場時,有很大的風險和潛在的復雜性。然而大多數專家都一致同意在使用Google搜索時,要正確輸入關鍵字,這樣才可以有效地搜索到你所要查找的信息。因為Google每個月都會更新它的數據庫。在這篇文章中,我們要解釋關於“Google Dance”的信息,還有如何在恰當的時間理解“Googlebot”。另外,我們也會告訴你如何進行搜索引擎的優化。著名的“Google Dance”
如果你想寫封信去參加在Google總部的年度更新過程,那麼你可能希望繼續讀到GooglePlex這篇文章,從中了解Google數據庫和搜索引擎機器人是何如工作的。關於Google每月周期性的更新過程有很多的文檔記錄。而在過去整整一年,Google的這種每個月的周期性更新(如今人們親切稱之為“Google Dance”)對那些焦慮等待的網站所有者和網站管理員來說,都變得愈加復雜和不可琢磨。
每次的更新都是從Google的一個主要的深層次的爬蟲開始的。我們先把它叫做爬蟲A。它是如何索引到整個網站中至少三四十億的網頁的呢?Google使用了15,000多台位於不同數據中心的計算機,來索引全世界范圍內的站點。當Googlebot來搜索數據庫中現有站點時,同時也會搜索到最新的網站。一旦Google完成了爬蟲A這個過程,就會為下一步的更新有效地搜索到所有的網頁,然後便是兩個星期後的第二次更新過程。
最後,Google會更新整個數據庫,在www2.google.com和ww3.google.com這兩個站點上可以看到最新的更新結果。在更新的同時,其結果會很快的連接在主要數據庫和第二、第三個數據庫之間。由於Google使用的服務器有15,000台之多,因此在整個更新結束之前,不同地方的人們所得到的搜索結果是不同的。“Google Dance”會持續好幾天,但是不會超過一個星期。除非Google要改變一些主要的規則,比如2003年4月份的更新。無論是在Google的每個數據庫更新的時候還是在更新之後, 只要其中一個數據庫進行更新,Google又會開始新一輪的“全面”檢索。我們把它稱做爬蟲B。這次檢索仍然包括數據庫中所有已被收錄站點和一些新發布的網站。GoogleBot的這次檢索完成之後,就是Google下一輪更新的起點,意味著下個月的更新又全面開始了。在完美時間“捕捉”Googlebot
為了得到包括Google數據庫在內的任何網站,或是數據庫中有效反映更新的網站,一個有經驗的網站管理員需要事先作認真的計劃,並准備好一切。這樣他才能在能每月特定的更新過程中“抓住”Googlebot,以取得一個好的排名。多數好的搜索引擎優化專家都知道Googlebot一開始的索引都是在月初進行的,而深層次的索引是在更新之後開始的。如果一個網站管理員希望在Google的數據庫中收錄一個新站點,那麼問題是,會不會有一個爬蟲來保證收錄呢?根據我們對其每月更新的經驗來判斷,並不總是這樣的。毫無疑問,如果一個網站在月初就被索引的話,那麼在這個月的更新過程中,就不會被收錄。如果是在這個月的第二次索引中提交的話,就有可能被重新訪問,並且在下次的更新時被收錄。
在其他情況下,Google只是簡單浏覽一下新提交的站點,記下主頁和Rbots.txt文檔。像這種行為通常是一個好的指示,Googlebot會在下次主要索引期間再次回來。所以站點通常會在第二次索引更新時被收錄。對一個新的網站來說,被收錄到Google的數據庫中,要被在Googlebot那裡訪問兩次。雖然有些例外的情況,但多數情況下是這樣的。 為了確保快速被收錄的可能,一個有經驗的網站管理員需要做一些工作。如果網站被Googlebot第一次更新後索引的話,這其實是一個很好的跡象,很有可能會在Google下個月的更新中被收錄。如果這次沒有被索引的話,網站管理員就要為再次的索引等待更長的時間。 根據這一點,一個網站管理員如果要想讓他的網站在Google更新時的這個非常時期得到索引,那麼他一般應該怎麼做呢?他完全可以做些必要的准備工作。如果有被Google已經收錄的網站,那麼可以通過這些網站的變化來觀察整個檢索過程和所有更新日期, 然後據此仔細規劃新網站的發布。此外,如果沒有已經為Google收錄的網站,也不要緊,可以常訪問www.google.com來觀察它的更新過程。 然而,實際生活中幾乎不可能100%的確定任何網站都可以部分的或是全部的被索引,為了能使您的網站被Googlebot索引到,網站管理員需要做一些工作。
第一,要和那些頁面等級高的站點交換連接。因為這些網站會經常被Google索引和更新。也就是說,如果和他們做連接的話,你的站點也會被經常地索引和更新。但要注意的是一定要有相關性:如果一個網站是做家具零售的,那就要和其相似的公司,比如家具制作或銷售的站點做連接。這樣做Google會給你一個較高的等級;反之,和那些無關的網站做連接則不會得到一個高的等級。
第二,你也可以直接向Google做提交。雖然這不是最好的方法,但也是值得去做的。
第三,網站管理員可以安裝一個Google工具欄,通過這個工具欄可以訪問到其它站點。自2002年中期起,就有很多關於網站被Google數據庫收錄和通過Google工具欄訪問二者直接關系的報告。
你也可以選擇Yahoo的有償收錄服務,這樣可以保證在七天內被Yahoo收錄。一旦為Yahoo收錄,你的網站就會很快被Google收錄了。當然你不用每年都花299美元。還有一個不用花錢的方法,就是把你的網站提交到DMOZ。雖然它的服務器有時會出現問題,而且被DMOZ收錄可能要花很長的時間。但這確是一個能讓您的網站被Google收錄的好方法。
結論:所有可以提供給網站管理員和搜索引擎優化專家的