DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO最新資訊 >> 谷歌搜索算法 >> Google遺漏了什麼
Google遺漏了什麼
編輯:谷歌搜索算法     

許多人以為Google索引了互聯網上的一切。不過,Google或許是我們所擁有的最好的搜索引擎,但是, Google所索引的互聯網上的資源遠比我們想象的要少得很多。根據Google首頁面提供的數據,目前,它索引了3,083,324,652個頁面,而據估計,實際上在互聯網上有達100億只奪得頁面存在。我們不僅要問, 那些被Google省卻的頁面都是什麼呢?

現在,我們遇到了一個難以提出的問題。如果我們想真實的知道Google到底遺漏了些什麼,那我們必須要有一個比Google公司的能力更為強大的索引能力。在我們的此項研究中,作為理解Google索引了什麼和遺漏了什麼的開端,我們選取了"googlology"這樣一個詞來追蹤, ’Goolology’是Webmaster World在2002年10月第十二期第一次提出來的,續而作為一個詞在Microdoc News的前身站點Google Village上被使用,到2003年5月10日,通過Google的查詢,該詞意共出現在655個頁面。然後,我們開始在互聯網上到處搜索所有包含有 "googlology"的頁面,作為我們首次探究Google究竟遺漏了那些的實例,我們發現,"googlology"這個詞在當前實際所出現的頁面數目要比Google列出的要多。

Google從它的數據庫中的總共655個頁面中列出了624個頁面的索引。我們抓取了那些鏈接的screen-scraped,把它們放入我們的文本數據庫中。我們的研究人員設置了WebWolf?,讓這個桌面“爬蟲”在互聯網上工作了兩個星期來獵取那些包含有"googlology"的頁面。我們將網絡上多達220,000個鏈接的Blogging新聞標題作為出發點;我們的爬蟲從那裡開始,跟隨著一個又一個鏈接,直到它能在互聯網上尋遍 "googlology"這個詞。

在兩個禮拜的搜索之後,我們找到了2,199個頁面包含"googlology"這個詞。這也就意味著Google只索引了所有包含有 "googlology"這個詞的頁面的29%。我們發現,另外的1,544包含有"googlology"的頁面在Google的數據庫中不存在。我們不盡要問,那些掄有被Google索引的頁面都是哪些?它們都來自那種類型的站點?

Microdoc News使用了一個mapping工具來分析我們在搜索中創建的數據庫。所有包含有"googlology" (2,199個)的頁面用最外圈的犗黑線橢圓被標繪在我們的映射圖上。這個大的橢圓裡面的整個區域代表那些包含有"googlology"的所有頁面。我們對這些頁面按照下面的七類進行歸類:

Blog頁面

教育類頁面

主流媒體站點的頁面

新聞,信息和目錄頁面

Junk

Other database by Google

Other not-databased by Google

結果顯示在下面這種映射圖中。它為我們提供了一個包含有"googlology",但掄有被Google索引的頁面的可視化圖景。圖中紅艊區域標繪了哪些包含有"googlology",並且所有被Google索引的624個頁面。

正如你所看到的,大約有一半左右包含有"googlology"的blog頁面被Google索引,包含有"googlology"的教肊類站點頁面中,約有37%被Google索引,類似的,主流媒體站點類頁面中,29%被索引,News, Information and Directories類頁面中大概是45%,junk站點類中,例如Geocities和其他類似的站點,約有8%被索引。

那些被Google數據庫所遺漏的頁面,看來多是那些用到該術語比較早的頁面,例如2002年12月以前,在那裡我們發現多達153個包含有該詞的教肊類站點頁面(它們引用到Webmaster World對該術語的使用),它們沒有被Google索引。同樣,也有許多在2月到3月之間的blog頁面(它們引用到Google Village站點)和許多Microdoc News頁面掄有被Google索引。我們還發現在在CNet?、ZDNet?和類似BBC、Siemens和其他媒體類站點的包含有該詞的頁面沒有被列在Google中。

根據這些以及我們對數據的進一步分析,要是我們真的把對"googlology"這個詞的分析的結果應用到所有的其他詞去,那麼,我們能得到這樣一些試驗性的結論:

Google並不索引互聯網上的每一個頁面;

Google傾向於拋下(或不索引)那些到現在三到六個月以前或更早的頁面;

Google傾向於包含blogs、educational以及news and information類站點最新頁面(在三個月內創建的頁面)中的98%;

Google一般會索引主流媒體站點在最近三個月內創建的頁面中的80%;

Google通常會忽略那些信息量很少的某些類型的站點的頁面;

在網絡上有2,199張包含有"googlology"的頁面,Google僅僅列出了624張,而Google聲稱有655張。Google通常拋下較老的頁面,它看上去是選擇性的,比如"googlology",3個月、6個月或者更早以前的頁面中,仍然有一張或更多的頁面被索引,而同時,同期的包含其他該詞的其他頁面被拋下了。

雖然我們沒有非常正規的對該詞作研究,但是似乎是在所給的三個月的時期內,第一次包含有"googlology"的頁面被Google長期的獲留,而同時期的其他包含有"googlology"的頁面被逐站的拋下。因此結果是,我們能在Webmaster World找到使用"googlology"的頁面,特別是它第一次使用的頁面,但是並不能發現在接下來的10、11、12月中所有的包含 "googlology"的頁面。我們能找到Google Village和Microdoc News中包含"googlology"的頁面,但並不是所有的情況,在一月到三月這段時間,在Google數據庫中,我們站點自己的頁面僅出現一次,其他的全部都掄被數據庫收進。

用什麼描繪來比擬Google搜索引擎是什麼樣的呢?我們想Google像是一束巨大的搜索的光芒,很像地球上看到的太陽的光亮。它的光指向它所作用到的地方,and what else is

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved