在前天的新英格蘭搜索引擎營銷會議上,Google 抓取系統部門總監Dan Crow 透露了許多有關Google 搜索引擎索引網站方面的信息。搜索引擎周邊根據Jill Whalen 的總結,選取部分“猛料”摘錄如下。
Google 搜索引擎爬蟲索引網站的過程
一般來說,Google 爬蟲會先查看網站根目錄的robots.txt 文件,由此來決定爬行哪些目錄,之後才開始抓取robots.txt 中允許的頁面,最後才順著當前頁面的鏈接爬行到其他頁面。令人咋舌的是,搜索引擎爬蟲評價某個頁面的因素竟然有200個之多,而“相關性”則是其中的一個重要因素。
關於PageRank
Dan 說,PageRank 在Google 索引結果的排名中仍然具有非常重要的作用。需要注意的是,這裡所說的PageRank 並非Google 工具條上看到的PR 值,而是指Google 內部使用的PageRank。
即將支持的標簽:unavailable_after
搜索引擎周邊曾經介紹過一些有用的Google 爬蟲支持的常用 標簽。這一次,Dan 提前透露了一個Google 爬蟲即將支持的標簽——unavailable_after。通過它可以告知搜索引擎爬蟲在什麼時間之後不要再索引某個頁面。如果網頁上的內容具有實效性,unavailable_after標簽將非常有用。
關於網站地圖文件Sitemaps
網站的Sitemaps 文件有助於網站頁面被Google 索引,但由於Sitemaps 的PR 值往往很低,所以目前在Google 搜索引擎中的權重還相對較低。不過,Dan 承諾,這一現象在以後將會有所改變。
對於Flash 網站與使用Ajax 呈現內容的網站,一如英文Google webmaster blog所說,Dan 建議在頁面上使用sIFR 排版技術。
關於Google補充材料
Google 將會更頻繁的索引被標記為補充材料的網頁。在Google 搜索結果頁面,盡管補充材料頁面在目前來說排名要靠後於正常的索引頁面,但兩者之間的差別將會越來越小。要使自己的網頁走出補充材料的最根本方法就是增加該頁面的外鏈。在這方面,散人建議參考月光翻譯的《逃離Google補充材料的五個技巧》。
版權所有,轉載時必須以鏈接的形式注明以下聲明:
原載於 搜索引擎周邊
鏈接地址 http://www.eryi.org/SearchEngines/google-robots-crawler.html