搜索引擎的Robots規則

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 搜索引擎的Robots規則

搜索引擎的Robots規則

編輯：SEO優化集錦

robots.txt是一種存放於網站根目錄下的文本文件，用於告訴搜索引擎的爬蟲（spider），此網站中的哪些內容是不應被搜索引擎的索引，哪些是可以被索引。通常認為，robots.txt文件用來搜索引擎對目標網頁的抓取。

robots.txt協議並不是一個規范，而只是約定俗成的，通常搜索引擎會識別這個文件，但也有一些特殊情況。

對於Google來說，使用robots也未必能阻止Google將網址編入索引，如果有其他網站鏈接到該網頁的話，Google依然有可能會對其進行索引。按照Google的說法，要想徹底阻止網頁的內容在Google網頁索引中（即使有其他網站鏈接到該網頁）出現，需要使用noindex元標記或x-robots-tag。例如將下面的一行加入到網頁的header部分。

如果Google看到某一頁上有noindex的元標記，就會將此頁從Google的搜索結果中完全丟棄，而不管是否還有其他頁鏈接到此頁。

搜索引擎的Robots規則

對於百度來說，情況和Google類似，如果有其他網站鏈接目標網頁，也有可能會被百度收錄，從百度的說明頁面上看，百度並不支持像Google那樣通過noindex完全將網頁從索引上刪除，只支持使用noarchive元標記來禁止百度顯示網頁快照。具體的語句如下。

上面這個標記只是禁止百度顯示該網頁的快照，百度會繼續為網頁建索引，並在搜索結果中顯示網頁摘要。

例如，淘寶網目前就通過robots.txt來屏蔽百度爬蟲，但百度依舊收錄了淘寶網的內容，百度搜索“淘寶網”，第一個結果也是淘寶網首頁地址，只是該頁面沒有網頁快照，因此看來，網站只能禁止百度的快照，而無法禁止百度為網頁建索引。

注：本文由站長之家專欄作者月光博客供稿，如需轉載，請注明出處。

上一頁:SEO是有缺憾的藝術適當的SEO破綻要容忍
下一頁:UEO時代：我們應該圍繞用戶需求做優化

SEO優化集錦

淺析新站如何做好網站推廣工作: 不管是企業網站，電商網站，還是個人網站，在信息時代裡都想通過網絡推廣自己的網站，站長們都想自己的
網站權重分配與控制蜘蛛走向: 網站權重最高的是首頁，首頁一般展示給用戶最需要的東西，也是蜘蛛爬去最多的頁面，所以從首頁開始我們就
淺談在做seo時容易忽略的幾點錯誤（一）: 很多朋友聽到seo，或者一講到seo，腦子裡想的肯定就是選取目標關鍵詞、每天堅持發外鏈，就達到了se

DIV CSS 佈局教程網

相關文章