前幾天寫了robots.txt的規則誤區並介紹百度和Google的robots工具的使用,介紹了幾個robots.txt文件的規則的誤區,然後發現其實不止那些,還有很多大家沒有注意的誤區。
今天重新列舉一下常見的robots.txt實際使用中的誤區:
誤區1.Allow包含的范圍超過Disallow,並且位置在Disallow前面。
比如有很多人這樣寫:
User-agent: *
Allow: /
Disallow: /mulu/
想讓所有蜘蛛抓取本站除/mulu/下面的url之外的所有頁面,禁止抓取/mulu/下面的所有url。
搜索引擎蜘蛛執行的規則是從上到下,這樣會造成第二句命令失效。也就是說禁止抓取/mulu/目錄這條規則是無效的。正確的是Disallow應該在Allow之上,這樣才會生效。
誤區2.Disallow命令和Allow命令之後沒有以斜槓”/”開頭。
這個也很容易被忽視,比如有人這樣寫Disallow: 123.html ,這種是沒有效果的。斜槓”/”表示的是文件對於根目錄的位置,如果不帶的話,自然無法判斷url是哪個,所以是錯誤的。
正確的應該是Disallow: /123.html,這樣才能屏蔽/123.html這個文件,這條規則才能生效。
誤區3.屏蔽的目錄後沒有帶斜槓”/”。
也就是比如想屏蔽抓取/mulu/這個目錄,有些人這樣寫Disallow:/mulu。那麼這樣是否正確呢?
首先這樣寫(Disallow: /mulu)確實可以屏蔽/mulu/下面的所有url,不過同時也屏蔽了類似/mulu123.html這種開頭為/mulu的所有頁面,效果等同於Disallow: /mulu*。
正確的做法是,如果只想屏蔽目錄,那麼必須在結尾帶上斜槓”/”。
文章來自逍遙博客,本文地址:http://liboseo.com/1193.html,轉載請注明出處和鏈接!