在對 robots.txt 文件設置記錄時,要特別注意 Disallow 與 Allow 行的順序是有意義的,spider 會根據第一個匹配成功的 Allow 或 Disallow 行確定是否訪問某個URL。
舉例說明:
允許 spider 訪問 /cgi-bin/ 目錄下的包含 see 的文件夾或URL
User-agent: *
Allow: /cgi-bin/see
Disallow: /cgi-bin/
如果Allow 和 Disallow 的順序調換一下:
User-agent: *
Disallow: /cgi-bin/
Allow: /cgi-bin/see
spider 就無法訪問到 /cgi-bin/ 目錄下的包含 see 的文件夾或URL,因為第一個 Disallow: /cgi-bin/ 已經匹配成功。
關於 Disallow 和 Allow 記錄寫法
Disallow 和 Allow 記錄後面可以是一條完整的路徑,也可以是路徑的非空前綴。例如 “Disallow: /help” 禁止 spider 訪問/help.html、/helpabc.html、/help/index.html;而 “Disallow:/help/” 則允許 spider 訪問 /help.html、/helpabc.html,不能訪問 /help/index.html。