robotsrobots.txt是一個協議。
robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網爬蟲排除標准” ( robots exclusion protocol)’。網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
robots.txt文件的作用
當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在搜索機器人就會按照該文件中的內容確定訪問的范圍;如果該文件不在所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。
如果將網站視為酒店裡的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。
但是,robots.txt不是命令,也不是防火牆,如同守門人無法阻止竊賊等惡意闖人者。
robots協議可以屏蔽一些網站中比較大的文件,如圖片、音樂、視頻等內容,節省服務器帶寬;也可以屏蔽站點的一些死鏈接,禁止搜索引擎抓取。