記得很早以前,那個時間新浪屏蔽百度蜘蛛的事件傳得很大,其實你主要是學會了ROBOTS.TXT的寫法,那就簡單的了,兩下就認出了這事的真假。所以說學好技術,可以更好的知道真相。
首先,我們先來認識我們親愛的蜘蛛們吧:
國內的搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛: Sosospider
國外的搜索引擎蜘蛛
google蜘蛛: googlebot
yahoo蜘蛛:Yahoo! Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):msnbot
Robots.txt的幾個常用英文意思
• User-Agent: 適用下列規則的漫游器
• Allow: 充許被抓取的網頁
• Disallow: 要攔截的網頁
Robots.txt的兩個常用符號
“*”: 匹配0或多個任意字符(也有所有的意思)
“$”:匹配行結束符。
介紹得差不多了,下面來進入正題,Robots.txt:
一、充許所有的蜘蛛抓取:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(*號可以理解為所以的意思)
二、禁止所有的robot抓取
User-agent: *
Disallow: /
三、禁止某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介紹得有)
Disallow: /
四、只充許某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介紹得有)
Disallow:
User-agent: *
Disallow: /
上半部分是禁止該蜘蛛抓取,下半部分是充許所有,總體意思就是禁止此蜘蛛,充許其它蜘蛛。
五、禁止蜘蛛抓取某些目錄
如禁止抓取admin和manage目錄
User-agent: *
Disallow: /admin/
Disallow: /manage/
六、禁止蜘蛛特定後綴文件,這個用“*”號
如禁止抓取.htm的文件
User-agent: *
Disallow: *.htm(*號後面然後是點文件名,如.asp,.php)
七、僅充許抓取特定後綴文件,這個用“$”號
如僅充許.htm的文件
User-agent: *
Allow: .htm$
Disallow: /
(圖片也可以參考第六條和第七條這個樣子)
八、禁止抓取動態網頁
User-agent: *
Disallow: /*?*
這個在論壇很有用,一般偽靜態後,就不需要搜索引擎再收錄其動態地址了。做論壇的朋友們注意了。
九、聲明網站地圖sitemap
這個告訴搜索引擎你的sitemap在哪
Sitemap: http://你的域名/sitemap.xml
做完這些我們如何檢查我們的robots.txt這個文件的有效性呢?推薦使用 Google管理員工具,登錄後訪問“工具 ->分析 robots.txt”,檢查文件有效性。
原創文章請注明轉載自:武漢seo-sem說
本文地址:http://www.semsay.com/seo/37.html
感謝 jinc 的投稿