做seo我們首先需要了解的是搜索引擎協議,即:robots.txt都有哪些規范。只有對這些規范了如指掌,根據搜索引擎規則做seo,那我們的工作將會事半功倍。而且現在很多黑帽seo都是利用robots.txt禁止協議來做一些違規操作,所以seo必須清楚了解robots規則。robots.txt禁止協議,快速了解robots是什麼意思
robots文件是一個純文本文件,在搜索引擎蜘蛛眼中它是一個網站的哨兵門衛。從SEO角度來說robots文件是一個網站不可或缺的文件,站長通過robots文件來告訴搜索引擎蜘蛛網站中哪些目錄文件可以抓取,哪些文件禁止抓取。robots文件一般位於網站的根目錄下,蜘蛛在爬取一個網站時,會首先訪問該網站的robots文件,以確定網站允許抓取的范圍,若robots文件內容為空,蜘蛛則認為可以抓取網站的所有目錄文件。也可以簡單的認為只有在禁止搜索引擎抓取網站的某些內容時,robots文件才有意義。
robots文件編寫規則
簡單來說robots包含2部分內容,一部分是通過User-agent說明對哪些搜索引擎生效。一部分是通過Disallow標明哪些目錄文件禁止抓取;通過Allow標明哪些目錄文件允許抓取,由於不指定便是允許抓取,所以Allow單獨寫沒有意義,需要和Disallow配合使用。下面通過具體的例子說明robots的寫法。
User-agent:*
Disallow:/
說明:通配符*表示對所有搜索引擎生效;“/”表示網站根目錄。整個寫法的含義就是禁止所有搜索引擎抓取網站內容。
注:有些新建的網站由於需要調試的原因,通過robots文件的設置拒絕某個甚至所有搜索引擎的抓取,待網站調試完畢後再修改robots文件,放開抓取。衡水老康SEO忠告這樣做的站長朋友,該方法是絕對不可取的。站點屏蔽搜索引擎一段時間哪怕只有一天,在解除封禁後是想讓搜索引擎收錄網站內容需要一個特別漫長的過程更嚴重的有可能造成搜索引擎拒絕收錄的後果。關於這一問題請參看《通過robots文件臨時拒絕搜索引擎抓取不可取》(地址:http://www.hengshuiseo.cn/seojichu/14.html)
User-agent:*
Disallow:
說明:這種寫法等同於沒有robots文件。
User-agent:Baiduspider
Disallow:/
User-agent:*
Disallow:
說明:禁止百度抓取網站任何內容
Disallow:/admin/
Disallow:/test*/
Disallow:/a/a.html
Disallow:/b/*.html
說明:禁止搜索引擎抓取admin目錄,禁止抓取以test開頭的所有目錄,禁止抓取a目錄下的a.html文件,禁止抓取b目錄下所有的html文件。
User-agent:*
Disallow:/admin/
Allow: /admin/c/
說明:只允許抓取admin目錄中的c目錄
以下是老康個人博客(http://www.hengshuiseo.cn)robots文件寫法,供參考
User-agent: *
Sitemap: /sitemap.xml
Disallow: /zb_system/
Disallow: /zb_install/
Disallow: /zb_users/
Allow: /zb_users/upload/
以上幾個例子是比較常用的幾種robots文件語法,組合使用可以滿足大部分站長朋友的需求。較為復雜的robots寫法可以參看menpiao.tuniu.com/robots.txt。