DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 新手建站不可不知的robots.txt文件
新手建站不可不知的robots.txt文件
編輯:SEO優化集錦     

robots.txt是搜索引擎蜘蛛爬你站點的時候第一個查看的文件,這個文件是告訴搜索引擎的蜘蛛程序,你的站點上哪些文件給看,哪些不給看。現在主流的搜索引擎還是遵守這一規定,合肥SEO就有深刻體會,本站是20號晚上11點左右解禁robots.txt文件允許搜索引擎蜘蛛訪問,21號早上一查百度居然收了,第二天谷歌也收了。

說遠了,言歸正傳。robots.txt是一個文本文件,它必須命名為“robots.txt”並上傳到站點根目錄下,上傳到子目錄裡是無效的,因為搜索引擎漫游器只會在你的域名根目錄中查找這個文件。還是那句話,基礎性知識合肥SEO沒有實力也沒必要在這浪費大家的時間,可以去百度搜索幫助中心和谷歌中文管理員博客看,在這是主要從SEO角度來介紹robots.txt在對網站優化過程中的作用。

一、利於網站優化的robots.txt使用技巧

1、在線建站提供方便之路。當我們將域名解析到服務器,可以訪問站點了,可是這個時候站點還沒有布局好,meta標簽還一塌糊塗。乳溝此時的站點被搜索引擎蜘蛛抓取收錄了,到時再更改就很不利於SEO優化。這時就可以利用robots.txt文件來設置所有搜索引擎蜘蛛不允許查詢站點的所有內容。其語法格式為:

User-agent: *
Disallow: / 

2、定制搜索引擎蜘蛛抓取指定內容,能讓你根據站點情況來選擇怎樣和搜索引擎打交道。這裡有兩層意思。

(1)定制搜索引擎。如果你不屑度娘的所作所為的話,可以這樣子讓它只能對你吹胡子瞪眼。其語法格式為:

User-agent: baiduspider
Disallow: /

注:常見的搜索引擎機器人名稱。

名稱                                              搜索引擎
Baiduspider                               http://www.baidu.com
Scooter                                       http://www.altavista.com
ia_archiver                                 http://www.alexa.com
Googlebot                                  http://www.google.com
FAST-WebCrawler                   http://www.alltheweb.com
Slurp                                           http://www.inktomi.com
MSNBOT                                    http://search.msn.com

(2)定制站點內容。也就是說你可以指定某個目錄允許spider爬行,某個目錄禁止spider爬行。如所有搜索引擎蜘蛛,允許抓取目錄abc下的內容,禁止抓取目錄def下的內容,其語法格式為:

User-agent: * 
Allow: /abc/
Disallow: /def/

3、引導搜索引擎抓取網站內容。這裡最典型的做法有

(1)引導蜘蛛抓取你的網站地圖。其語法格式為:

 User-agent: * 
 sitemap:sitemap-url

(2)防止蜘蛛抓取你的網站重復內容。

4、404錯誤頁面問題。如果你的服務器自定應了404錯誤頁面而在你站點根目錄沒有配置robots.txt文件,那麼搜索引擎蜘蛛會將其視為robots.txt文件,這將影響搜索引擎對你網站頁面的收錄。

二、特定程序建站robots.txt的寫法。這裡只是提供通用的,具體的情況自己斟酌哦。

1、DedeCMS建站的robots.txt文件寫法

User-agent: *
Disallow: /plus/feedback_js.php
Disallow: /plus/feedback.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Disallow: /member

2、WordPress建站的robots.txt文件寫法

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.***.com/sitemap.xml

3、phpcms建站的robots.txt文件寫法

User-agent: *
Disallow: /admin
Disallow: /data
Disallow: /templates
Disallow: /include
Disallow: /languages
Disallow: /api
Disallow: /fckeditor
Disallow: /install
Disallow: /count.php
Disallow: /comment
Disallow: /guestbook
Disallow: /announce
Disallow: /member
Disallow: /message
Disallow: /spider
Disallow: /yp
Disallow: /vote
Disallow: /video

4、discuz論壇的robots.txt文件寫法

User-agent: * 
Allow: /redirect.php 
Allow: /viewthread.php 
Allow: /forumdisplay.php 
Disallow: /? 
Disallow: /*.php

雖然話題很陳舊,可是需要學習的內容還是很多的。有人說設置robots.txt文件會帶來被“有心人”攻擊的危險,作為草根的前鋒來說無所畏懼了,既然是“有心人”了你也沒轍(這不只是建站程序本身,還有服務器安全等等等等)。來自合肥seo: http://www.anhuiseo.org 轉載請注明出處。

感謝 qhpf298 的投稿

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved