robots.txt是搜索引擎蜘蛛爬你站點的時候第一個查看的文件,這個文件是告訴搜索引擎的蜘蛛程序,你的站點上哪些文件給看,哪些不給看。現在主流的搜索引擎還是遵守這一規定,合肥SEO就有深刻體會,本站是20號晚上11點左右解禁robots.txt文件允許搜索引擎蜘蛛訪問,21號早上一查百度居然收了,第二天谷歌也收了。
說遠了,言歸正傳。robots.txt是一個文本文件,它必須命名為“robots.txt”並上傳到站點根目錄下,上傳到子目錄裡是無效的,因為搜索引擎漫游器只會在你的域名根目錄中查找這個文件。還是那句話,基礎性知識合肥SEO沒有實力也沒必要在這浪費大家的時間,可以去百度搜索幫助中心和谷歌中文管理員博客看,在這是主要從SEO角度來介紹robots.txt在對網站優化過程中的作用。
一、利於網站優化的robots.txt使用技巧
1、在線建站提供方便之路。當我們將域名解析到服務器,可以訪問站點了,可是這個時候站點還沒有布局好,meta標簽還一塌糊塗。乳溝此時的站點被搜索引擎蜘蛛抓取收錄了,到時再更改就很不利於SEO優化。這時就可以利用robots.txt文件來設置所有搜索引擎蜘蛛不允許查詢站點的所有內容。其語法格式為:
User-agent: *2、定制搜索引擎蜘蛛抓取指定內容,能讓你根據站點情況來選擇怎樣和搜索引擎打交道。這裡有兩層意思。
(1)定制搜索引擎。如果你不屑度娘的所作所為的話,可以這樣子讓它只能對你吹胡子瞪眼。其語法格式為:
User-agent: baiduspider注:常見的搜索引擎機器人名稱。
名稱 搜索引擎(2)定制站點內容。也就是說你可以指定某個目錄允許spider爬行,某個目錄禁止spider爬行。如所有搜索引擎蜘蛛,允許抓取目錄abc下的內容,禁止抓取目錄def下的內容,其語法格式為:
User-agent: *3、引導搜索引擎抓取網站內容。這裡最典型的做法有
(1)引導蜘蛛抓取你的網站地圖。其語法格式為:
User-agent: *(2)防止蜘蛛抓取你的網站重復內容。
4、404錯誤頁面問題。如果你的服務器自定應了404錯誤頁面而在你站點根目錄沒有配置robots.txt文件,那麼搜索引擎蜘蛛會將其視為robots.txt文件,這將影響搜索引擎對你網站頁面的收錄。
二、特定程序建站robots.txt的寫法。這裡只是提供通用的,具體的情況自己斟酌哦。
1、DedeCMS建站的robots.txt文件寫法
User-agent: *2、WordPress建站的robots.txt文件寫法
User-agent: *3、phpcms建站的robots.txt文件寫法
User-agent: *4、discuz論壇的robots.txt文件寫法
User-agent: *雖然話題很陳舊,可是需要學習的內容還是很多的。有人說設置robots.txt文件會帶來被“有心人”攻擊的危險,作為草根的前鋒來說無所畏懼了,既然是“有心人”了你也沒轍(這不只是建站程序本身,還有服務器安全等等等等)。來自合肥seo: http://www.anhuiseo.org 轉載請注明出處。
感謝 qhpf298 的投稿