SEO實戰教程如何寫robots.txt

DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO相關 >> SEO技術 >> SEO實戰教程如何寫robots.txt

編輯：SEO技術

SEO實戰教程如何寫robots.txt

robots.txt是你對搜索引擎制定的一個如何索引你的網站的規則。通過該文件，搜索引擎就可以知道在你的網站中哪些文件是可以被索引的，哪些文件是被拒絕索引的，我們就可以很方便地控制搜索索引網站內容了。

第一：什麼是robots.txt?

這是一個文本文件，是搜索引擎爬行網頁要查看的第一個文件，你可以告訴搜索引擎哪些文件可以被查看，哪些禁止。當搜索機器人(也叫搜索蜘蛛)訪問一個站點時，它首先會檢查根目錄是否存在robots.txt，如果有就確定抓取范圍，沒有就按鏈接順序抓取。

第二：robots.txt有什麼用

為何需要用robots.txt這個文件來告訴搜索機器人不要爬行我們的部分網頁，比如：後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。說到底了，這些頁面或文件被搜索引擎收錄了，用戶也看不了，多數需要口令才能進入或是數據文件。既然這樣，又讓搜索機器人爬行的話，就浪費了服務器資源，增加了服務器的壓力，因此我們可以用robots.txt告訴機器人集中注意力去收錄我們的文章頁面。增強用戶體驗。

1，用robots屏蔽網站重復頁

很多網站一個內容提供多種浏覽版本，雖然很方便用戶卻對蜘蛛造成了困難，因為它分不清那個是主，那個是次，一旦讓它認為你在惡意重復，你就慘了

User-agent： *

Disallow： /sitemap/ （禁止蜘蛛抓取文本網頁）

2，用robots保護網站安全

很多人納悶了，robots怎麼還和網站安全有關系了？其實關系還很大，不少低級黑客就是通過搜索默認後台登陸，以達到入侵網站的目標

User-agent： *

Disallow： /admin/ （禁止蜘蛛抓取admin目錄下所有文件）

3，防止盜鏈

一般盜鏈也就幾個人，可是一旦被搜索引擎“盜鏈”那家伙你100M寬帶也吃不消，如果你做的不是圖片網站，又不想被搜索引擎“盜鏈”你的網站圖片

User-agent： *

Disallow： .jpg$

4，提交網站地圖

現在做優化的都知道做網站地圖了，可是卻沒幾個會提交的，絕大多數人是干脆在網頁上加個鏈接，其實robots是支持這個功能的

Sitemap： http://bbs.moonseo.cn/sitemaps/sitemaps_1.xml

5，禁止某二級域名的抓取

一些網站會對VIP會員提供一些特殊服務，卻又不想這個服務被搜索引擎檢索到

User-agent： *

Disallow： /

以上五招robots足以讓你對搜索引擎蜘蛛掌控能力提升不少，就像百度說的：我們和搜索引擎應該是朋友，增加一些溝通，才能消除一些隔膜。

第三：robots.txt基本語法

1、robots.txt的關鍵語法

　a.User-agent: 應用下文規則的漫游器，比如Googlebot,Baiduspider等。

　b.Disallow: 要攔截的網址,不允許機器人訪問。

　c.Allow: 允許訪問的網址

　d.“*” : 通配符—匹配0或多個任意字符。

　e.“$” : 匹配行結束符。

　f.“#” : 注釋—說明性的文字,不寫也可。

　g.Googlebot: 谷歌搜索機器人(也叫搜索蜘蛛)。

　h.Baiduspider: 百度搜索機器人(也叫搜索蜘蛛)。

　i.目錄、網址的寫法:都以以正斜線 (/) 開頭。

如

Disallow:/

Disallow:/images/

Disallow:/admin/

Disallow:/css/

2、robots.txt的具體用法

　a.允許所有的robot訪問

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

或者建一個空文件”robots.txt”即可。

　b.僅禁止某個機器人訪問您的網站，如Baiduspider。

User-agent: Baiduspider

Disallow: /

　c.僅允許某個機器人訪問您的網站，如Baiduspider。

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

　d.禁止訪問特定目錄

User-agent: *

Disallow: /admin/

Disallow: /css/

Disallow:

要攔截對所有包含問號 (?) 的網址的訪問(具體地說，這種網址以你的域名開頭、後接任意字符串，然後接問號，而後又接任意字符串），使用以下內容：

User-agent: Googlebot

Disallow: /*?

要指定與某個網址的結尾字符相匹配，就用 $。例如，要攔截以 .xls 結尾的所有網址，就用以下內容：

User-agent: Googlebot

Disallow: /*.xls$

你可以將此模式匹配與 Allow 指令配合使用。例如，如果 ? 代表一個會話 ID，那麼你可能希望排除包含 ? 的所有網址，以確保 Googlebot 不會抓取重復網頁。但是以 ? 結尾的網址可能是你希望包含

在內的網頁的版本。在此情況下，你可以對你的 robots.txt 文件進行如下設置：

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: /*? 指令會阻止包含 ? 的所有網址(具體地說，它將攔截所有以您的域名開頭、後接任意字符串，然後接問號，而後又接任意字符串的網址)。

Allow: /*?$ 指令將允許以 ? 結尾的任何網址(具體地說，它將允許所有以您的域名開頭、後接任意字符串，然後接 ?，? 之後不接任何字符的網址)。

一般網站查看robots.txt文件的方法是主頁後面加robots.txt就可以，比如淘寶網的就是http://www.taobao.com/robots.txt。請注意，僅當你的網站包含不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果你希望搜索引擎收錄網站上所有內容，就不要建立robots.txt文件。

上一頁:吉安SEO淺談robots文件！
下一頁:馬栓：SEO外鏈工作總匯以及外鏈工作安排

SEO技術

網站如何做301跳轉: 關於網站做301跳轉的方法，你百度一下可以得出好多答案和好多方法，
如何利用SEO技術做好企業危機公關？: 做企業和做人一樣，不管你做得再好、再牛，也有人不認可你，想辦法黑你
資深的SEO人員應該知道的搜索引擎指令: SEO資源網收集整理了一套seo人員常用的搜索引擎指令,分享給大家

SEO優化 SEO技術淘寶SEO 關於SEO SEO百科 SEO工具

小編推薦

SEO尋找外鏈資源的終極技巧資深的SEO人員應該知道的搜索引擎指令優秀的SEO人應該關注的哪些網站移動搜索優化和PC搜索優化的區別百度高級搜索技巧 SEO總結：百度算法大揭秘與最新算法調整網站如何做301跳轉吉安SEO淺談robots文件！學習SEO技術必須掌握的代碼 SEO站內優化秘密『做為SEO運營的你了解多少？』

DIV CSS 佈局教程網

第一：什麼是robots.txt?

第二：robots.txt有什麼用

第三：robots.txt基本語法

相關文章