很早就答應給啊彬寫一篇文章的,感謝他對我的一個幫助,但是一直到現在也沒有寫出來,前幾天看到卓少問了一個問題關於robots的問題,給大家整理了一下robots的一些情況。robots.txt文件放在網站根目錄下,是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。每個網站都應該有一個robots,它告訴搜索引擎我的網站裡有哪些東西是不允許抓取的,有哪些頁面是歡迎爬行與抓取。
robots的幾種作用:
1.屏蔽所有的搜索引擎抓取信息,如果你的網站只是你的私密性的網站,不想太多的人知道的話,可以利用robots屏蔽掉所有的搜索引擎,例如你寫的私人博客。你就可以把搜索引擎全都屏蔽掉
User-agent:*
Disallow: /
2.如果你只想某一個搜索引擎抓取你的信息,這個時候就可以用robots進行設置,例如:我只想我的網站被百度這個收錄,而不想被別的搜索引擎收錄。就可以利用robots進行設置
User-agent: Baiduspider
Allow:
User-agent: *
Disallow: /
3.可以利用各種通配符對網站進行相對應的調配,例如我不想網站抓取我的所有圖片,這個時候就可以運用$來進行設置。一般我們常見的圖片的格式是BMP、JPG、GIF、JPEG等格式。這個時候設置就是:
User-agent: *
Disallow: /.bmp$
Disallow: /.jpg$
Disallow: /.gif$
Disallow: /.jpeg$
4.還可以利用*來屏蔽掉相關的URL,有些網站不允許搜索引擎抓取動態地址的時候可以利用這個*通配符來進行匹配設置。一般情況下動態URL的有一個特點就是有“?”這個時候我們就可以利用這個特性來進行匹配的屏蔽:
User-agent: *
Disallow: /*?*
5.如果網站改版了,整個文件夾都沒有了的時候,這個情況下就要考慮屏蔽掉整個文件夾。我們可以運用robots來對這整個的文件夾進行屏蔽,例如網站裡的ab文件夾因改版全都給刪掉了,這個時候就可以這樣子設置:
User-agent: *
Disallow: /ab/
6.如果網站裡有一個文件夾不想被收錄,但是在這個文件夾裡面有一個信息是允許被收錄。那可以運用robots的allow進行設置。例如我網站裡ab文件夾不允許搜索引擎抓取,但是在ab文件夾裡面又有一個信息cd是允許被抓取的,這個時候就可以運用robots進行設置:
User-agent: *
Disallow: /ab/
Allow:/ab/cd
7.可以在robots裡定義出網站地圖的位置,有利於網站的收錄。
sitemap:<網站地圖的位置>
8.有的時候你會發現我的網站裡設置了robots但是還發現其收錄了這個URL地址,這個的原因是因為這個搜索引擎的蜘蛛是通過URL爬行到網頁的一般 google抓取這樣子的URL的時候是不帶title與描述的,但是百度抓取這個URL會帶上title與描述,所以有很多有人會說我設置了 robots但是沒有效果。實際情況是抓取了這個鏈接而沒有收錄這個頁面內容。
網站的首頁權重是最高的,權重是靠鏈接傳遞的,我們設置robots是為了更好的把權重傳遞給那些需要有很高權重的頁面,而有一些頁面則是不需要搜索引擎抓取和爬行的。
本文版權歸石頭誋所以,轉載請保留http://www.mobkid.com/鏈接