Robots文件是搜索引擎訪問網站時第一個要讀取的文件,它告訴搜索程序服務器上哪些內容可以抓取,哪些不用抓取。
目前網站的robots文件裡面的抓取規則已經日趨完善,比如禁止了網頁中圖片的抓取,禁止蜘蛛抓取一些會員隱私(個人簡歷)頁面、一些無用頁面(之前的推廣頁面)、樣式表文件等,但是仍然有部分頁面並不需要蜘蛛程序的抓取,這部分頁面只是面向用戶的,搜索引擎抓取了並沒有什麼意義,瓜分了頁面的權重。
一、網站的404頁面
每個網站都存在一些錯誤頁面,404頁面的存在就是為了當用戶訪問了錯誤頁面的時候能夠將用戶引導到正確的頁面上,防止網站流量的流失。而一個頁面較多的網站肯定存在很多的錯誤頁面,這就導致存在很多相似的404頁面,如下圖所示:
所以,一旦404頁面太多,而還讓搜索引擎去收錄,就會導致網站把權重分給這些404頁面,所以應該屏蔽404頁面。
添加規則:Disallow:/404.html
二、網站部分導航頁面
網站底部的一些導航頁面,如“市場合作”“網站聲明”“付費方式”等都是針對客戶的頁面,幾乎沒有用戶通過搜索引擎上搜索這些頁面並到達網站,而且這些導航頁面是全站顯示的,所有的內容頁面都存在,同樣的也要分散這些頁面的權重。
這部分頁面都是位於同一目錄/main下,該目錄下除保留部分頁面需蜘蛛進行抓取外,其他頁面可以都禁止,保留頁面為:“關於我們”(main/aboutus.asp),友情鏈接(main/friendlink.asp)。此外“資費標准”“付費方式”頁面位於企業會員中心頁面,這些頁面也沒有必要對搜索引擎開放。
添加規則:
Allow:/main/aboutus*
Allow:/main/friendlink*
Allow:/main/recruitmeeting*
Allow:/main/investigation*
Disallow:/main/
Disallow:/company/companyapplymember*
將現有規則中最後一條刪除:disallow: /main/refuse*
將新添加的兩條“Allow”規則放到disallow命令的前面。
通過一些對搜索引擎抓取意義不大的頁面,將首頁和一些內容頁面的權重更加集中。
版權所有:伍億人才招聘網http://www.51rc.com,轉載請注明出處。
感謝 伍億人才招聘網 的投稿