前些日子遇到一個朋友他問了我一個問題:“我們的網站只收錄abc.XXX.com,的二級目錄類域名,不收錄www.xxx.com的怎麼辦?”我看到這個問題時候我當時下意識的說了句robots屏蔽就好了,然後我更具他們各個二級站點例如合肥站上海站寫了一個robots文件發給她如下:
User-agent: *
Disallow: /abc/
但是緊接著方法都被一一放棄了,因為統統行不通。因為他們的網站所有二級目錄和主目錄在ftp中都是在同一文件夾下,然後我又總結了他們網站出現的問題。
1.網站不帶www的二級域名已經收錄過萬,且每日都有蜘蛛爬取,但帶www的主域名至今只收錄二三十個,且還有下降的趨勢,所以想讓網站收錄帶www的主域名頁面。
2.網站所有頁面在同一個文件夾下無法利用robots屏蔽路徑方式屏蔽頁面。
雖然我在百度查詢了很久但是卻並未查到過多有用信息,大多都是和我第一次給出的答案一樣,但最後我們還是想出了辦法解決了這個問題,那關於屏蔽二級目錄收錄問題,總結了以下幾點可供選擇。
1.如果需要屏蔽的頁面和主頁面是在不同的文件夾下我們可以直接采取我上面提到的直接robots文件屏蔽,寫法例如Disallow: /abc/之類的直接robots屏蔽方法。
2.無法利用robots禁止搜索引擎收錄某個二級域名的,最好的方法就是301,對於有用的頁面將所有的二級目錄類域名重定向,無用的就直接刪除。
3.法,將而與目錄分配到不同的空間下利用robots屏蔽。
4.個判斷程序,讓要屏蔽的二級域名下面有一個robots.txt文件。abc.xxx.com/robots.txt,然後在利用robots屏蔽。此方法我沒有試過我是看到夫唯老師很久前給別人的一個建議,就理論而言是可以行的通的。
對於在網站建設中如何避免此類不需要收錄的二級域名我羅列了一下幾點如果有不完善的歡迎大家補充。
1.虛擬主機時空間自帶了二級域名地址且地址已經收錄的話最直接的辦法就是站內開放的鏈接上要統一url規范不要給不想收錄的二級域名任何的入口。
2.須分二級目錄時,將主目錄和二級目錄分開在不同的文件夾。
3.名解析時候直接采用三W的的域名采用主域名。