什麼是robots.txt文件?
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。
您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容。
因為剛寫了51是因為二級玉米泛濫和站點垃圾造成被封,去站長站看見“眼鏡蛇”寫的是因為51的robots.txt的原因。
我仔細看了51的robots.txt而最後要駁反“眼鏡蛇”的判斷和定論!
每個站點都必須要有robots.txt嗎?
不一定,看情況
那麼robots.txt是針對任何搜索引擎嗎?
不一定,搜索引擎的概念是什麼先搞明白!至少他有蜘蛛,並且遵循robots.txt語法。像百度,google,yahoo都遵循
官方的robots.txt
robots.txt放在哪裡?
根目錄下,就是通過 http://www.abc.com/robots.txt等浏覽訪問到的!
robots.txt怎麼寫?
請查詢:http://www.robotstxt.org/
因為眼鏡蛇說百度殺了51是因為51的robots.txt
“51.com搜索消失原因是公司想借機炒作?”
(聯系到五一國慶左右百度大規模檢查並封殺作弊網站,開始讓業界以為51.com是百度懲罰的網站之一,
通過某朋友提示到51.com的robots.txt文件,讓大家明白了百度網站只收錄一頁的原因,
並不是搜索引擎人為所至,而是51.com自身原因。 )
郁悶一:五一成“國慶”了!
郁悶二:robots.txt寫法遵循規則,搜索引擎也給予遵循!那麼就是眼鏡蛇以上文章的判定錯誤!不是51的robots.txt錯誤!
分析反駁:
因為51的主頁都在home下或者這個二級玉米下,那麼就這個來說!
1:http://www.51.com/robots.txt 18行
Disallow: /home/ (假設只針對百度,因為google 沒把51怎麼著,而之後分析則套用google的一些現象對比百度,除非他們不是一樣性質的遵循robots.txt的搜索引擎!)
百度給出的定義:
"Disallow:/help/"則允許robot訪問/help.html,而不能訪問/help/index.html
http://www.baidu.com/search/robots.html
那麼就是說在http://www.51.com/home/index.htm/index.html/index.shtml不能被收錄,因為home目錄下無主頁!
http://www.51.com/home/index.htm 404錯誤
http://www.51.com/home/index.html 404錯誤
http://www.51.com/home/index.shtml 404錯誤
http://www.51.com/home/index.php 404錯誤
http://www.51.com/home/ 404錯誤
確定HOME下無默認首頁文件,一般都是404頁,這樣多搜索引擎會很不友好的,那麼當然仔細點的站點都會杜絕被搜索引擎視為死連接。
51的錯法就是"Disallow:/help/"則允許robot訪問/help.html,而不能訪問/help/index.html
判定:Disallow: /home/ 對於百度正確!
因為有:User-agent: * (針對所有搜索)
查看:site:51.com/home ,site:51.com/home/ ,site:www.51.com/home , site:www.51.com/home/
在google都有收錄,而不是屏蔽了home下任何,而只是home下的默認首頁!
目前看不見百度的現象,根據User-agent: * (針對所有搜索)說明百度當時也是這樣!(80%一樣)
再查:site:home.51.com
第一結果為
51 博客網歡迎您home.51.com/ - 類似網頁
似乎home.51.com/下有首頁,似乎home目下也有首頁!
我們點過去則跳轉到http://www.51.com/,因為目前搜索引擎都可以識別和收錄url轉發而非跳轉!
隨便查下home.51.com/的站點訪問使用情況!
比如:第二結果
獻給我最愛的00
home.51.com/home.php?user=nicolelove - 5k - 補充材料 - 網頁快照 - 類似網頁
而你使用“http://nicolelove.51.com ”