前幾日有文章稱由於眾多站長濫發信息做外鏈,導致垃圾博文充斥新浪博客,因此新浪博客開始屏蔽百度蜘蛛,有網友發現大部分新浪博客快照在百度中已經沒有更新,通過查看新浪robots文件(http://blog.sina.om.cn/robots.txt)發現其內容為:
#####################################################
# SINA BLOG 禁止搜索引擎收錄配置文件
# 文件: ~/robots.txt
# 編寫: 阿狼
# 日期: 2005-03-24
#####################################################
#開放百度的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: Baiduspider
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: *
#臨時限制對所有目錄的禁止抓取
Disallow: /
由於該文件中有一句:User-agent: Baiduspider 由此很多站長判定,新浪已經徹底屏蔽百度蜘蛛,今後靠養新浪博客做外鏈的方法已經不可行了。
看到這則消息後,我感覺有幾個疑點:
1、新浪作為世界知名的中文門戶網站,其數據處理能力,違規內容管理方法,都足以應付目前的垃圾信息,而屏蔽百度蜘蛛會導致流量大減,這與新浪的發展戰略不符。
2、該robots文件的日期為:2005-03-24,似乎是新浪博客剛上線的時候建立的文件,如果近期新浪的網管修改過robots的話,日期應該更改為新的日期。
3、熟悉robots寫法的朋友都知道,該robots.txt文件中僅僅是是設置了禁止百度蜘蛛訪問後台文件夾,並沒有其他限制。
基於以上幾點疑慮,我感覺文章中的觀點有失誤的地方,事情應該沒有那麼糟糕,果然在8月18日有網友發現新浪博客悄悄更換了robots.txt文件,內容改為:
#開放百度的搜索引擎的User-Agent代碼
User-agent: Baiduspider
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#開放bing.com的搜索引擎的User-Agent代碼
User-agent: msnbot
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
User-agent: bing
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: *
#臨時限制對所有目錄的禁止抓取
Disallow: /
#限制不能搜索的目錄,Disallow: 為空時開放所有目錄####
##Disallow: /admin/
##Disallow: /include/
##Disallow: /html/
##Disallow: /queue/
##Disallow: /config/
#開放搜索的目錄有####################################
# /
# /advice/
# /help/
# /lm/
# /main/
# /myblog/
可以看出新修改的robots.txt文件中的寫法已經完全支持各類主流搜索引擎抓取博客內容,一個開放的新浪博客又回來了!
針對前幾日出現的情況,個人猜測可能是由於以下幾種原因:
1、前幾日大部分新浪博客被K,可能是由於百度調整算法所導致的。
2、原來的robots.txt文件很可能是新浪博客剛上線得到時候建立的,由於當時google還沒有正式進入中國,中文搜索還是百度一家獨大,因此設置的內容主要針對百度,此後該文件一直沒有修改,直到最近被網友發現,新浪工作人員才想起重新修改。
雖然這次”屏蔽門“只是一場虛驚,但是也給各位站長敲響了警鐘,不要一味的盲目濫發垃圾信息,及污染了互聯網環境又耗費了網絡服務商的資源,小心竭澤而漁!培養10個高質量的博客比養100個垃圾博客更有效!
以上是我的一點見解,希望有朋友轉載的時候保留我的一個鏈接http://www.85999985.com/多一份保留 多一倍運氣,多一份口碑,多一份成功,謝謝!
感謝 421615121 的投稿