在經常分析網站日志文件的時候,總會發現百度蜘蛛(BaiDu Spider)IP中出現222.77.187.33,經查詢,該IP是位於福建省福州市電信IP,而百度蜘蛛IP是位於北京的聯通IP。在網站日志中分析該IP的抓取行為時候發現,該IP只抓取網頁首頁,經查詢,該IP為站長工具的一個友情鏈接檢測程序,該程序默認模擬百度蜘蛛程序抓取頁面。
站長工具的友情鏈接檢測界面
該工具域名“link.chinaz.com”對應的IP為“222.77.187.33”,位於福建省福州市。
百度蜘蛛IP(根據網站日志文件統計)
123.125.71.* Baiduspider/2.0(百度網頁爬蟲),也包括 Baiduspider-image(百度圖片爬蟲)
61.135.186.* Baiduspider-cpro(百度聯盟爬蟲)
百度蜘蛛IP出現偽裝IP的影響
分析網站日志文件是必不可少的工作,因為網站日志中記錄著詳細的數據,這些數據包括搜索引擎爬蟲數據、服務器運行、用戶浏覽行為數據等等,對這些數據的分析,可以比較全面的掌握網站的情況。
對與SEO工作,針對性分析搜索引擎的爬蟲數據,有助於了解這些蜘蛛的爬行習慣,進一步改進網站。
面對互聯網數以億計的網頁數據,搜索引擎為了增加提高自身爬蟲的工作效率果,往往會使用多個IP或同一IP下的多個蜘蛛程序進行抓取工作,但如果這些IP段或者蜘蛛程序存在偽裝,必然會影響SEO人員對搜索引擎蜘蛛程序行為分析的判斷結果,從而可能會影響SEO決策。
何況這次偽裝的是百度蜘蛛的IP地址,抓取數量也比較多,造成的影響會更加嚴重,經過查詢,很多SEO人員在網絡上詢問:
為什麼百度蜘蛛總是抓取的網站首頁?
為什麼百度蜘蛛總是抓取而不是收錄我的網站?
類似以上的問題在網絡上很多,這些對於結果,對SEO人員的判斷和工作都會造成很大的影響。
來源:何清勇SEO博客
感謝 何清勇 的投稿