在網上找了一下,似乎只有檢測網址是否被收錄的工具,而沒有檢測收錄的是不是死鏈的工具。這樣只能找辦法找出所有被收錄的死鏈,再盡可能全面地通過百度站長平台死鏈提交工具提交死鏈,網站在百度搜索引擎的可訪性和價值得到提升,以獲得更高的用戶評價。
百度收錄死鏈檢測方法
先在百度找到xenu並下載軟件,或從綠茶軟件園下載也可以,xenu可以模擬爬蟲爬取所有連接。
我們先用這個工具查詢所有被收錄的頁面。
打開軟件,填入簡版百度site網站地址,之所以用簡版是可以減少鏈接查詢時間和內容。
等待檢測完成。
點擊導出為制表符分隔的文件。
導出的文件,我們可以看到格式是:網址+空格+狀態碼
那麼寫一個正則,把需要的網址提取出來就行,比如www.baidu.com下的404頁面就是
/http:\/\/www.baidu.com(.*?)\s404/i
(以http://www.baidu.com開頭,\s代表空格,404,/i代表匹配大小寫)
不會正則怎麼辦?
為了方便大家,我把文件作了修改,大家只要把head改成標致性開頭,state改成狀態碼就行,file改成導出的文件路徑就行。
head怎麼改,舉個例子,
你的網站是http://www.baidu.com/abc.html,那麼你就寫http://www.baidu.com/
你的網站是http://abc.baidu.com/abc.html,那麼你就寫http://abc.baidu.com/
把正則寫入php,在php環境下運行get.php。那麼結果就出來了。
這時你只需要全選,復制到一個txt文件,上傳到網站空間,再到百度站長平台死鏈提交填入文件路徑就行就可以。
我們知道,思路是通過爬取找出所有被收錄的鏈接,然後按條件列出來而已。
這樣的話,只要把開頭輸入的site網址改一下,也可以查詢其他搜索引擎的收錄。
把正則改一下,可以獲得如標題等其他內容。在此就不一一敘述。