概要:主要圍繞著搜索引擎與索引理論分解出,各方面對SEO優化和建站人員更加全方面理解蜘蛛抓取與索引理論相關知識,更好為SEO優化和網站程序人員怎麼做一個蜘蛛抓取與索引喜歡我們網站.(今天我們先圍繞著主題解說爬行抓取理論知識)蜘蛛爬行抓取:1:先了解蜘蛛爬行抓取特征主要是以“快”“全”“准”,下來會詳細介紹他原理,蜘蛛我相信大家都知道,可以比喻成現實生活中蜘蛛,蜘蛛爬行需要蜘蛛網,蜘蛛網可以理解互聯網,他是所有網站與網站形成非常大互聯網,我們就知道想讓蜘蛛喜歡快速爬行抓取你網站盡可能在建站時注意模版/列表/文章頁簡單和用戶體驗.
2:蜘蛛爬行原理特征:一種是深度優先,另一種是寬度優先:(1)為什麼深度優先:我們可以了解成像小孩剛學走路前肯定先會爬行,爬路徑越長越累甚至爬一半就累了想休息就回去,那我們想到網站列表/文章路勁如很長的話蜘蛛爬一半就走,走時候什麼內容都沒帶走。(上面就提到蜘蛛爬行一個特征“快”在這個高速發展時代什麼都是快,效率,結果,當在你網站爬半天都沒找到內容蜘蛛覺得還不如爬其他網站)(2)另一種是寬度優先:這個更容易理解同一樣層次頁面蜘蛛比較喜歡內容好優先爬行抓取。www.dnzg.cn
3:快速引蜘蛛:做SEO優化外鏈專員挑選一些我們資源當中高權重/IP浏覽用戶多/百度天天快照/不會刪除文章平台發一些網址讓百度知道我這個網站已經建好了,很多人投票投分數給網站,(投票投分數越多越好,說明網站曝光度廣)告訴百度蜘蛛你的快來爬行抓取我網站內容。
4:重復內容檢測:{建站時因注意事項(動態地址靜態化)(對於優化來講url直徑越短越重要)}(1):動態地址靜態化我們可以簡單理解成重復內容檢測如 一個動態頁面入口鏈接(URL)如hgxjwbocai.com地址指向不同一個地方,蜘蛛會覺得你這個動態頁面入口裡面這麼多重復鏈接(URL)地址不知道那個鏈接(URL)地址是你想要讓他抓取,蜘蛛會覺得抓取耗我這麼長時間,就不想抓取.
(2)網站路徑為:我們建站時候動態地址可以設置成靜態化有利於蜘蛛抓取速度:網站的目錄結構”可以通過偽靜態正則設置成簡短的“邏輯路徑,不存在的“扁平結構”例如:a/b/c/123.html 為物理路徑,通過設置偽靜態規則 則顯示出來的為/abc-123.html 假的邏輯路徑(靜態不一定是html形式的)“物理路徑”指真實存在的路徑“邏輯路徑”指用正則修改的理想路徑,一般為“扁平結構”顯示,使用靜態化規則可以避免網頁的重復性(url的絕對性)累積權重,避免重復(做靜態話可獲最大分值)
5:地址庫:可以理解成地址與庫概念,蜘蛛“快”“全”“准”爬行抓取互聯網所有URL ,然後URL地址蜘蛛抓取地址放到他想存儲庫裡面去.這就叫地址庫
本人見解分析http://blog.sina.com.cn/s/blog_c2c5f42f0101db41.html博客交流地址轉載請保留地址,謝謝喜歡學習SEO優化愛好者們支持