概要:搜索引擎分為四大部分:1、抓取 2、過濾 3、索引 4、查詢,今天主要主題是了解引擎過濾整個流程,他是搜索引擎裡面很難理解一個步驟流程.如解說完,SEO優化愛好者們理解了說明你對整個搜索引擎熟悉,你就知道怎麼去優化一個網站。
一:過濾:這兩個字在我們現實生活中很好理解就是濾掉一些我們不喜歡事物或者人,在搜索引擎裡面也是一樣濾掉一些百度谷歌不喜歡的內容或沒有價值內容,因為搜索引擎搜出來結果是能幫我們用戶解決問題或找到相關東西.接下來詳細解說過濾有幾點:
1、搜索引擎會過濾去除網站鏈接地址(URL)地址庫中重復的網站鏈接地址(URL),以前抓取一樣網站鏈接地址(URL)會在百度谷歌自己數據庫刪除就是為減少占用內存,如網站信任度越高越不會被刪除掉。
2、一個網頁對於其他網頁投票分數是有限的(外鏈專員因注意事項),如按100分來說你把A頁面裡有兩個B1和B2鏈接地址(URL)100/2=50,這樣我們就知道一個頁面裡面盡可能只放一個鏈接地址(URL)才能得到比較高分數.dnzg.cn
3、錨文本的多樣性:站內/外鏈:就是網站主做關鍵詞錨文本外增加一些關鍵詞長尾詞錨文本,同一個網頁出現多個URL相同的錨文本,抓取的URL放到搜索引擎地址庫,進行過濾篩選
4、搜索引擎會過濾去除被K網站的URL(在被K的網站發外鏈URL鏈接可能導致我們網站遭受懲罰,因為被K的網站,百度已經不認同,不收錄了,傳遞不了分值給我們,我們不要在外鏈網站平台發網址)就是說明我們發外鏈時候用站長工具查下外鏈網站平台是否被K或不快照和收錄,(外鏈專員注意事項)
5、更新頻率策略生效:主要講站內文章以前被抓取或沒抓取都判斷下,為減少抓取時間他首先判斷你網站hgxjwbocai.com網頁應答頭是否有發生變化,有變化才會繼續往下讀取沒有就不在繼續,(站內更新固定更新時間與頻率數量好有理由蜘蛛判斷時間短)
6、robots 是一個協議,是而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麼文件是可以被查看的。
當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。如更改robots 一般72小時的生效時間(權重高、生效時間相對比較快;也可以在百度站長工具robots工具 生成進而加快生效速度)Windows跟liunx的robots設置 是有“大小寫區別的”請注意(簡單了解就是robots限制蜘蛛抓取內容)
7、搜索引擎會簡單過濾原創度判斷:這個時候我們在建設更新文章時候盡量原創一些內容,現在全世界都喜歡創新有自己見解東西.搜索引擎也是一樣你寫獨一無二內容他會很喜歡你網站.
8、無法判斷URL會自動放棄:當一個網站動態要重組的URL復雜性又長,搜索引擎無法做出判斷無法寫入則自動放棄,比方理解:現在在高速發展時代誰都要速度速度簡單明了,就相當於你是內行人有一個項目想找個有錢老板來投資,寫一份策劃方案寫很多篇很復雜讓老板看都看不懂,都不願意看下去,你說他會投資你項目?一樣道理我們要寫一些讓百度谷歌喜歡網站代碼簡單明了路勁短的有利於讀取。
以上內容是我個人理解與分析,寫出來跟SEO優化和程序技術人交流分享探討一些技術問題,好讓我們更加懂得如何做好一個優秀有技術含量IT人,我本人交流分享博客地http://blog.sina.com.cn/s/blog_c2c5f42f0101dbcp.html 轉載請保留地址,寫一篇文章不容易,更何況寫一篇技術類文章.