DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁SEO優化 >> SEO優化集錦 >> 網站優化:搜索引擎的網頁去重算法大解析
網站優化:搜索引擎的網頁去重算法大解析
編輯:SEO優化集錦     

天之道,其猶張弓欤?高者抑之,下者舉之en馀者損之,不足者補之,天之道損有馀而補不足。人之道則不然,損不足以奉有馀。孰能有馀以奉天下,唯有道者。(道法自然)自然規律,就猶如射箭一樣,弓位高了就往下壓一壓(高者抑之),弓位低了就往上抬一抬(下者舉之)。用多余去補不足。人之道(規律),則不是這樣。它是損不足去奉多余。什麼樣的人才能用有余去奉天下呢?唯有有道者。因此聖人為而恃,功成而不處,不會去想在眾人面前立賢名,以均天下。搜索所遵循就是這樣的一個規律。

據統計表明,近似重復網頁的數量占總網頁數量的比例高達全部頁面的29%,而完全相同的頁面大約占全部頁面的22%,即互聯網頁面中有相當大的比例的內容是完全相同或者大體相近的重復網頁有多種類型,這些重復網頁有的是沒有一點兒改動的副本,有的在內容上稍做修改,比如同一文章的不同版本,一個新一點,一個老一點,有的則僅僅是網頁的格式不同(如HTML、Postscript)。內容重復可以歸結為以下4種類型。

·  類型一:如果兩篇文檔內容和布局格式上毫無差別,則這種重復可以叫做完全重復頁面。

·  類型二:如果兩篇文檔內容相同,但是布局格式不同,則叫做內容重復頁面。

·  類型三:如果兩篇文檔有部分重要的內容相同,並且布局格式相同,則稱為布局重復頁面。   

·  類型四:如果兩篇文檔有部分重要的內容相同,但是布局格式不同,則稱為部分重復頁面。

所謂近似重復網頁發現,就是通過技術手段快速全面發現這些重復信息的手段,如何快速准確地發現這些內容上相似的網頁已經成為提高搜索引擎服務質量的關鍵技術之一。

發現完全相同或者近似重復網頁對於搜索引擎有很多好處。

1.  首先,如果我們能夠找出這些重復網頁並從數據庫中去掉,就能夠節省一部分存儲空間,進而可以利用這部分空間存放更多的有效網頁內容,同時也提高了搜索    引擎的搜索質量和用戶體驗。

2.  其次,如果我們能夠通過對以往收集信息的分析,預先發現重復網頁,在今後的 網頁收集過程中就可以避開這些網頁,從而提高網頁的收集速度。有研究表明重    復網頁隨著時間不發生太大變化,所以這種從重復頁面集合中選擇部分頁面進行    索引是有效的。

3.  另外,如果某個網頁的鏡像度較高,往往是其內容比較受歡迎的一種間接體現也就預示著該網頁相對重要,在收集網頁時應賦予它較高的優先級,而當搜索引擎系統在響應用戶的檢索請求並對輸出結果排序時,應該賦予它較高的權值。

4.  從另外一個角度看,如果用戶點擊了一個死鏈接,那麼可以將用戶引導到一個內容相同頁面,這樣可以有效地增加用戶的檢索體驗。因而近似重復網頁的及時發現有利於改善搜索引擎系統的服務質量。

實際工作的搜索引擎往往是在爬蟲階段進行近似重復檢測的,下圖給出了近似重復檢測任務在搜索引擎中所處流程的說明。當爬蟲新抓取到網頁時,需要和已經建立到索引內的網頁進行重復判斷,如果判斷是近似重復網頁,則直接將其拋棄,如果發現是全新的內容,則將其加入網頁索引中。

搜索引擎優化   原文地址:http://www.y26.cn/seo/2013/0802/598.html

注:相關網站建設技巧閱讀請移步到建站教程頻道。

收藏本文

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved