搜索引擎最佳化(又稱搜索引擎優化, 其英文叫 Search Engine Optimization,簡稱SEO)是一種利用搜索引擎的搜索規則來提高目的網站在有關搜索引擎內的提名的方式。由於不少研究發現,搜索引擎的用戶往往只會留意搜索結果最開首的幾項條目,所以不少網站都希望透過各種形式來影響搜索引擊的排序。當中尤以各種依靠廣告維生的網站為甚。
所謂“針對搜索引擎作最佳化的處理”,是指為了要讓網站更容易被搜索引擎接受。搜索引擎會將網站彼此間的內容做一些相關性的資料比對,然後再由浏覽器將這些內容以最快速且接近最完整的方式,呈現給搜尋者。
搜索引擎優化對於任何一家網站來說,要想在網站推廣中取得成功,搜索引擎優化都是至為關鍵的一項任務。同時,隨著搜索引擎不斷變換它們的排名算法規則,每次算法上的改變都會讓一些排名很好的網站在一夜之間名落孫山,而失去排名的直接後果就是失去了網站固有的可觀訪問量。所以每次搜索引擎算法的改變都會在網站之中引起不小的騷動和焦慮。可以說,搜索引擎優化是一個愈來愈復雜的任務。
早期搜索引擎
網站管理員以及網絡內容提供者在90年代中期開始使用搜索引擎來優化網站。此時第一代搜索引擎開始對因特網分門別類。一開始,所有網站員得做的事只有提交所屬網站到各家搜索引擎。這些引擎跑一些蜘蛛機器人(spider)──撷取於網頁程式中找到連至其他網頁的連結──並且儲存所找到的資料。過程中同時包含了將網頁下載並儲存至搜索引擎擁有者的服務器中,這時有另外一個軟件稱為Indexer來撷取頁面中不同的資訊——頁面中的文字、文字的位置、文字的重要性以及頁面所包含的任何連結,之後將頁面置入清單中等待過些時日後,再來撷取一次。隨著線上文件數目日積月累,越來越多網站員意識到基本搜尋 (organic search,亦翻為隨機搜尋[1]) 條目的重要性,所以較普及的搜索引擎公司開始整理他們的列表,以顯示根據最洽當適合的網頁為優先。搜索引擎與網站員的戰爭就此開始,並延續至今。
一開始搜索引擎是被網站管理員本身牽著走的。早期版本的搜尋算法有賴於網站員提供資訊,如關鍵字的基本定義標簽(meta tag)。當某些網站員開始濫用標簽,造成該網頁排名與連結無關時,搜索引擎開始捨棄標簽並發展更復雜的排名算法。由於數繁不及備載,僅列舉數個分析目標如下:
在標題簽裡的文字,如:引擎域名,如:wikipedia.org 統一資源定位符下屬的目錄與檔名,如:'軟盤、軟碟' '硬盤、硬盤' 圖形連結的Alt屬性,如:由於這些都還在網站員的眼皮下打滾,搜索引擎陸陸續續碰到諸多濫用與操縱排名等難題。為了要提供較好的結果給使用者,搜索引擎必須調適到讓他們的搜索結果表現出最適當的結果,而非某些不道德的網絡員產生的、只有塞滿關鍵字的無用網頁。由此,新種類的搜索引擎應運而生。
當代搜索引擎
Google 由兩名在斯坦福大學的博士生佩吉 (Larry Page) 和布林 (Sergey Brin) 開始。他們帶來了一個給網頁評估的新概念。這個概念, 稱網頁級別 (PageRank), 是從Google 算法[2]重要的開端 。網頁級別十分倚賴導入鏈結 (incoming link) ,並利用這種每個導入某網頁的鏈結相當於給該網頁價值投一票的理論建立起邏輯系統。越多導入鏈結意味著該網頁越有“價值”。而每個導入鏈結本身價值直接根據該鏈結從何而來的網頁級別,以及相反的該頁導出鏈結 (outgoing link) 。
在網頁級別幫助下,Google 在服務相關的結果上證明它相當優異。Google 成為了最普遍和最成功的搜索引擎。由於網頁級別度量了站點外因子, Google 感到它會比頁內因子難以動手腳。
然而道高一尺魔高一丈。網站員們已經開發出對付Inktomi 搜索引擎的鏈結操作工具和計劃。這些方法證明對Google 算法一樣管用。許多站集中於交換、買賣大量鏈接。隨著‘網站員尋求獲取鏈結只單單要影響Google送更多流量給該站,而不管是否對站點訪客有用否’這種行為增加,網頁級別對原始算法的信賴度漸漸被破壞了。
此時,是Google 和其它查尋引擎對廣大范圍的站外因子仔細檢視的時候。開發更加聰明的算法有其他原因。因特網已經膨脹到擁有非技術的廣大族群。他們經常無法使用先進的提問技術來取得資訊;而且他們得面對比起發展早期更龐大資料、更復雜的索引。搜索引擎必須開發具備預測性、語義性、語言性和啟發性算法。
目前,網頁級別的縮小版仍然被顯示在Google 工具條上,不過網頁級別只不過是Google考慮在網頁分級時超過100個因素裡中的一個。
今天,大多數搜索引擎對它們的如何評等的算法保持秘密。搜索引擎也許使用上百因素在排列目錄;每個因素本身和因素所占比重可能不斷的在改變。
大部分當代搜索引擎優化的思路──哪些有效、哪些沒效──這些很大部分在於觀察與根據內線消息來的猜測。某些優化員得執行控制下的實驗以取得不同優化方法的結果。
盡管如此,以下是搜索引擎發展它們算法時的一些考慮,另,這份Google 專利清單[3]也許讀者可猜出他們會走哪條路線:
站點的年齡 自該網域注冊後過多久 內容的年齡 新內容增加的規律性 鏈接的年齡,連接站點的名譽和其相關程度 一般站內因素 負面站內因素 (例如,太多關鍵字匯標(meta tag),很顯然被優化過,會對站點造成傷害) 內容的獨特性 使用於內容的相關術語 (搜索引擎關聯到的術語的方式視同如何關聯到網頁的主要內容) Google網頁級別 (只被使用在Google 的算法) 外在鏈接、外部鏈接的鏈結文字、在那些和在站點/網頁包含的那些鏈接 引證和研究來源(表明內容是研究性質) 在搜索引擎數據庫裡列舉的詞根與其相關的術語(如 finance/financing) 導入的逆向鏈結,以及該鏈結的文字 一些導入鏈結的負面計分 (或許那些來自低價值頁、被交換的逆向鏈結等) 逆向鏈結取得速率:太多太快意味著“不自然”的鏈結購買活動 圍繞在導出鏈結、導入的逆向鏈結周圍的文字。例如一個鏈結如果被 "Sponsored Links" (贊助商連結)包圍,該鏈結可能會被忽略。 用 "rel=nofollow" 建議搜索引擎忽略該鏈接 在站點該文件的結構深度 從其他資源收集的網格表,譬如監視當搜尋結果導引用戶到某頁後,用戶有多頻繁按浏覽器的返回鈕 從來源像:Google AdWords/AdSense、Google 工具條等程序收集的網格表 從第三方資料分享協議收集的網格資料 (譬如監測站點流量的統計程式提供商) 刪除導入鏈