這是我做的第一課簡單的介紹小我是小鵬90年出生做SEO已經三年了都是在積累一些經驗和不停的學習,出這個教程只是為了促使自己更加努力的去學習不在頹廢下去。
聲明:我只做文字教程不出任何語音以及視頻,不承接任何SEO項目。
我這次要講的是基礎課程先從索引開始:
索引的主要分為:結構、分析、組織、存儲和檢索的領域。
最初的索引基於文本:
所有的搜索引擎都是圍繞以上的幾個主題在研發以及擴展,從20世紀50年代開始,就把聚焦點放在文本上(text)和文本形式上的文檔(text document)。
文本比較:
定義一個詞、句子(新聞)、段落或者整個新聞報道的意義,比定義一個數據庫內的名稱要難的多,因此文本比較對於索引來說是非常重要的,也是最為困難的。如果換成我們來比較一篇文章是非常簡單的,肉眼就是非常容易辨別文章的質量的好壞,而換成搜索引擎他們的理解能力卻是相當差,所以說搜索引擎一直都在模擬人的行為來判斷文章的核心也就 是在模擬人的行為來理解文章和建模,精確的實行這種比較,是信息檢索的核心。
特別:
圖片、視頻、音頻(音樂和語音)。這些媒體像文本一樣,其內容都是通過它的描述來做比較的,但是對媒體內容的直接比較技術正在不斷進步,例如圖片,都可以對於顏色驚醒大致上的區分。
用戶的查詢方式:
這種查詢的方式可以稱之為特殊搜索(ad hoc search)因為用戶查詢的范圍非常巨大而實現是沒有任何預測性,所以就產生了,過濾、分類、問答。
過濾:也就是跟蹤,根據一個人的行為去判斷檢索用戶的愛好或者說是興趣,根據他的興趣發現符合其興趣的報道活著檢索結果。
分類:分類一般都是基於一套預先定義好的標簽或者類別給文檔打上標記。
問答:例如:“世界上人口最多的國家是那個?” 這個不多說,你搜索下就明白。
相關性:
相關性也是一個重要的問題英文稱之為:relevance。相關性在搜索引擎中是非常重要的一個環節,盡管聽上去非常簡單,但是當一個人去判斷一篇文章是否相關,有許多因素會影響到他的決策。中文檢索非常復雜因為語言的表達方式非常多,通過不同的詞語,表達同一個概念,所以才會出現:此表不匹配問題。
話題相關和用戶相關這兩個概念必須區分,只有區分才能合理的做到基本的優化,這也是兩個完全不同的概念。如果一個文本與查詢的話題相關那就意味著與查詢的話題相關,就是說兩者有相同的話題。例如,焦作暴雨天氣相關的新聞報道就可以查詢“焦作惡劣天氣”是相關話題。如果用戶搜索“焦作天氣”這又是另外的一個概念,他想查詢的並不是暴雨相關的新聞而是,用戶相關的天氣預報,很簡單的例子我想大家能很快就明白吧?
相關性模型非常多我在這裡只是簡單的介紹了兩種常用的也是比較重要的,還有一些所謂的優化工具就是依賴搜索引擎的,點擊流數據來提升網站排名,這個非常常見但是一旦停止使用你的點擊流數據,那網站就危險了,會牽連其他的排名。這都是網站的數據異常造成的。
今天這一篇我們就講到這裡其他的怎樣判斷搜索引擎的性能這裡就不多說,因為對大家的幫助不大,一般都是從查詢的吞吐量、用戶的交互性,索引的速度,相應的時間都是有著密切關系,新聞這裡注意了都會有一個,覆蓋率和時新性上的判斷等。
結束語:數據的集合才能看清楚數據的曲線,每個網站都有自己的數據曲線。
(版權所有:my.cneduit.com ,轉載必須聲明出處)
感謝 小鵬 的投稿