喜歡音樂的朋友,一定經常使用百度的“MP3搜索”。確實,百度的“MP3搜索”給我們帶來很多的便利。新生力網絡營銷團隊成員之一兔子寶貝,一直在觀察互聯網搜索引摯。同時,今天我又百度了一下“百度MP3搜索原理”,發現有很少朋友觀注這一方面。經過思考、觀察、實踐,今天寫下《兔子寶貝:揭密百度MP3搜索原理》一文,希望和大家交流。合理使用“MP3搜索”,帶來流量是可行的。同時,兔子寶貝提醒的是此篇文章,只代表個人觀點,文明評論,請勿唾罵,拋磚引玉。
百度的“MP3搜索”可以實現多種格式的搜索,不僅局限地MP3格式,“百度MP3”只是一種對音樂格式文件搜索的一種代名詞。可以實現搜索MP3 、 MP2 、 MOD 、WAV 、 VOC、 wma 等音頻格式。這些是能夠實現的,經常筆者的實踐過。下面,筆者分析一下,百度是如何實現MP3的搜索的呢?我會以實際的例子舉例說明這一問題。
在百度的“MP3搜索”中輸入“朋友”如下圖所示:
經過習慣的思維,百度在抓取音樂時,有關鍵詞,經過兔子寶貝的100次反復實驗,在百度搜索時,並未出來這一規律。換句話說,百度的“MP3搜索”結果與網頁附近的詞語(包括名詞、形容詞、動詞等)不存在任何關系。即不存在正向、逆向、統計等匹配情況。據此,如果像正常網頁和圖片一樣的優化方法,在百度MP3中並不好使。
為了細心,測試了100首音樂,在試聽的時候,並沒有一首與主題不符的音樂。這說明,百度的“MP3搜索”的正確率不說100%,應該正確率非常高,至少兔子寶貝並沒有發現出錯。如果,不是根據網頁內容附近的詞進行識別,那麼,按照常理,就是按照音樂的名字進行識別。比如,你搜索“朋友”,百度就返回以文件名中出現“朋友”二字的音樂文件,如:朋友.mp3,朋友.wma,朋友的心.mp3,朋友的心.wma。越靠近關鍵詞越靠前,權重越高越靠前。但是,這種思維,經過多次實驗,得到否定。下面,兔子寶貝以圖為證。
首先觀察百度MP3搜索的多路資源來路圖:
觀察資源來路有四處。觀察文件名並不是以“朋友”為關鍵詞中心出現文件名。下面再觀察播放音樂時,資源來路圖,再次證明。
播放時,資源視圖:
播放時,文件名不是以“朋友”為關鍵詞中心出現文件名。下面再觀察點擊音樂下載,資源來路圖。
觀察,在下載的時候,文件名不是以“朋友”為關鍵詞中心出現文件名。 這樣一來,更加否認我們剛開始的猜想,以文件名做為搜索的依據,因為文件名不是以歌曲名做為文件名。
經過以前多次實踐分析出:百度MP3搜索結果並沒有出錯,准確率很高。不是依靠網頁內容等進搜索。不是依靠文件名進行識別。
當然百度這種搜索技術,是機密性的。經過思考和從信號處理角度講的話,分析百度的“MP3搜索”是如何操作的。步驟如下:
第一步:人工進行音樂選取。選擇出正確的音樂,做為原始資料。注意,這是人工處理。這種選取地不一定,不一定在互聯網上選取。
第二步:人工提取到原始的音樂資料進行計算數字化處理,進行數字化,采樣,量化。對音樂信號進行頻譜分析,取樣,量化。做為百度搜索的最根本的依據。
第三步:百度使用蜘蛛程序,對互聯網上的音樂進行抓取。
第四步:抓取回音樂後,利用程序對音樂進行數字化處理,采樣,量化,包括對頻域和時域名的分析,處理。
第五步:比對。百度利用原始資源去比對取後音樂的信息。兩者信息越近,兩者音樂越靠近,達到一定程序就是相同音樂。
第六步:找到相同音樂,百度很聰明。涉及到版權問題,百度並不保存音樂,只是保存音樂路徑。因此,網友在百度搜索時,就能搜索不同路徑,和用戶相同要求的音樂。
綜上所述,我只是想出了思路。具體怎麼處理,是相當復雜。
因此,給做音樂資源網的朋友幾條優化建議。
一、音樂網站要像一般網站一樣優化。因為用戶搜索音樂,不僅依靠百度的“MP3搜索”。更多的是利用百度的“網頁搜索”。
二、音樂資源不能做假。如果與實際不相符的音樂,百度會自動識別。百度的識別技術很先進。
三、在百度的“MP3搜索”排名是和網站的權重,鏈接速度等有關。
四、合理使用“MP3搜索”帶來流量。
以上就是兔子寶貝對百度“MP3搜索”的想法。以上只代表個人觀點,不做為任何依據。文明評論,請勿唾罵。
原文地址:http://www.tuzibaobei.net/post/17.html (原創文章,站長站首發,歡迎轉載,保留版權!)
感謝 成都seo 的投稿