我很高興不斷更新自己文章,一直觀察互聯網技術。平常,把觀察的結果記錄成文字,與大家共享。最近由於學習需要,開始研究百度抓取MP3文件。兔子寶貝的進步,學習都少不了新生力網絡營銷團隊給我的幫助與關心。經過一下午的解剖MP3文件。特別是對那些做音樂網站的朋友有幫助。研究百度搜索技術是如何實現抓取MP3格式文件。關於是如何提高MP3其他問題,以後的文章中寫出來。今天只研究是如何抓取MP3文件的。同時,先提醒的是此篇文章,只代表個人觀點,文明評論,請勿唾罵,拋磚引玉。
為了整個過程順利,以示例做分析。
觀察這個“MP3”文件夾中只含有一個文件“比我幸福.MP3”。還顯示了文件的大小,類型修改日期。這裡要確定一個問題,這個文件夾中只有這一個文件。下面我們再觀察他的屬性內容。如下圖所示:
剛才我們講了,只有一個文件,為什麼能顯示出藝術家、唱片標題等相關信息呢?注意,只是有一個文字,為什麼包含這麼多信息呢?這就是百度搜索抓取MP3格式文件關鍵所在。
我大概講講MP3格式文件。MP3文件不光包括我們所聽到的音頻文件(常說的音樂)還有更多的唱片、歌黃信息。MP3格式文件大體分為三部分:TAG_V2(ID3V2),Frame,,TAG_V1(ID3V1) 。其中TAG_V2(ID3V2)記錄了作者,作曲,專輯等信息。Frame記錄了音樂文件的實體部分。TAG_V1(ID3V1)記錄作者,作曲,專輯等信息,長度為128BYTE。關於這些是怎麼寫的,什麼格式,怎麼定義,在這裡不再呈述。
為了說明分析的真實性,脫去MP3格式文件“外套”,分析具體內容,以十六進制數據呈現。如下圖所示。
因此,一個完整的mp3文件也就完整的包含了作者,作曲,專輯等信息。這進一步方便百度搜索引擎去抓取MP3文件,更好的讓我們搜索。我們搜索音樂,就是去比對MP3某個特定的字節,實現匹配。返回給用戶的正確的音樂。在這友情提示一下做音樂網站的網友,在做網站優化的同時,不要忘記對MP3格式文件內部內容進行優化,例如,是否寫入了作者,作曲,專輯等信息。這是百度抓MP3最重要的依據。百度抓取音樂不是依靠文件名和網頁匹配。就是直接識別MP3文件的內部內容,至於怎麼寫進MP3內部內容,如果有時間再介紹,這裡只討論“百度搜索抓取MP3文件”。至此,當然,這也給一些做垃圾站提供了便利。當然,任何一件事,有利有弊。
兔子寶貝繼續觀察互聯網搜索引擎,以後,我會寫出更多的相關的文章,接下來,會揭密百度搜索抓取圖片的奧密,希望大家支持!同時,申明一下,我的分析文章只代表個人觀點,不做為任何依據。文明評論,請勿唾罵。希望各位朋友關注我的博客,提出各種意見。
原文地址:http://www.tuzibaobei.net/post/18.html (原創文章,站長站首發,歡迎轉載,保留版權!)
感謝 成都seo 的投稿