HTML與javascript常碰到的編碼問題

DIV+CSS佈局教程網 >> 網頁腳本 >> JavaScript入門知識 >> 關於JavaScript >> HTML與javascript常碰到的編碼問題

編輯：關於JavaScript

在日常的前端開發工作中，我們會經常的與HTML、javascript、css等語言打交道，和一門真正的語言一樣，計算機語言也有它的字母表、語法、詞法、編碼方式等，在這裡我簡單的談一下前端HTML與javascript日常工作中常碰到的編碼問題。

在計算機中，我們儲存的信息都是用二進制碼表示的。我們認識的、屏幕上顯示的英文、漢字等符號和儲存用的二進制代碼的互相轉換，就是編碼。

有兩個基本概念需要說明，charset 和 character encoding：

charset ，字符集，也就是某個符號和某個數字映射關系的一個表，也就是它決定了107 是koubei 的 ‘a’，21475 是口碑的“口”，不同的表有不同的映射關系，如 ascii，gb2312，Unicode. 通過這個數字和字符的映射表，我們可以把一個二進制表示的數字轉換成某個字符。
chracter encoding ，編碼方式。例如，同是對於應“口”的 21475 這個數，我們是用 \u5k3e3 表示呢，還是用 %E5%8F%A3 來表示呢？這就是由 character encoding 來決定的。

對於 ‘koubei.com’ 這樣的字符串來說，是美國人的常用字符，他們就制定了一個叫做ASCII 的字符集，全稱是 american standard code of information interchange 美國標准信息交換碼，用0–127這128個數字，（2的7次方，0×00-0×7f) 代表了123abc這樣的常用的128個字符。一共是 7 bits，再加上第一個是符號位，要用來去補碼反碼表示負數什麼的，一共8 bits 構成一個 byte。當年美國人就是小氣了點，要是一開始就設計成一個 byte 是16 bits、32 bits，世界上會少很多問題，不過當時，估計他們覺得 8 bits 就夠了，可以表示128個不同的字符呢！

介於計算機這玩意兒是美國人搞出來的，所以他們自己省事，把自家用的符號都編碼好了，用的挺爽的。但當計算機開始國際化的時候，問題出來了，拿中國舉例吧，漢字就好幾萬，怎麼辦？

現有的 8 bits 一個 byte 的系統是基礎，不能破壞，不能去改到 16 bits之類的，否則改動太大了，只能走另一條路：用多個 ascii 的字符去表示一個其他字符，也就是 MBCS ( Multi-Byte Character System，多字節字符系統)。
有了這個 MBCS 的概念，我們可以表示更多個字符了，比如我們用 2 個 ascii 字符，就有 16 bits, 理論上有 2 的 16 次方 65536 個字符。但這些編碼怎麼分配到字符上呢？比如口碑的”口”的 Unicode 編碼就是 21475，誰決定的呢？字符集，也就是剛剛介紹的charset。ascii就是最基礎的一個字符集，在此之上，我們有類似於 gb2312， big5這樣針對簡體中文和繁體中文的MBCS的字符集等等。終於有個叫 Unicode Consortium 的機構，決定做一個囊括所有字符在內的字符集（UCS, Universal Character Set）和對應編碼方式的標准，即 Unicode。從1991年開始，它發布了第一版 Unicode 國際標准，ISBN 0-321-18578-1 ，國際標准化組織 ISO 也參與了這個的定制，ISO/IEC 10646 : the Universal Character Set。總之，Unicode 是個基本覆蓋了所有已經存在的地球上的符號的字符標准了，現在正在被越來越廣泛的使用，ECMA 標准也規定，javascript語言的內部字符使用 Unicode 標准（這意味著，javascript的變量名、函數名等是允許中文的！）。

對於身在中國的開發者來說，可能碰到比較多的問題就是 gbk, gb2312, utf-8 之間轉換之類的問題了。嚴格的說這個說法不是很准確，gbk，gb2312是字符集 (charset)，而 utf-8 是一種編碼方式 (character encoding) ，是 Unicode 標准中 UCS 字符集的一種編碼方式，因為使用 Unicode 字符集的網頁主要用UTF-8編碼，所以大家常常就把它們並列了，其實是不准確的。

有了 Unicode 後，至少人類文明沒有碰到外星人之前，這是一把萬能鑰匙了，都用它吧。而現在使用最廣泛 Unicode 的編碼方式就是 UTF-8 (8-bit UCS/Unicode Transformation Format) 了，它有幾個特別好的地方：

編碼 UCS 字符集，全世界通用
是一種變長編碼方式（variable-length character encoding），兼容 ascii

第二點是個很大的優點，它使得以前使用純 ascii 編碼的系統兼容，而且不會增加額外的存儲量（假設定長的編碼方式，規定每個字符由2個 bytes 組成，那麼這時候 ascii 字符占用的存儲空間將增大一倍）。

要把 UTF-8 說清楚，引入一個表會更方便了:

U-00000000 – U-0000007F:    0xxxxxxx
U-00000080 – U-000007FF:    110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF:    1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF:    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF:    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 – U-7FFFFFFF:    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

要看懂這個表呢，我們看前兩行就夠了

U-00000

關於JavaScript

js中iframe調用父頁面的方法教程: 本文實例講述了js中iframe調用父頁面的方法。分享給大家供大家參考。具體實現方法如下：子頁面調用
探討：JavaScript ECAMScript5 新特性之get/set訪問器: EcmaScript5簡介首先得先搞清楚ECMAScript是神馬，我們知道JavaScript或者
js實現DOM走馬燈特效的方法: 本文實例講述了js實現DOM走馬燈特效的方法。分享給大家供大家參考。具體實現方法如下：復制代碼代碼

JavaScript基礎知識 JSON基礎正則表達式關於JavaScript JavaScript技巧 jQuery入門知識 AJAX入門 JavaScript綜合知識

小編推薦

基於javascript制作微信聊天面板 javascript常用功能匯總原生JS實現加入收藏夾的代碼 javascript上下方向鍵控制表格行選中並高亮顯示的方法教程 JavaScript針對網頁節點的增刪改查用法實例 JS實現圖片上傳預覽功能 javascript中的this詳解 js操作iframe的src的例子 js對象的復制繼承實例教程當前頁禁止復制粘貼截屏代碼小集

DIV CSS 佈局教程網

相關文章