最近加入到新項目組負責前端技術預研和選型,其中涉及到一個熟悉又陌生的需求——國際化&本地化。熟悉的是之前的項目也玩過,陌生的是之前的實現僅僅停留在"有"的階段而已。趁著這個機會好好學習整理一下,為後面的技術選型做准備。
本篇將闡述國際化和本地化的概念,以及其中一個很重要的概念——Language tag(也叫Language code 或 Culture)。
國際化我認為就是應用支持多語言和文化習俗(數字、貨幣、日期和字符比較算法等),而本地化則是應用能識別用戶所屬文化習俗自動適配至相應的語言文化版本。
過去常常以為國際化就是字符串的替換——如"你好!"替換為"What's up, man!",其實具體是分為以下5方面:
"你好!"
替換為"What's up, man!"
.1200.01
,英語表示方式為1,200.01
,而法語則為1 200,01
,德語則為1.200,01
.¥1,200.01
,美元表示方式為$1,200.01
,而英語的歐元則為€1,200.01
,德語的歐元則為1.200,01 €
.2016年9月15日
,英語表示方式為9/15/2016
, 而法語為15/9/2016
, 德語為15.9.2016
.字符比較算法
如ä
和z
比較時,英語、德語中均是ä
排在z
前面,而在瑞典語中則是z
排在ä
前面.
既然要自動適配至用戶所屬的語言文化版本,那麼總得有個根據才能識別吧?我想大家應該對zh-CN
和en
等不陌生吧,而它們正是我們所需的根據了!在我們使用已有i18n庫實現國際化/本地化時,必定會寫下以下文檔
{ "en": { "name": "Enter Name" }, "zh-CN": { "name": "輸入姓名" } }
但除了en
和zh-CN
還有其他鍵嗎?它們的組成規則又是如何的呢?下面我們來稍微深入的了解這些Language Tag吧!
注意以下采用ABNF語言描述(ABNF的語法請參考語法規范:BNF與ABNF)
Language-Tag = langtag / privateuse / grandfathered langtag = language ["-" script] ["-" region] *("-" variant) *("-" extension) ["-" privateuse]
可以看到Language-Tag
分為langtag
,privateuse
和 grandfatherd
三個子類,下面我們先了解一般情況用不上的兩個吧!
privateuse
標簽的意思不由subtag registry定義,而是由使用的團隊間私自定義、維護和使用。
格式:
privateuse = "x" 1*("-" (1*8alphanum))
示例:x-zh-CN
是privateuse,其意思不一定與languagezh-CN
一致。
注意: 只作為小集團內部用可以,決不能大范圍適用。
grandfathered
用於向後兼容。由於RFC 4646前的標簽無法完全匹配當前registry的標簽語法和意思,因此通過grandfathered來提供向後兼容的特性。
語法:
grandfathered = irregular / regualr irregular = "en-GB-oed" ; irregular tags do not match / "i-ami" ; the 'langtag' production and / "i-bnn" ; would not otherwise be / "i-default" ; considered 'well-formed' / "i-enochian" ; These tags are all valid, / "i-hak" ; but most are deprecated / "i-klingon" ; in favor of more modern / "i-lux" ; subtags or subtag / "i-mingo" / "i-navajo" / "i-pwn" / "i-tao" / "i-tay" / "i-tsu" / "sgn-BE-FR" / "sgn-BE-NL" / "sgn-CH-DE" regular = "art-lojban" ; these tags match the 'langtag' / "cel-gaulish" ; production, but their subtags / "no-bok" ; are not extended language / "no-nyn" ; or variant subtags: their meaning / "zh-guoyu" ; is defined by their registration / "zh-hakka" ; and all of these are deprecated / "zh-min" ; in favor of a more modern / "zh-min-nan" ; subtag or sequence of subtags / "zh-xiang"
注意: 幾乎所有grandfarthered標簽均可被當前registry的標簽及其組合作替代(像i-tao
可以被tao
代替),因此如無意外請使用現行的標簽吧。
下面就到了我們的重頭戲langtag了,首先我們看看langtag下的第一個subtag——language.
像en
這種就是Primary language subtag,用於標識資源所對應的語言。
語法:
language = 2*3ALPAH ["-" extlang] / 4ALPHA / 5*8ALPHA extlang = 3ALPHA *2("-" 3ALPHA)
看到language有三種形式,其中讓我比較好奇的是第一種2*3ALPHA ["-" extlang]
。這種形式中前面的2*3ALPHA
稱為macrolanguage,用於標明資源對應一種語言的匯總,而具體的某一種語言/方言則通過extlang指定。而包含extlang部分的language也被稱為encompassed language.
如zh-cmn
和zh-yue
就是encompassed language,其中zh
是macrolanguage,而cmn
和yue
則是extlang。
這裡有個很有趣的事情是,我們認為普通話和廣東話等都是漢語的方言,但西方卻認為普通話、廣東話根本就不屬於一種語言,因此像zh-cmn
和zh-yue
在規范中被設置為redundant,建議直接使用cmn
和yue
等。不過由於歷史原因,我們還是使用zh-CN
代表cmn-CN
。
另外現在可以作為macrolanguage的就只有7個標簽(ar
,kok
,ms
,sw
,uz
,zh
和sgn
)
另外幾個和cmn類似的subtags如下
cmn 普通話(官話、國語) wuu 吳語(江浙話、上海話) czh 徽語(徽州話、嚴州話、吳語-徽嚴片) hak 客家語 yue 粵語(廣東話) nan 閩南語(福建話、台語) cpx 莆仙話(莆田話、興化語) cdo 閩東語 mnp 閩北語 zco 閩中語 gan 贛語(江西話) hsn 湘語(湖南話) cjy 晉語(山西話、陝北話)
注意: 一般采用全小寫
用於指定字跡或文字系統資源所屬的語言和方言等。
語法:
script = 4ALPHA
注意: 一般采用首字母大寫,後續字母全小寫
指定與國家、地域對應的語言/方言文化。
語法:
region = 2ALPHA / 3DIGIT
注意: 一般采用全大寫
指定其他subtag又無法提供的額外信息
語法:
variant = 5*8alphanum / (DIGIT 3alphanum)
示例:de-CH-1996
其中1996是variant subtag,整體意思是在Switzerland使用的自1996改良過的德語。
提供一種機制讓我們去擴展langtag
語法:
extension = singleton 1*("-" (2*8alphanum)) singleton = DIGIT / %x41-57 / %x59-5A / %x61-77 / %x79-7A
現在僅支持u
作為sigleton的值。
示例:de-DE-u-co-phonebk
表示采用電話本核對的方式對內容進行排序等操作。
更多關於language-tag的信息請參考BCP 47
硬著頭皮啃下這麼多規范的內容,但我還不知道如何組合合適的language-tag呢:(其實選擇和組合的原則就只有一條
在足以區別當前上下文中其他language-tag的前提下,保持language-tag足夠地短小精干
示例1:下文普通話、粵語並存
<p lang="cmn"> 小陳說:"老大爺,東方廣場怎麼走啊?" 老大爺回答道:"<span lang="yue">你講咩也啊?我聽唔明喔。</span>" </p>
示例2:下文含大陸人講英語、香港人講普通話和美國人說英語
<p lang="cmn"> 小陳說:"<span lang="en-CN">Hi, where are you come from?</span>" 李先生說:"<span lang="cmn-HK">你的英文跟我的普通話一樣普通啊,哈哈!</span>" Simon說:"<span lang="en">Hey, what's up!</span>" </p>
那現在引出另一個問題,那就是我們怎麼知道各個subtag具體定義了哪些值呢?
具體都定義在IANA Language Subtag Registry中了。
假如覺得查找起來還是不方便,那麼就使用Language Subtag Lookup tool吧!
另外若不清楚各國各地區所使用的語言或方言時,可通過Ethnologue查看,直接點擊地圖上的區域即可獲取相應的subtag信息。
現在我們已經對國際化和本地化有了更全面的理解,也對Language tag有了更深入的認識,現在是不是迫不及待想挽起袖子撸代碼呢?敬請期待下篇《JS魔法堂:不完全國際化&本地化手冊 之 實戰篇》
網頁頭部的聲明應該是用 lang="zh" 還是 lang="zh-cn"?
Language Subtag Registry
BCP 47
Language on the Web
Choosing a Language Tag
Language tags in HTML and XML