A. 參考文獻
A.1 正式參考文獻
A.2 其他參考文獻
B. 字符的分類
C. XML 和 SGML(非正式)
D. 實體和字符引用的展開(非正式)
E. 確定型內容模型(非正式)
F. 字符編碼的自動檢測(非正式)
F.1 無外部編碼信息時的檢測
F.2 有外部編碼信息時的優先級
G. W3C XML 工作組(非正式)
H. W3C XML 核心工作組(非正式)
I. 文檔制作說明(非正式)
根據 Unicode 標准中定義的特征,字符被分為基字符(其中包含了拉丁字母),表意字符和組合字符(其中包含了大多數的變音符)。數字和擴展符(extender)也各自被分成類。
Letter
::= BaseChar | Ideographic
[85] BaseChar
::= [#x0041-#x005A] | [#x0061-#x007A] | [#x00C0-#x00D6] | [#x00D8-#x00F6] | [#x00F8-#x00FF] | [#x0100-#x0131] | [#x0134-#x013E] | [#x0141-#x0148] | [#x014A-#x017E] | [#x0180-#x01C3] | [#x01CD-#x01F0] | [#x01F4-#x01F5] | [#x01FA-#x0217] | [#x0250-#x02A8] | [#x02BB-#x02C1] | #x0386 | [#x0388-#x038A] | #x038C | [#x038E-#x03A1] | [#x03A3-#x03CE] | [#x03D0-#x03D6] | #x03DA | #x03DC | #x03DE | #x03E0 | [#x03E2-#x03F3] | [#x0401-#x040C] | [#x040E-#x044F] | [#x0451-#x045C] | [#x045E-#x0481] | [#x0490-#x04C4] | [#x04C7-#x04C8] | [#x04CB-#x04CC] | [#x04D0-#x04EB] | [#x04EE-#x04F5] | [#x04F8-#x04F9] | [#x0531-#x0556] | #x0559 | [#x0561-#x0586] | [#x05D0-#x05EA] | [#x05F0-#x05F2] | [#x0621-#x063A] | [#x0641-#x064A] | [#x0671-#x06B7] | [#x06BA-#x06BE] | [#x06C0-#x06CE] | [#x06D0-#x06D3] | #x06D5 | [#x06E5-#x06E6] | [#x0905-#x0939] | #x093D | [#x0958-#x0961] | [#x0985-#x098C] | [#x098F-#x0990] | [#x0993-#x09A8] | [#x09AA-#x09B0] | #x09B2 | [#x09B6-#x09B9] | [#x09DC-#x09DD] | [#x09DF-#x09E1] | [#x09F0-#x09F1] | [#x0A05-#x0A0A] | [#x0A0F-#x0A10] | [#x0A13-#x0A28] | [#x0A2A-#x0A30] | [#x0A32-#x0A33] | [#x0A35-#x0A36] | [#x0A38-#x0A39] | [#x0A59-#x0A5C] | #x0A5E | [#x0A72-#x0A74] | [#x0A85-#x0A8B] | #x0A8D | [#x0A8F-#x0A91] | [#x0A93-#x0AA8] | [#x0AAA-#x0AB0] | [#x0AB2-#x0AB3] | [#x0AB5-#x0AB9] | #x0ABD | #x0AE0 | [#x0B05-#x0B0C] | [#x0B0F-#x0B10] | [#x0B13-#x0B28] | [#x0B2A-#x0B30] | [#x0B32-#x0B33] | [#x0B36-#x0B39] | #x0B3D | [#x0B5C-#x0B5D] | [#x0B5F-#x0B61] | [#x0B85-#x0B8A] | [#x0B8E-#x0B90] | [#x0B92-#x0B95] | [#x0B99-#x0B9A] | #x0B9C | [#x0B9E-#x0B9F] | [#x0BA3-#x0BA4] | [#x0BA8-#x0BAA] | [#x0BAE-#x0BB5] | [#x0BB7-#x0BB9] | [#x0C05-#x0C0C] | [#x0C0E-#x0C10] | [#x0C12-#x0C28] | [#x0C2A-#x0C33] | [#x0C35-#x0C39] | [#x0C60-#x0C61] | [#x0C85-#x0C8C] | [#x0C8E-#x0C90] | [#x0C92-#x0CA8] | [#x0CAA-#x0CB3] | [#x0CB5-#x0CB9] | #x0CDE | [#x0CE0-#x0CE1] | [#x0D05-#x0D0C] | [#x0D0E-#x0D10] | [#x0D12-#x0D28] | [#x0D2A-#x0D39] | [#x0D60-#x0D61] | [#x0E01-#x0E2E] | #x0E30 | [#x0E32-#x0E33] | [#x0E40-#x0E45] | [#x0E81-#x0E82] | #x0E84 | [#x0E87-#x0E88] | #x0E8A | #x0E8D | [#x0E94-#x0E97] | [#x0E99-#x0E9F] | [#x0EA1-#x0EA3] | #x0EA5 | #x0EA7 | [#x0EAA-#x0EAB] | [#x0EAD-#x0EAE] | #x0EB0 | [#x0EB2-#x0EB3] | #x0EBD | [#x0EC0-#x0EC4] | [#x0F40-#x0F47] | [#x0F49-#x0F69] | [#x10A0-#x10C5] | [#x10D0-#x10F6] | #x1100 | [#x1102-#x1103] | [#x1105-#x1107] | #x1109 | [#x110B-#x110C] | [#x110E-#x1112] | #x113C | #x113E | #x1140 | #x114C | #x114E | #x1150 | [#x1154-#x1155] | #x1159 | [#x115F-#x1161] | #x1163 | #x1165 | #x1167 | #x1169 | [#x116D-#x116E] | [#x1172-#x1173] | #x1175 | #x119E | #x11A8 | #x11AB | [#x11AE-#x11AF] | [#x11B7-#x11B8] | #x11BA | [#x11BC-#x11C2] | #x11EB | #x11F0 | #x11F9 | [#x1E00-#x1E9B] | [#x1EA0-#x1EF9] | [#x1F00-#x1F15] | [#x1F18-#x1F1D] | [#x1F20-#x1F45] | [#x1F48-#x1F4D] | [#x1F50-#x1F57] | #x1F59 | #x1F5B | #x1F5D | [#x1F5F-#x1F7D] | [#x1F80-#x1FB4] | [#x1FB6-#x1FBC] | #x1FBE | [#x1FC2-#x1FC4] | [#x1FC6-#x1FCC] | [#x1FD0-#x1FD3] | [#x1FD6-#x1FDB] | [#x1FE0-#x1FEC] | [#x1FF2-#x1FF4] | [#x1FF6-#x1FFC] | #x2126 | [#x212A-#x212B] | #x212E | [#x2180-#x2182] | [#x3041-#x3094] | [#x30A1-#x30FA] | [#x3105-#x312C] | [#xAC00-#xD7A3]
[86] Ideographic
::= [#x4E00-#x9FA5] | #x3007 | [#x3021-#x3029]
[87] CombiningChar
::= [#x0300-#x0345] | [#x0360-#x0361] | [#x0483-#x0486] | [#x0591-#x05A1] | [#x05A3-#x05B9] | [#x05BB-#x05BD] | #x05BF | [#x05C1-#x05C2] | #x05C4 | [#x064B-#x0652] | #x0670 | [#x06D6-#x06DC] | [#x06DD-#x06DF] | [#x06E0-#x06E4] | [#x06E7-#x06E8] | [#x06EA-#x06ED] | [#x0901-#x0903] | #x093C | [#x093E-#x094C] | #x094D | [#x0951-#x0954] | [#x0962-#x0963] | [#x0981-#x0983] | #x09BC | #x09BE | #x09BF | [#x09C0-#x09C4] | [#x09C7-#x09C8] | [#x09CB-#x09CD] | #x09D7 | [#x09E2-#x09E3] | #x0A02 | #x0A3C | #x0A3E | #x0A3F | [#x0A40-#x0A42] | [#x0A47-#x0A48] | [#x0A4B-#x0A4D] | [#x0A70-#x0A71] | [#x0A81-#x0A83] | #x0ABC | [#x0ABE-#x0AC5] | [#x0AC7-#x0AC9] | [#x0ACB-#x0ACD] | [#x0B01-#x0B03] | #x0B3C | [#x0B3E-#x0B43] | [#x0B47-#x0B48] | [#x0B4B-#x0B4D] | [#x0B56-#x0B57] | [#x0B82-#x0B83] | [#x0BBE-#x0BC2] | [#x0BC6-#x0BC8] | [#x0BCA-#x0BCD] | #x0BD7 | [#x0C01-#x0C03] | [#x0C3E-#x0C44] | [#x0C46-#x0C48] | [#x0C4A-#x0C4D] | [#x0C55-#x0C56] | [#x0C82-#x0C83] | [#x0CBE-#x0CC4] | [#x0CC6-#x0CC8] | [#x0CCA-#x0CCD] | [#x0CD5-#x0CD6] | [#x0D02-#x0D03] | [#x0D3E-#x0D43] | [#x0D46-#x0D48] | [#x0D4A-#x0D4D] | #x0D57 | #x0E31 | [#x0E34-#x0E3A] | [#x0E47-#x0E4E] | #x0EB1 | [#x0EB4-#x0EB9] | [#x0EBB-#x0EBC] | [#x0EC8-#x0ECD] | [#x0F18-#x0F19] | #x0F35 | #x0F37 | #x0F39 | #x0F3E | #x0F3F | [#x0F71-#x0F84] | [#x0F86-#x0F8B] | [#x0F90-#x0F95] | #x0F97 | [#x0F99-#x0FAD] | [#x0FB1-#x0FB7] | #x0FB9 | [#x20D0-#x20DC] | #x20E1 | [#x302A-#x302F] | #x3099 | #x309A
[88] Digit
::= [#x0030-#x0039] | [#x0660-#x0669] | [#x06F0-#x06F9] | [#x0966-#x096F] | [#x09E6-#x09EF] | [#x0A66-#x0A6F] | [#x0AE6-#x0AEF] | [#x0B66-#x0B6F] | [#x0BE7-#x0BEF] | [#x0C66-#x0C6F] | [#x0CE6-#x0CEF] | [#x0D66-#x0D6F] | [#x0E50-#x0E59] | [#x0ED0-#x0ED9] | [#x0F20-#x0F29]
[89] Extender
::= #x00B7 | #x02D0 | #x02D1 | #x0387 | #x0640 | #x0E46 | #x0EC6 | #x3005 | [#x3031-#x3035] | [#x309D-#x309E] | [#x30FC-#x30FE]
在此定義的字符類可以從 Unicode 2.0 字符庫中如下導出:
XML 被設計為 SGML 的一個子集,表現在每一個有效的 XML 文件也應該是一個合乎規范的 SGML 文件。對 XML 在 SGML 之外對文件所加的限制的詳細討論參見[Clark]。
本附錄中舉例說明了在 "4.4 XML 處理器對實體和引用的處理"一節中規定的實體和字符引用的識別和展開的次序。
如果聲明包含在 DTD 中
<!ENTITY example "<p>An ampersand (&#38;) may be escaped
numerically (&#38;#38;) or with a general entity
(&amp;).</p>" >
那麼 XML 處理器將在對實體聲明進行語法分析時識別出字符引用,並在將下面的字符串存為實體"example
"的值前解析這些字符引用:
<p>An ampersand (&) may be escaped
numerically (&#38;) or with a general entity
(&amp;).</p>
文件中對 "&example;
" 的引用會導致對文本的重新分析,此時元素 "p
" 元素:
An ampersand (&) may be escaped
numerically (&) or with a general entity
(&).
一個更復雜的例子可以完整地說明這些規則和它們的作用。在下面的例子中,行號僅僅是為了方便說明。
1 <?XML version='1.0'?>
2 <!DOCTYPE test [
3 <!ELEMENT test (#PCDATA) >
4 <!ENTITY % xx '%zz;'>
5 <!ENTITY % zz '<!ENTITY tricky "error-prone" >' >
6 %xx;
7 ]>
8 <test>This sample shows a &tricky; method.</test>
這個例子會導致下列動作:
xx
" 以值 "%zz;
" 存於符號表中。因為置換文本不被再次掃描,對參數實體 "zz
" 的引用不會被識別。(而且如果它被識別的話則是一個錯誤,因為 "zz
" 還沒有被聲明。)
<
" 被立即展開,而參數實體 "zz
" 以置換文本 "<!ENTITY tricky "error-prone" >
" 被存儲,此置換文本是一個格式正確的實體聲明。
xx
" 的引用被識別,"xx
" 的置換文本(即 "%zz;
")被分析。對 "zz
" 的引用隨後被識別,它的置換文本("<!ENTITY tricky "error-prone" >
")被分析。此時普通實體 "tricky
" 被聲明,它的置換文本是 "error-prone
"。
tricky
" 的引用被識別,並被展開,因此 "test
" 元素的全部內容為一個自說明的(也不合語法)字符串This sample shows a error-prone method.。 如 3.2.1 元素型內容中所述,元素類型聲明中的內容模型要求是確定型的。這個要求是出於和 SGML 的兼容性考慮(SGML 稱為"無歧義的");用 SGML 系統生成的 XML 處理器可能會把非確定型內容模型標為錯誤。
例如,內容模型((b, c) | (b, d))
是非確定型的,因為給定一個初始 b
,XML 處理器沒有在向前看以知道 b
後是什麼元素之前,無法知道匹配模型中的哪個 b
。在這種情況下,兩個對 b
的引用可以簡化成單個的引用,使得模型成為(b,(c | d))
。此時初始的 b
只和內容模型中的一個名字明確匹配。處理器不需要向前看其後的內容。c或
d
都能被接受。
更形式化的說法:使用 Aho,Sethi 和 Ullman 所著 [Aho/Ullman] 3.9 節中的標准算法 3.5,可以從內容模型構造出一個有限狀態自動機。在很多這樣的算法中,對應正則表達式中的每一個位置(即正則表達式的語法樹中的每個葉子節點),都構造一個隨集(follow set);如果任一位置的隨集中不止一個後繼位置被標為同一元素類型時,那麼此內容模型出錯,並且可以被報為錯誤。
存在將許多但不是所有非確定型內容模型自動規約為等價的確定型模型的算法;參見 Br黦gemann-Klein 1991 [Br黦gemann-Klein].
XML 編碼聲明在實體中以內部標簽的方式工作,用於指出使用了何種字符編碼。然而,在 XML 處理器能讀取這個內部標簽前,顯然它必須知道當前使用的是何種字符編碼-而這正是此內部標簽要試圖指出的。通常情況下,這是一種無法解決的情況。但在 XML 中並非如此,因為 XML 在兩個方面對這種情形作出了限制:假定每一種實現只支持一個有限的字符編碼集,並且,為了使得正常情況下自動檢測每個實體中所用字符編碼成為可能,限制了 XML 編碼聲明的位置和內容。同時,很多情況下除了 XML 數據流本身之外,另外還有可用的信息源。根據 XML 實體交給處理器時沒有或有任何的附帶(外部)信息,可以區分出兩種情況。我們先考慮第一種情況。
因為每一個沒有外部編碼信息且非 UTF-8 或 UTF-16 編碼的 XML 實體必須以 XML 編碼聲明開頭,其開始的幾個字符必須為 '<?XML
',任何合乎規范的處理器可以在兩到四個八位組的輸入後,檢測出適用於下列何種情況。在讀這張表時,知道這些是有幫助的:在 UCS-4 中,'<' 是 "#x0000003C
",'?' 是 "#x0000003F
",UTF-16 數據流的字節次序標記要求為 "#xFEFF
"。記法 ## 用於表示任意的字節值,但兩個連續的 ## 不能同時為 00。
有字節次序標記:
00 00 FE FF
UCS-4,big-endian 編碼的計算機(1234次序) FF FE 00 00
UCS-4,little-endian 編碼的計算機(4321次序) 00 00 FF FE
UCS-4,異常的八位組次序(2143) FE FF 00 00
UCS-4,異常的八位組次序(3412) FE FF ## ##
UTF-16, big-endian FF FE ## ##
UTF-16, little-endian EF BB BF
UTF-8
無字節次序標記:
00 00 00 3C
UCS-4 或其他 32 位碼元的編碼,同時 ASCII 字符的碼值就是 ASCII 值,次序分別為 big-endian(1234),little-endian(4321)和兩種異常的字節次序(2143 和 3412)。必須讀取編碼聲明以確定使用的是 或其他被支持的 32 位編碼。 3C 00 00 00
00 00 3C 00
00 3C 00 00
00 3C 00 3F
UTF-16BE,big-endian 的 ISO-10646-UCS-2 或其他 16 位碼元的 big-endian 的編碼,其中 ASCII 字符的碼值就是 ASCII (必須讀取編碼聲明以確定使用的是哪一種) 3C 00 3F 00
UTF-16LE,little-endian 的 ISO-10646-UCS-2 或其他 16 位碼元的 little-endian 的編碼,其中 ASCII 字符的碼值就是 ASCII (必須讀取編碼聲明以確定使用的是哪一種) 3C 3F 78 6D
UTF-8,ISO 646,ASCII,ISO 8859 的某些部分,Shift-JIS,EUC,或任何其他 7 位,8 位或混合寬度的編碼,這些編碼必須保證 ASCII 字符有它們正常的位置,寬度和取值;具體其中哪一個適用需讀取實際的編碼聲明來檢測確定,但是因為所有這些編碼中的 ASCII 字符使用了相同的位模式,所以能夠可靠地讀取編碼聲明本身 4C 6F A7 94
EBCDIC (其中的某些情況;必須讀取完整的編碼聲明以確定使用的是哪一個代碼頁) 其他 沒有編碼聲明則為 UTF-8,否則不是數據流被標錯了(沒有所需的編碼聲明),被損壞了,是不完整的,就是被包含在某種外層數據中
注:
在上述不需要讀取編碼聲明來確定所用編碼的情況下,4.3.3 節仍然要求讀取可能出現的編碼聲明,並檢查其中的編碼名稱是否與實體實際的編碼相一致。同時,現在不要求有編碼聲明的情況有可能會因為新的字符編碼方案的發明而變得必須使用編碼聲明用於確定所用的編碼。
這種層次的自動檢測足以用於讀取 XML 編碼聲明和分析字符編碼標識符。字符編碼標識符仍然是必須的,它用於區分編碼方案集中的單個成員(例如從 8859 中區分出 UTF-8,8859 各個部分間的相互區分,以及區分所用的特定 EBCDIC 代碼頁,等等)。
因為編碼聲明的內容限於 ASCII 字符集中的字符(不管怎樣編碼),一旦處理器檢測到使用的是哪一個編碼方案集,它能夠可靠地讀取整個編碼聲明。因為在實際中,所有廣泛使用的字符編碼都可以歸於上述種類中,XML 編碼聲明保證了可靠的內嵌(in-band)字符編碼標注,即使是在操作系統或傳輸協議級的外部信息源並不可靠的情況下。象 UTF-7 那樣重用了 ASCII 編碼值的字符編碼方案有可能無法可靠地被檢測。
一旦處理器檢測到所用的字符編碼,它就可以作出合適的動作,或是針對每種情況調用單獨的輸入例程,或是對每個輸入的字符調用版本合適的轉換函數。
和任何自標注(self-labeling)的系統一樣,一旦任何軟件改變了實體的字符集或其編碼而沒有相應修改編碼聲明的話,XML的編碼聲明將無法工作。字符編碼方案的實現者必須小心仔細,以保證用於標注實體的內部和外部信息的正確性。
第二種可能的情況是 XML 實體有附帶的信息,如在一些文件系統和網絡協議中。當具有多個信息源時,它們間的相對優先級和首選沖突處理方法必須在傳輸 XML 的高層協議中給出。具體請參考 [IETF RFC 2376] 或其後續標准,其中定義了 text/XML
和 application/XML
MIME 類型並且提供了一些有用的指導。然而出於互操作性考慮,建議使用下列規則。
本規范由 W3C XML 工作組(WG)完成並批准發表。工作組批准本規范並不表示所有的工作組成員都一致同意本規范。現有和以前的 XML 工作組成員包括:
本規范的第二版由 W3C XML 核心工作組完成。在此版本發表時此工作組的成員包括:
第二版用 XMLspec DTD 書寫(見其文檔)。其 HTML 版本用 xmlspec.xsl,diffspec.xsl,和 REC-XML-2e.xsl XSLT 樣式表制成。其 PDF 版本使用 Html2ps 和一個 distiller 程序制成。