XML 文檔類型定義,俗稱 DTD,它是一種准確描述 XML 語言的方式。DTDs 根據適當 XML 語言的語法規則檢查 XML 文檔的詞匯和結構的有效性。
XML DTD 可以指定在文檔內部,也可以保存在獨立的文檔中然後單獨鏈接。
語法
DTD 的基本語法如下所示:
上述語法中:
DTD 以 <!DOCTYPE 定界符開始。
element 用於告訴解析器從指定的根元素開始解析文檔。
DTD identifier 是一個用於文檔類型定義的標示符,它可以是一個指向系統中某個文件的路徑或者連接到互聯網上某個文件的 URL。如果 DTD 指向外部路徑,則被稱為外部子集。 _ [] 內是一個可選的實體聲明列表,被稱為內部子集。
內部 DTD
如果一個元素聲明在 XML 文檔的內部則 DTD 被稱為內部 DTD。為了把它作為內部 DTD,XML 聲明中的 standalone 屬性必須設置為 yes。這意味著,聲明的工作獨立於外部源。
語法
內部 DTD 語法如下所示:
XML/HTML Code復制內容到剪貼板這裡 root-element 是根元素的名稱,element-declarations 表示我們聲明的元素。
示例
下面是一個內部 DTD 的簡單示例:
XML/HTML Code復制內容到剪貼板我們來看一下上面的代碼:
開始聲明 - 使用如下語句開始 XML 聲明:
XML/HTML Code復制內容到剪貼板DTD - 緊跟在 XML 頭後面,_文檔類型聲明_如下,通常被稱為 DOCTYPE:
<!DOCTYPE address [
DOCTYPE 聲明在元素名稱的開頭包含一個感歎號(!)。DOCTYPE 會通知解析器有一個 DTD 與這個文檔相關聯。
DTD Body - DOCTYPE 聲明後面緊跟 DTD 體,這裡我們聲明元素,屬性,實體和符號:
XML/HTML Code復制內容到剪貼板許多元素都在這裡通過 <name> 文檔詞匯聲明。<!ELEMENT name (#PCDATA)> 定義元素_名稱_為 "#PCDATA" 類型。這裡 #PCDATA 意味著可解析的文本數據。
結束聲明 - 最後,DTD 的聲明部分使用方括號和尖括號(]>)閉合。這是一個有效的結束定義,後面緊跟的就是 XML 文檔內容。
規則
文檔類型聲明必須出現在文檔的開頭部分(只先與 XML 頭),不允許出現在文檔的任意其他位置。
類似於 DOCTYPE 聲明,元素聲明必須以感歎號開始。
文檔類型聲明中的 Name 必須與根元素的類型匹配。
外部 DTD
在外部 DTD 中元素聲明在 XML 文檔的外部。通過指定 system 屬性來訪問,這個屬性值可以是合法的 .dtd 文件或者有效的 URL。為了指示它是外部 DTD,XML 聲明的 standalone 屬性必須設置為 no。這就意味著,聲明包含來自外部源的信息。
語法
下面是外部 DTD 的語法:
<!DOCTYPE root-element SYSTEM "file-name">
這裡 file-name 就是 .dtd 擴展的文件。
示例
下面的示例展示了外部 DTD 的用法:
XML/HTML Code復制內容到剪貼板類型
我們可以通過使用系統標示符或者公共標示符引用一個外部DTD。
系統標示符
系統標示符允許我們指定包含 DTD 聲明的外部文件的位置。語法如下:
XML/HTML Code復制內容到剪貼板正如我們可以看到的,它包含 SYSTEM 關鍵字和一個指向文檔位置的 URI 引用。
公共標示符
公共標示符提供了一種定位 DTD 資源的機制,寫法如下:
XML/HTML Code復制內容到剪貼板正如我們可以看到的,它以 PUBLIC 關鍵字開始,後面緊跟的是專門的標識符。公共標識符被用來標識目錄中的條目。公共標識符可以遵循任意格式,但是常用的格式是正式公用標識符(或者 FPIs)。
聲明元素
在dtd中聲明元素(在一個xml如果一個元素想要讓它是合法的,則需要在dtd中聲明)
語法:<!ELEMENT 元素名稱 類別>和<!ELEMENT 元素名稱 (元素內容)>這兩種方式
<!ELEMENT 元素名稱 EMPTY>
例如:
則xml可以寫成:
注意點
在dtd中
所有的 XML 文檔(以及 HTML 文檔)均由以下簡單的構建模塊構成:
元素
屬性
實體
PCDATA
CDATA
下面是一些注意點:
(1)實體是用來定義普通文本的變量。實體引用是對實體的引用。
大多數同學都了解這個 HTML 實體引用:" "。這個“無折行空格”實體在 HTML 中被用於在某個文檔中插入一個額外的空格。
當文檔被 XML 解析器解析時,實體就會被展開。
(2) PCDATA
PCDATA 的意思是被解析的字符數據(parsed character data)。
可把字符數據想象為 XML 元素的開始標簽與結束標簽之間的文本。
PCDATA 是會被解析器解析的文本。這些文本將被解析器解析成實體以及標記。
文本中的標簽會被當作標記來處理,而實體會被展開。
不過,被解析的字符數據不應當包含任何 &、< 或者 > 字符;需要使用 &、< 以及 > 實體來分別替換它們。
(3)CDATA
CDATA 的意思是字符數據(character data)。
CDATA 是不會被解析器解析的文本。在這些文本中的標簽不會被當作標記來對待,其中的實體也不會被展開。