XML入門精解之結構與語法

DIV+CSS佈局教程網 >> 網頁腳本 >> XML學習教程 >> XML詳解 >> XML入門精解之結構與語法 - asp.net

XML入門精解之結構與語法 - asp.net

編輯：XML詳解

暫且使用“記事本”來創建我們的XML文件吧。先看一個XML文件：

　　例1

　　〈?XML version="1.0" encoding="gb2312" ?〉
　　〈參考資料〉
　　〈書籍〉
　　〈名稱〉XML入門精解〈/名稱〉
　　〈作者〉張三〈/作者〉
　　〈價格貨幣單位="人民幣"〉20.00〈/價格〉
　　〈/書籍〉
　　〈書籍〉
　　〈名稱〉XML語法〈/名稱〉
　　〈!--此書即將出版--〉
　　〈作者〉李四〈/作者〉
　　〈價格貨幣單位="人民幣"〉18.00〈/價格〉
　　〈/書籍〉
　　〈/參考資料〉

　　這是一個典型的XML文件，編輯好後保存為一個以.xml為後綴的文件。我們可以將此文件分為文件序言（Prolog）和文件主體兩個大的部分。在此文件中的第一行即是文件序言。該行是一個XML文件必須要聲明的東西，而且也必須位於XML文件的第一行，它主要是告訴XML解析器如何工作。其中，version是標明此XML文件所用的標准的版本號，必須要有；encoding指明了此XML文件中所使用的字符類型，可以省略，在你省略此聲明的時候，後面的字符碼必須是Unicode字符碼（建議不要省略）。因為我們在這個例子中使用的是GB2312字符碼，所以encoding這個聲明也不能省略。在文件序言部分還有一些聲明語句，我們在後面給予介紹。

　　文件的其余部分都是屬於文件主體，XML文件的內容信息存放在此。我們可以看到，文件主體是由開始的〈參考資料〉和結束的〈/參考資料〉控制標記組成，這個稱為XML文件的“根元素”；〈書籍〉是作為直屬於根元素下的“子元素”；在〈書籍〉下又有〈名稱〉、〈作者〉、〈價格〉這些子元素。貨幣單位是〈價格〉元素中的一個“屬性”，“人民幣”則是“屬性值”。

　　〈!--此書即將出版--〉這一句同Html一樣，是注釋，在XML文件裡，注釋部分是放在“〈!--”與“--〉”標記之間的部分。

　　大家可以看到，XML文件是相當簡單的。同Html一樣，XML文件也是由一系列的標記組成，不過，XML文件中的標記是我們自定義的標記，具有明確的含義，我們可以對標記中的內容的含義作出說明。

　　對XML文件有了初步的印象之後，我們就來詳細地談一談XML文件的語法。在講語法之前，我們必須要了解一個重要的概念，就是XML解析器（XML Parse）。

　　1.XML解析器

　　解析器的主要功能就是檢查XML文件是否有結構上的錯誤，剝離XML文件中的標記，讀出正確的內容，以交給下一步的應用程序處理。XML是一種用來結構化文件信息的標記語言，XML規范中對於如何標記文件的結構性有一個詳細的法則，解析器就是根據這些法則寫出來的軟件（多用Java寫成）。同HTML一樣，在浏覽器中，必須有HTML的解析器，這樣浏覽器才能夠“讀懂”各種用HTML標記所組成的網頁，將它們顯示在我們面前。如果有浏覽器的Html解析器讀不懂的標記，將會返回給我們錯誤信息。

　　由於現在的Html標記實際上相當混亂，存在大量不規范的標記（有的網頁用IE能正常顯示，而用Netscape Navigator則不行），所以從一開始，XML的設計者就嚴格規定了XML的語法和結構，我們編寫的XML文件必須遵循這些規定，否則XML解析器將毫不留情地給你顯示錯誤信息。

　　有兩種XML文件，一種是Well-Formed XML文件，一種是Validating XML文件。

　　如果一個XML文件滿足XML規范中的某些相關法則，且沒有使用DTD（文件格式定義——後詳述）時，可稱這份文件是Well-Formed。而如果一個XML文件是Well-Formed，且正確地使用了DTD，DTD中的語法又是正確的，那麼這個文件就是Validating。對應兩種XML文件，有兩種XML解析器，一種是Well-Formed 解析器，一種是Validating解析器。IE 5中就內含Validating解析器，Validating解析器也可用來解析Well-Formed XML文件。

　　檢查它是否滿足了Well-Formed的條件。我們可以將剛才編輯的第一個XML 文件用IE 5以上版本的浏覽器打開。

　　大家可能要問為什麼在浏覽器中的顯示和我的源文件一樣？沒錯，因為對於XML文件，我們鼋龉匦乃的內容，而它的顯示形式是交給CSS或XSL來完成的。這裡，我們並沒有給這個XML文件定義它的CSS或XSL文件，所以它按照原來的形式來顯示。實際上，對於電子數據交換，僅僅需要一個XML文件即可，如果要將它以某種形式顯示出來，我們就必須編輯CSS或XSL文件（這個問題會在以後討論）。

　　2.Well-Formed的XML文件

　　我們知道，XML必須是Well-Formed的，才能夠被解析器正確地解析出來，顯示在浏覽器中。那麼什麼是Well-Formed的XML文件呢？主要有下面幾個准則，我們在創建XML文件的時候，必須滿足它們。

　　首先，XML文件的第一行必須是聲明該文件是XML文件以及它所使用的XML規范版本。在文件的前面不能夠有其它元素或者注釋。

　　第二，在XML文件中有且只能夠有一個根元素。我們的第一個例子中，〈參考資料〉... 〈/參考資料〉就是此XML文件的根元素。

　　第三，在XML文件中的標記必須正確地關閉，也就是說，在XML文件中，控制標記必須有與之對應的結束標記。如：〈名稱〉標記必須有對應的〈/名稱〉結束標記，不像HTML，某些標記的結束標記可有可無。如果在XML文件中遇到自成一個單元的標記，就是類似於Html 中的〈img src=.....〉的這些沒有結束標記的時候，XML把它稱為“空元素”，必須用這樣的寫法：〈空元素名/〉，如果元素中含有屬性時寫法則為：〈空元素名屬性名=“屬性值”/〉。

　　第四，標記之間不得交叉。在以前的Html文件中，可以這樣寫：

　　〈B〉〈H〉XXXXXXX〈/B〉〈/H〉,〈B〉和〈H〉

　　標記之間有相互重疊的區域，而在XML中，是嚴格禁止這樣標記交錯的寫法，標記必須以規則性的次序來出現。

　　第五，屬性值必須要用“ ”號括起來。如第一個例子中的“1.0”、“gb2312”、“人民幣”。都是用“ ”號括起來了的，不能漏掉。

　　第六，控制標記、指令和屬性名稱等英文要區分大小寫。與HTML不同的是，在Html中，類似〈B〉和〈b〉的標記含義是一樣的，而在XML中，類似〈name〉、〈NAME〉或〈Name〉這樣的標記是不同的。

　　第七，我們知道，在HTML文件中，如果我們要浏覽器原封不動地將我們所輸入的東西顯示出來，可以將這些東西放到〈pre〉〈/pre〉或者〈xmp〉〈/xmp〉標記中間。這對於我們創建HTML教學的網頁是必不可少的，因為網頁中要顯示Html的源代碼。而在XML中，要實現這樣的功能，就必須使用CDATA標記。在CDATA標記中的信息被解析器原封不動地傳給應用程序，並且不解析該段信息中的任何控制標記。CDATA區域是由：“〈![CDATA[”為開始標記，以“>〉”為結束標記。例如：例2中的源碼，除了“〈![CDATA[”和“>〉”符號，其余的內容解析器將原封不動地交給下游的應用程序，即使CDATA區域中的開始和結尾的空白以及換行字符等，都同樣會被轉交（注意CDATA是大寫的字符）。

　　例2

　　〈![CDATA[飛翔的XML〉〉〉〉〉,:-)
　　oooo〈〈〈〈〈〈〈
　　>〉

　　第八，XML處理空白字符和HTML不一樣。HTML標准規定，不管有多少個空白，都當作一個空白來處理；而在XML中規定，所有標記以外的空白，解析器都要忠實地交給下游的應用程序處理。這樣，我們有時必須摒棄編寫Html文件時的縮排習慣，因為縮排的空格，解析器也要處理。如：

　　〈作者〉張三〈/作者〉
　　和
　　〈作者〉
　　張三
　　〈/作者〉

　　上述內容對於解析器來說是不同的（後者在〈作者〉〈/作者〉標記之內除了張三這個字符以外，還包括兩個換行記號以及“張三”前的文字縮排符號）。所以解析器在去掉標記後將信息傳給應用程序將有不同的處理結果。

　　如果我們想明確地告訴XML程序，標記中的空白有明確的含義，不要隨便去掉（如在一些詩中，空格有它具體的意義），則可在標記中加入一個XML內置的屬性——XML:space 。如（注意屬性名稱和值的大小寫）：　　

　　〈詩歌 XML:space="preserver"〉
　　祖國啊！祖國！
　　我的祖國！
　　〈/詩歌〉

　　另外，在XML文件中，如果要用到表1的特殊字符，必須用相應符號代替。

　　表1

　　特殊字符替代符號
　　&& &
　　< ⁢
　　> >
　　" "
　　@# '

　　在此做個小結：符合上述規定的XML文件就是Well-Formed的XML文件。這是編寫XML文件的最基本要求。可以看到XML文件的語法規定比HTML要嚴格多了。由於有這樣的嚴格規定，軟件工程師編寫XML的解析器就容易多了，不像編寫HTML語言的解析器，必須費盡心思去適應不同的網頁寫法，提高自己浏覽器的適應能力。實際上，這對於我們初學者來說，也是一件好事。該怎樣就怎樣，不必像原來那樣去疑惑各種Html的寫法。

　　我們看到，在XML文件中，用的大多都是自定義的標記。但是大家考慮一下，如果兩個同行業的公司A和B要用XML文件相互交換數據，A公司用〈價格〉標記來表示他們產品的價格信息，而B公司可能用〈售價〉來表示價格信息。如果一個XML應用程序來讀取他們各自的XML文件中的信息時，如果它只知道〈價格〉標記裡表示的是價格信息，那麼B公司的價格信息就讀不出來，必將產生錯誤。顯然，對於想利用XML文件來交換信息的實體來說，他們之間必須有一個約定——即編寫XML文件可以用哪些標記，母元素中能夠包括哪些子元素，各個元素出現的順序，元素中的屬性怎樣定義等。這樣他們在用XML交換數據時才能夠暢通無阻。這種約定稱為DTD（Document Type Definition，文檔格式定義）。可以把DTD看作編寫XML文件的模板。對於同行業之間的XML數據交換，有一個固定的DTD將會方便很多。比如說，如果網上的各大電子商場的XML網頁都遵循同一個DTD時，那麼我們就可以輕松地依據這個DTD 編寫一個應用程序，去網上將我們感興趣的東西自動抓回來。事實上已經有了好幾個定義好的DTD，如前面所說的MathML、SMIL等。

　　如果一個XML文件是Well-Formed的，並且它是正確的依據某個DTD建立的，那麼，這個XML文件就被稱為：Validating XML文件。相應的解析器就稱為：Validating Parser。

上一頁:PHP腳本的10個技巧（轉自ZDNet） --PHP和XML
下一頁:XML Schema學習（一） - asp.net

XML詳解

Java與XML聯合編程: 誕生之日起，它就一直是業界的焦點話題之一。經過了幾年的發展，XML技術日趨成熟，現在越來越多的應用
gentoo.org 重新設計，第 3 部分: 一個再生的站點: 　現在的站點　　到目前為止，www.gentoo.org 已顯現出重大改進。上一篇文章中，我用
DB2 Version 9.5 pureXML新增強概述: 新的DB2 version 9.5 pureXML特性和增強。本文描述IBM DB2 V9.5版針

XML基礎 XML與XSLT XML詳解

DIV CSS 佈局教程網

相關文章