DOM是用與平台和語言無關的方式表示XML文檔的官方W3C標准。DOM是以層次結構組織的節點或信息片斷的集合。這個層次結構允許開發人員在樹中尋找特定信息。分析該結構通常需要加載整個文檔和構造層次結構,然後才能做任何工作。
由於它是基於信息層次的,因而DOM被認為是基於樹或基於對象的。DOM 以及廣義的基於樹的處理具有幾個優點。首先,由於樹在內存中是持久的,因此可以修改它以便應用程序能對數據和結構作出更改。它還可以在任何時候在樹中上下導航,而不是像SAX那樣是一次性的處理。DOM使用起來也要簡單得多。
另一方面,對於特別大的文檔,解析和加載整個文檔可能很慢且很耗資源,因此使用其他手段來處理這樣的數據會更好。這些基於事件的模型,比如SAX。 接著是 SAX這種處理的優點非常類似於流媒體的優點。分析能夠立即開始,而不是等待所有的數據被處理。而且,由於應用程序只是在讀取數據時檢查數據,因此不需要將數據存儲在內存中。這對於大型文檔來說是個巨大的優點。
事實上,應用程序甚至不必解析整個文檔;它可以在某個條件得到滿足時停止解析。一般來說,SAX還比它的替代者DOM快許多,再接著是JDOM,JDOM 的目的是成為 Java 特定文檔模型,它簡化與 XML 的交互並且比使用 DOM 實現更快。由於是第一個 Java 特定模型,JDOM 一直得到大力推廣和促進。正在考慮通過“Java 規范請求 JSR-102”將它最終用作“Java 標准擴展”。從 2000 年初就已經開始了 JDOM 開發。
JDOM 與 DOM 主要有兩方面不同。首先,JDOM 僅使用具體類而不使用接口。這在某些方面簡化了 API,但是也限制了靈活性。第二,API 大量使用了 Collections 類,簡化了那些已經熟悉這些類的 Java 開發者的使用。
JDOM 文檔聲明其目的是“使用 20%(或更少)的精力解決 80%(或更多)Java/XML 問題”(根據學習曲線假定為 20%)。JDOM 對於大多數 Java/XML 應用程序來說當然是有用的,並且大多數開發者發現 API 比 DOM 容易理解得多。JDOM 還包括對程序行為的相當廣泛檢查以防止用戶做任何在 XML 中無意義的事。然而,它仍需要您充分理解 XML 以便做一些超出基本的工作(或者甚至理解某些情況下的錯誤)。這也許是比學習 DOM 或 JDOM 接口都更有意義的工作。
JDOM 自身不包含解析器。它通常使用 SAX2 解析器來解析和驗證輸入 XML 文檔(盡管它還可以將以前構造的 DOM 表示作為輸入)。它包含一些轉換器以將 JDOM 表示輸出成 SAX2 事件流、DOM 模型或 XML 文本文檔。JDOM 是在 apache 許可證變體下發布的開放源碼。
雖然 DOM4J 代表了完全獨立的開發結果,但最初,它是 JDOM 的一種智能分支。它合並了許多超出基本 XML 文檔表示的功能,包括集成的 XPath 支持、XML Schema 支持以及用於大文檔或流化文檔的基於事件的處理。它還提供了構建文檔表示的選項,它通過 DOM4J API 和標准 DOM 接口具有並行訪問功能。從 2000 下半年開始,它就一直處於開發之中。
為支持所有這些功能,DOM4J 使用接口和抽象基本類方法。DOM4J 大量使用了 API 中的 Collections 類,但是在許多情況下,它還提供一些替代方法以允許更好的性能或更直接的編碼方法。直接好處是,雖然 DOM4J 付出了更復雜的 API 的代價,但是它提供了比 JDOM 大得多的靈活性。
在添加靈活性、XPath 集成和對大文檔處理的目標時,DOM4J 的目標與 JDOM 是一樣的:針對 Java 開發者的易用性和直觀操作。它還致力於成為比 JDOM 更完整的解決方案,實現在本質上處理所有 Java/XML 問題的目標。在完成該目標時,它比 JDOM 更少強調防止不正確的應用程序行為。
DOM4J 是一個非常非常優秀的Java XML API,具有性能優異、功能強大和極端易用使用的特點,同時它也是一個開放源代碼的軟件。如今你可以看到越來越多的 Java 軟件都在使用 DOM4J 來讀寫 XML,特別值得一提的是連 Sun 的 JAXM 也在用 DOM4J。 JDOM 和 DOM 在性能測試時表現不佳,在測試 10M 文檔時內存溢出。在小文檔情況下還值得考慮使用 DOM 和 JDOM。雖然 JDOM 的開發者已經說明他們期望在正式發行版前專注性能問題,但是從性能觀點來看,它確實沒有值得推薦之處。另外,DOM 仍是一個非常好的選擇。DOM 實現廣泛應用於多種編程語言。它還是許多其它與 XML 相關的標准的基礎,因為它正式獲得 W3C 推薦(與基於非標准的 Java 模型相對),所以在某些類型的項目中可能也需要它(如在 JavaScript 中使用 DOM)。
SAX表現較好,這要依賴於它特定的解析方式。一個 SAX 檢測即將到來的XML流,但並沒有載入到內存(當然當XML流被讀入時,會有部分文檔暫時隱藏在內存中)。
無疑,DOM4J是這場測試的獲勝者,目前許多開源項目中大量采用 DOM4J,例如大名鼎鼎的 Hibernate 也用 DOM4J 來讀取 XML 配置文件。如果不考慮可移植性,那就采用DOM4J吧!
使用基於事件的XML簡單API(Simple API for XML)稱為SAX和基於樹和節點的文檔對象模型(Document Object Module)稱為DOM。Sun公司提供了Java API for XML Parsing(JAXP)接口來使用SAX和DOM,通過JAXP,我們可以使用任何與JAXP兼容的XML解析器。JAXP接口包含了三個包:
(1)org.w3c.dom W3C推薦的用於XML標准規劃文檔對象模型的接口。
(2)org.xml.sax 用於對XML進行語法分析的事件驅動的XML簡單API(SAX)
(3)Javax.XML.parsers解析器工廠工具,程序員獲得並配置特殊的特殊語法分析器。
前提
DOM編程不要其它的依賴包,因為JDK裡自帶的JDK裡含有的上面提到的org.w3c.dom、org.XML.sax 和Javax.XML.parsers包就可以滿意條件了。
使用DOM解析XML文檔
我們現在來看看DOM是如何解析XML的吧!同樣的,我將從一個簡單的不能再簡單的例子來說明DOM是如何解析XML文檔的,先讓我們看看XML是什麼內容吧:
1.先建立一個configure.xml;存放在src包下的XML包下。
- <?XML version="1.0" encoding="gbk"?>
- <books>
- <book email="zhoujunhui">
- <name>rjzjh</name>
- <price>jjjjjj</price>
- </book>
- </books>
2.建立解析程序,DomParse.Java,存放在src下的ttg包下。
- package ttg;
- import Java.io.FileInputStream;
- import Java.io.FileNotFoundException;
- import Java.io.IOException;
- import Java.io.InputStream;
- import Javax.XML.parsers.DocumentBuilder;
- import Javax.XML.parsers.DocumentBuilderFactory;
- import Javax.XML.parsers.ParserConfigurationException;
- import org.w3c.dom.Document;
- import org.w3c.dom.Element;
- import org.w3c.dom.Node;
- import org.w3c.dom.NodeList;
- import org.XML.sax.SAXException;
- public class DomParse {
- public DomParse() {
- //得到DOM解析器的工廠實例
- //Javax.XML.parsers.DocumentBuilderFactory類的實例就是我們要的解析器工廠
- DocumentBuilderFactory domfac = DocumentBuilderFactory.newInstance();
- try {
- //通過Javax.XML.parsers.DocumentBuilderFactory實例的靜態方法newDocumentBuilder()得到DOM解析器
- DocumentBuilder dombuilder = domfac.newDocumentBuilder();
- //把要解析的XML文檔轉化為輸入流,以便DOM解析器解析它
- InputStream is = new FileInputStream("src/xml/configure.XML");
- //解析XML文檔的輸入流,得到一個Document
- //由XML文檔的輸入流得到一個org.w3c.dom.Document對象,以後的處理都是對Document對象進行的
- Document doc = dombuilder.parse(is);
- //得到XML文檔的根節點
- //在DOM中只有根節點是一個org.w3c.dom.Element對象。
- Element root = doc.getDocumentElement();
- //得到節點的子節點
- //這是用一個org.w3c.dom.NodeList接口來存放它所有子節點的,還有一種輪循子節點的方法
- NodeList books = root.getChildNodes();
- if (books != null) {
- for (int i = 0; i < books.getLength(); i++) {
- Node book = books.item(i);
- if (book.getNodeType() == Node.ELEMENT_NODE) {
- //取得節點的屬性值
- //注意,節點的屬性也是它的子節點。它的節點類型也是Node.ELEMENT_NODE
- String email = book.getAttributes().getNamedItem("email").getNodeValue();
- System.out.println(email);
- //輪循子節點
- for (Node node = book.getFirstChild(); node != null; nodenode = node.getNextSibling())
- {
- if (node.getNodeType() == Node.ELEMENT_NODE) {
- if (node.getNodeName().equals("name")) {
- String name = node.getNodeValue();
- String name1 = node.getFirstChild()
- .getNodeValue();
- System.out.println(name);
- System.out.println(name1);
- }
- if (node.getNodeName().equals("price")) {
- String price = node.getFirstChild()
- .getNodeValue();
- System.out.println(price);
- }
- }
- }
- }
- }
- }
- } catch (ParserConfigurationException e) {
- e.printStackTrace();
- } catch (FileNotFoundException e) {
- e.printStackTrace();
- } catch (SAXException e) {
- e.printStackTrace();
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- public static void main(String[] args) {
- DomParse domp=new DomParse();
- }
- }