前言
XML是一種優秀的數據打包和數據交換的形式,在當今XML大行於天下,如果沒有聽說過它的大名,那可真是孤陋寡聞了。用XML描述數據的優勢顯而易見,它具有結構簡單,便於人和機器閱讀的雙重功效,並彌補了關系型數據對客觀世界中真實數據描述能力的不足。W3C組織根據技術領域的需要,制定出了XML的格式規范,並相應的建立了描述模型,簡稱DOM。各種流行的程序設計語言都紛紛根據這一模型推出了自己的XML解析器,在JAVA世界裡,apache組織開發的XERCES應該是流行最廣功能最為強大的XML解析器之一。但是由於W3C在設計DOM模型時,並不是針對某一種語言而設計,因此為了通用性,加入了許多繁瑣而不必要的細節 ,使JAVA程序員在開發XML的應用程序過程中感到不甚方便,因此JDOM作為一種新型的XML解析器橫空出世,它不遵循DOM模型,建立了自己獨立的一套JDOM模型(注意JDOM決不是DOM擴展,雖然名字差不多,但兩者是平行的關系),並提供功能強大使用方便的類庫,使Java程序員可以更為高效的開發自己的XML應用程序,並極大的減少了代碼量,因此它很快得到了業內的認可,如JBUILDER這樣的航空母艦級的重磅產品都以JDOM為XML解析引擎,足見其名不虛傳。
有了XML數據的描述標准,人們自然就會想到應該有一種查詢語言可以在XML中查找任意節點的數據,就像SQL語句可以在關系性數據庫中執行查詢操作一樣,於是XQUERY和XPATH順應潮流,應運而生。由於XQUERY較為復雜,使用不甚方便,XPATH漸漸成為主流,我們只需對XPATH進行學習,便可以應付所有的查詢要求。在JDOM發布的最新的V1.0bata10版中,已經加入了對XPATH的支持,這無疑是令開發者十分激動的。
學會JDOM和XPATH,你便不再是XML的入門者,在未來的開發生涯中,就像特種兵的多用匕首,為你披荊斬棘,助你勇往直前。閒言少敘,學習還要腳踏實地,從頭開始。
XPATH速成篇
XPATH遵循文檔對象模型(DOM)的路徑格式,由於每個XML文檔都可以看成是一棵擁有許多結點的樹,每個結點可以是以下七個類型之一:根(root)、元素(element)、屬性(attribute)、正文(text)、命名空間(namespace)、處理指令(processing instruction)和注釋(comment)。XPATH的基本語法由表達式構成。在計算表達式的值之後產生一個對象,這種對象有以下四種基本類型:節點集合、布爾型、數字型和字符串型 。XPATH基本上和在文件系統中尋找文件類似,如果路徑是以"/"開頭的,就表明該路徑表示的是一個絕對路徑,這和在UNIX系統中關於文件路徑的定義是一致的。以"//"開頭則表示在文檔中的任意位置查找。
不談泛泛的理論,學習XPATH還要從實例學起最為快捷,並有助於你舉一反三。
下面的樣例XML文檔,描述了某台電腦中硬盤的基本信息(根節點<HD>代表硬盤,<disk>標簽代表硬盤分區,從它的name屬性可以看出有兩個盤符名稱為"C"和"D"的分區;每個分區下都包含<capacity>,<directorIEs><files>三個節點,分別代表了分區的空間大小、目錄數量、所含文件個數):
<?XML version="1.0" encoding="UTF-8"?>
<HD>
<disk name="C">
<capacity>8G</capacity>
<directories>200</directorIEs>
<files>1580</files>
</disk>
<disk name="D">
<capacity>10G</capacity>
<directories>500</directorIEs>
<files>3000</files>
</disk>
</HD>
你在XML文檔中使用位置路徑表達式來查找信息,這些表達式有很多種組成方式。
結點元素的查找是你將要碰到的最頻繁的查找方式。在上面這個XML文檔例子中,根HD包含disk結點。你可以使用路徑來查找這些結點,用正斜槓(/)來分隔子結點,返回所有與模式相匹配的元素。下面的XPATH 語句返回所有的disk元素:
/HD/disk
"*"代表"全部"的意思。/HD/* 代表HD下的全部節點。
下面的XPATH將返回任意節點下的名稱為disk的全部節點:
//disk
下面的XPATH將返回名稱為disk,name屬性為'C'的全部節點:
/HD/disk[@name='C']
節點的附加元素,比如屬性,函數等都要用方括號擴起來,屬性前面要加上@號
下面的XPATH將返回文件個數為1580的files節點:
/HD/disk/files[text()='1580']
大家注意到上面包含一個text(),這就是XPATH的一個函數,它的功能是取出當前節點的文本。
下面的XPATH將返回文件個數為1580的分區:
/HD/disk/files[text()='1580']/parent::*
最後的parent::*表示這個元素的所有的父節點的集合。
XPATH中一些有用的函數:
string concat (string, string, string*) 聯接兩個字符串 boolean starts-with (string, string) 判斷某字符串是否以另一字符串開頭 boolean contains (string, string) 判斷某字符串是否包含另一字符串 string substring (string, number, number) 取子字符串 number string-length (string) 測字符串長度 number sum (node-set) 求和 number floor (number) 求小於此數的最大整數值 number ceiling (number) 求大於此數最小整數值XPATH具有豐富的表達功能,上面這些已經基本夠用,在你做項目中就會發現根據實際情況有許多查詢需求,你應該參考本文最後提供的W3C發布的關於XAPH的官方資料進行查閱,我在這裡只起一個拋磚引玉的作用,在下面的章節中,我們的應用范例將不會超出上面提到的這些內容,如果你對XPATH感興趣,應該在讀完本文後,查找相關資料和書籍進行深入學習。
JDOM修煉篇
用過XERCES的程序員都會感到,有時候用一句話就可以說清楚的事,當用XERCES的API來實現時,要三四行程序。
獲得並安裝JDOM
在 http://www.jdom.org/可以下載JDOM的最新版本,將壓縮包中的jdom.jar及lib目錄下的全部jar包加入到classpath就可以了。
用JDOM解析XML
JDOM模型的全部類都在org.jdom.*這個包裡,org.jdom.input.*這個包裡包含了JDOM的解析器,其中的DOMBuilder的功能是將DOM模型的Document解析成JDOM模型的Document;SAXBuilder的功能是從文件或流中解析出符合JDOM模型的XML樹。由於我們的上面提到的XML樣例存儲在一個名稱為sample.xml的文件中,很顯然我們應該采用後者作為解析工具。下面程序演示了jdom的基本功能,即解析一個XML文檔,並挑選一些內容輸出到屏幕上。
import Java.util.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;
public class Sample1 {
public static void main(String[] args) throws Exception{
SAXBuilder sb=new SAXBuilder();
Document doc=sb.build("sample.XML");
Element root=doc.getRootElement();
List list=root.getChildren("disk");
for(int i=0;i<list.size();i++){
Element element=(Element)list.get(i);
String name=element.getAttributeValue("name");
String capacity=element.getChildText("capacity");
String directories=element.getChildText("directorIEs");
String files=element.getChildText("files");
System.out.println("磁盤信息:");
System.out.println("分區盤符:"+name);
System.out.println("分區容量:"+capacity);
System.out.println("目錄數:"+directorIEs);
System.out.println("文件數:"+files);
System.out.println("-----------------------------------");
}
}
}
程序的輸出結果:
磁盤信息:
分區盤符:C
分區容量:8G
目錄數:200
文件數:1580
-----------------------------------
磁盤信息:
分區盤符:D
分區容量:10G
目錄數:500
文件數:3000
-----------------------------------
這段程序采用了傳統的解析方式,一級一級的從根節點到子節點逐個采集我們所需要的數據,中規中矩。試想如果這個樹足夠深,我們想取第5 0層第三個節點的數據(誇張了點,呵呵),那將是一場噩夢!下面的內容將輕松化解你的這一痛苦。
JDOM+XPATH進階篇
說了那麼多JDOM和XPATH的好處,終於到了英雄有用武之地的時候了。
JDOM的關於XPATH的api在org.jdom.xpath這個包裡。看看這個包下,只有一個類,JDOM就是如此簡潔,什麼事都不故弄玄虛的搞得那麼復雜。這個類中的核心的api主要是兩個selectNodes()和selectSingleNode()。前者根據一個xpath語句返回一組節點;後者根據一個xpath語句返回符合條件的第一個節點。
下面的程序我們用JDOM+XPATH實現了上一個程序同樣的功能,你可以從中學到不少運用XPATH 的知識:
import Java.util.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;
import org.jdom.xpath.XPath;
public class Sample2 {
public static void main(String[] args) throws Exception {
SAXBuilder sb = new SAXBuilder();
Document doc = sb.build("sample.XML");
Element root = doc.getRootElement();
List list = XPath.selectNodes(root, "/HD/disk");
for (int i = 0; i > list.size(); i++) {
Element disk_element = (Element) list.get(i);
String name = disk_element.getAttributeValue("name");
String capacity = ( (Text) XPath.selectSingleNode(disk_element,
"//disk[@name='" + name + "']/capacity/text()")).getTextNormalize();
String directorIEs = ( (Text) XPath.selectSingleNode(disk_element,
"//disk[@name='" + name + "']/directorIEs/text()")).getTextNormalize();
String files = ( (Text) XPath.selectSingleNode(disk_element,
"//disk[@name='" + name + "']/files/text()")).getTextNormalize();
System.out.println("磁盤信息:");
System.out.println("分區盤符:" + name);
System.out.println("分區容量:" + capacity);
System.out.println("目錄數:" + directorIEs);
System.out.println("文件數:" + files);
System.out.println("-----------------------------------");
}
}
}
輸出結果:
磁盤信息:
分區盤符:C
分區容量:8G
目錄數:200
文件數:1580
-----------------------------------
磁盤信息:
分區盤符:D
分區容量:10G
目錄數:500
文件數:3000
-----------------------------------
結語
技術在日新月異的發展。永遠沒有學過後,便可以一勞永逸的技術。XML的發展一日千裡。W3C作為INTERNET方面的權威組織指導著互聯網技術的發展方向。新技術的出現大都圍繞著W3C制訂的標准,但往往有些“旁門左道”的另類功法卻能產生驚人的殺傷力。JDOM就是這眾多旁門中的一朵奇葩。就像J2EE大行其道的今天,有許多開源組織仍舊在默默的打造著自己的獨家兵器,誰又能說在不久的將來,他們不會成為劃時代的創造呢? 君不見Hibernate的興起正在有力的震撼著J2EE中EJB架構的基石。只要是成型的框架,必然有薄弱的軟肋。新的技術只要能攻入對方這一弱點,便可在業界站一席之地。本文只起拋磚引玉的作用,相信讀者在吃過這道快餐之後,一定會發現窗外有更美麗的風景等待我們去游歷。