之所以要引入XPath的概念,目的就是為了在匹配XML文檔結構樹時能夠准確地找到某一個節點元素。可以把XPath比作文件管理路徑:通過文件管理路徑,可以按照一定的規則查找到所需要的文件;同樣,依據XPath所制定的規則,也可以很方便地找到XML結構文檔樹中的任何一個節點.
不過,由於XPath可應用於不止一個的標准,因此W3C將其獨立出來作為XSLT的配套標准頒布,它是XSLT以及我們後面要講到的XPointer的重要組成部分。
在介紹XPath的匹配規則之前,我們先來看一些有關XPath的基本概念。
首先要說的是XPath數據類型。XPath可分為四種數據類型:
- 節點集(node-set)
節點集是通過路徑匹配返回的符合條件的一組節點的集合。其它類型的數據不能轉換為節點集。
- 布爾值(boolean)
由函數或布爾表達式返回的條件匹配值,與一般語言中的布爾值相同,有true和false兩個值。布爾值可以和數值類型、字符串類型相互轉換。
- 字符串(string)
字符串即包含一系列字符的集合,XPath中提供了一系列的字符串函數。字符串可與數值類型、布爾值類型的數據相互轉換。
- 數值(number)
在XPath中數值為浮點數,可以是雙精度64位浮點數。另外包括一些數值的特殊描述,如非數值NaN(Not-a-Number)、正無窮大infinity、負無窮大-infinity、正負0等等。number的整數值可以通過函數取得,另外,數值也可以和布爾類型、字符串類型相互轉換。
其中後三種數據類型與其它編程語言中相應的數據類型差不多,只是第一種數據類型是XML文檔樹的特有產物。
另外,由於XPath包含的是對文檔結構樹的一系列操作,因此搞清楚XPath節點類型也是很必要的。回憶一下第二章中講到的XML文檔的邏輯結構,一個XML文件可以包含元素、CDATA、注釋、處理指令等邏輯要素,其中元素還可以包含屬性,並可以利用屬性來定義命名空間。相應地,在XPath中,將節點劃分為七種節點類型:
- 根節點(Root Node)
根節點是一棵樹的最上層,根節點是唯一的。樹上其它所有元素節點都是它的子節點或後代節點。對根節點的處理機制與其它節點相同。在XSLT中對樹的匹配總是先從根節點開始。
- 元素節點(Element Nodes)
元素節點對應於文檔中的每一個元素,一個元素節點的子節點可以是元素節點、注釋節點、處理指令節點和文本節點。可以為元素節點定義一個唯一的標識id。
元素節點都可以有擴展名,它是由兩部分組成的:一部分是命名空間URI,另一部分是本地的命名。
- 文本節點(Text Nodes)
文本節點包含了一組字符數據,即CDATA中包含的字符。任何一個文本節點都不會有緊鄰的兄弟文本節點,而且文本節點沒有擴展名。
- 屬性節點(Attribute Nodes)
每一個元素節點有一個相關聯的屬性節點集合,元素是每個屬性節點的父節點,但屬性節點卻不是其父元素的子節點。這就是說,通過查找元素的子節點可以匹配出元素的屬性節點,但反過來不成立,只是單向的。再有,元素的屬性節點沒有共享性,也就是說不同的元素節點不共有同一個屬性節點。
對缺省屬性的處理等同於定義了的屬性。如果一個屬性是在DTD聲明的,但聲明為#IMPLIED,而該屬性沒有在元素中定義,則該元素的屬性節點集中不包含該屬性。
此外,與屬性相對應的屬性節點都沒有命名空間的聲明。命名空間屬性對應著另一種類型的節點。
- 命名空間節點(Namespace Nodes)
每一個元素節點都有一個相關的命名空間節點集。在XML文檔中,命名空間是通過保留屬性聲明的,因此,在XPath中,該類節點與屬性節點極為相似,它們與父元素之間的關系是單向的,並且不具有共享性。
- 處理指令節點(Processing InstrUCtion Nodes)
處理指令節點對應於XML文檔中的每一條處理指令。它也有擴展名,擴展名的本地命名指向處理對象,而命名空間部分為空。
- 注釋節點(Comment Nodes)
注釋節點對應於文檔中的注釋。
下面,我們來構造一棵XML文檔樹,作為後面舉例的依托:
<A id="a1">
<B id="b1">
<C id="c1">
<B name="b"/>
<D id="d1"/>
<E id="e1"/>
<E id="e2"/>
</C>
</B>
<B id="b2"/>
<C id="c2">
<B/>
<D id="d2"/>
<F/>
</C>
<E/>
</A>
-
- 屬性及屬性
在XPath中可以利用屬性及屬性值來匹配元素,要注意的是,元素的屬性名前要有"@"前綴。例如:
舉 例 含 義 匹配結果 //B[@id] 所有具有屬性id的B元素 id值為b1和b2的兩個B元素 //B[@*] 所有具有屬性的B元素兩個具有id屬性的B元素和一個具有name屬性B元素 //B[not(@*)] 所有不具有屬性的B元素 A元素→C元素下的B元素 //B[@id="b1"] id值為b1的B元素 A元素下的B元素
- 親屬關系匹配
XML文檔可歸結為樹型結構,因此任何一個節點都不是孤立的。通常我們把節點之間的歸屬關系歸結為一種親屬關系,如父親、孩子、祖先、後代、兄弟等等。在對元素進行匹配時,同樣可以用到這些概念。例如:
舉 例 含 義 匹配結果 //E/parent::* 所有E節點的父節點元素 id值為a1的A元素和id值為c1的C元素 //F/ancestor::* 所有F元素的祖先節點元素 id值為a1的A元素和id值為c2的C元素 /A/child::* A的子元素 id值為b1、b2的B元素,id值為c2的C元素,以及沒有任何屬性的E元素 /A/descendant::* A的所有後代元素除A元素以外的所有其它元素 //F/self::* 所有F的自身元素 F元素本身 //F/ancestor-or-self::* 所有F元素及它的祖先節點元素 F元素、F元素的父節點C元素和A元素 /A/C/descendant-or-self::* 所有A元素→C元素及它們的後代元素 id值為c2的C元素、該元素的子元素B、D、F元素 /A/C/following-sibling::* A元素→C元素的緊鄰的後序所有兄弟節點元素沒有任何屬性的E元素 /A/C/preceding-sibling::* A元素→C元素的緊鄰的前面所有兄弟節點元素 id值為b1和b2的兩個B元素 /A/B/C/following::* A元素→B元素→C元素的後序的所有元素 id為b2的B元素、無屬性的C元素、無屬性的B元素、id為d2的D元素、無屬性的F元素、無屬性的E元素。 /A/C/preceding::* A元素→C元素的前面的所有元素 id為b2的B元素、id為e2的E元素、id為e1的E元素、id為d1的D元素、name為b的B元素、id為c1的C元素、id為b1的B元素
條件匹配
條件匹配就是利用一些函數的運算結果的布爾值來匹配符合條件的節點。常用於條件匹配的函數有四大類:節點函數、字符串函數、數值函數、布爾函數。例如前面提到的last()、position()等等,這裡我們就不再贅述。
以上這些匹配方法中,用得最多的還要數路徑匹配。