br>
這篇文章的面向對象是所有對PHP5的XML新功能感興趣的各個水平的PHP開發者。我們假定讀者掌握XML的基本知識。然而,如果你已經在你的PHP當中使用了XML,那麼這篇文章也會讓你受益非淺。
介紹
在當今的互聯網世界,XML已經不再是一個時髦詞了,它已經被廣泛的接受和規范的使用了。因此相對於PHP4,PHP5對於XML的支持更受到了重視。在PHP4中你面對的幾乎都是非標准,API中斷,內存洩漏以及其它不完全的功能。盡管有些不足已經在PHP4.3中得到改進,開發者們還是決定拋棄原有的代碼,在PHP5重寫全部代碼。
這篇文章將對PHP5中關於XML的所有令人激動的新特性逐一介紹。
PHP4 的 XML
早期的PHP版本就已經開始支持XML了,而這只是一個基於SAX的接口,它可以輕松的解析任何XML文檔。隨著PHP4中加入了DOMXML擴展模塊,XML被更好的支持了。後來XSLT做為補充被加了進來。在整個PHP4的階段,其它一些功能如Html,XSLT和DTD驗證也被加到了DOMXML擴展中,不幸的是,由於XSLT和DOMXML擴展始終處於實驗階段,API部分也被不止一次的修改,它們還是不能以默認方式安裝。此外,DOMXML擴展沒有遵循W3C制定的DOM標准,而有自己的命名方法。雖然在PHP4.3中這部分得到了改善並且許多內存洩漏和其它一些功能也得以修復,但它始終沒有發展到一個穩定的階段,一些深入的問題已經幾乎不可能修復。只有SAX擴展被已默認方式安裝,其它的一些擴展從未得到廣泛的使用。
基於所有這些原因,PHP的XML開發者決定在PHP5重寫全部代碼,並遵循使用標准。
PHP5的XML
在PHP5中所有支持XML的部分幾乎全部重新編寫.現在的所有XML擴展都是基於GNOME項目的LIBXML2庫。這將允許在不同的擴展模塊之間互相操作,核心開發者只需要在一個底層的庫上進行開發。例如,復雜的內存管理只實現一次就可以讓所有XML相關擴展得到改善。
除了繼承PHP4中聞名的SAX解析器之外,PHP5還支持遵循W3C標准的DOM和基於LIBXSLT引擎的XSLT。同時還加入了PHP獨有的SimpleXML擴展和符合標准的SOAP擴展。隨著XML越來越被重視,PHP開發者決定在默認安裝方式中加入更多對XML的支持。這就意味著你現在可以使用SAX,DOM和SimpleXML,而這些擴展將會在更多的服務器上安裝。然後對於XSLT和SOAP的支持,還需要在PHP編譯時被顯式的配置。
數據流的支持
現在所有的XML擴展都支持PHP數據流,即使你不從PHP中直接訪問。例如,在PHP5中你可以從一個文件或從一條指令訪問數據流。基本上你能夠在任何可以訪問普通文件的地方訪問PHP數據流。
PHP4.3中簡要的介紹了數據流,在PHP5中已經得到了進一步的提高,包含文件存取,網絡存取和其它操作,如共享一套功能函數。你甚至可以使用PHP代碼來實現你自己的數據流,這樣數據存取將變得非常簡單。關於這部分的更多細節請參考PHP文檔。
SAX
SAX的全稱是Simple API for XML,它是用於解析XML文檔的接口,是基於回調形式的。從PHP3開始就已經支持了SAX,到現在也沒有太大的變化。在PHP5中,API接口並沒有改變,所以你的代碼仍然可以運行。唯一不同的是它不再基於EXPAT庫,而是基於LIBXML2庫。
這個變化帶來了一些對命名空間支持上的問題,這個問題在LIBXML2.2.6版本中已經得到解決。但是LIBXML2以前的版本中並沒有解決,因此如果你使用了xml_parse_create_ns();強烈建議在你的系統上安裝LIBXML2.2.6。
DOM
DOM (文檔對象模型)是由W3C制定的一套訪問XML文檔樹的標准。在PHP4可以使用DOMXML來對此進行操作,DOMXML的最主要問題是它不符合標准的命名方法。而且在很長一段時間內還存在內存洩漏問題(PHP4.3已經修復了這個問題)。
新的DOM擴展是基於W3C標准完成的,包含方法和屬性名稱。如果你在其它語言中熟悉DOM,例如在JavaScript中,那麼在PHP中編寫類似的功能將變得非常容易。你不必每次都查看文檔,因為方法和參數都是相同的。
由於使用了新的W3C標准,基於DOMXML的代碼將不能運行。在PHP中的API有很大的不同。但是如果你的代碼中使用了類似W3C標准的方法命名方式,移植並不是很困難。你只需要將載入函數和保存函數修改,刪除函數名中的下劃線(DOM標准使用首字母大寫)。其它各處的調節當然也是必須的,但是主要邏輯部分可以保持不變。
讀取DOM
我不會在這篇文章中解釋DOM擴展的所有特性,那也是沒有必要的。或許你應該將HTTP://www.w3.org/DOM的文檔加入書簽。它與PHP5的DOM部分基本上相同。
在這篇文章的大多數例子中我們將使用同一個XML文件,zend.com上有非常簡單的RSS版本。將下面的文本粘貼到一個文本文件中並保存為articles.XML。
http://www.zend.com/zend/week/week172.PHP
http://www.zend.com/zend/tut/tut-hatwar3.PHP
要將這個例子載入到一個DOM對象,首先要創建一個DOMDocument對象,然後載入XML文件。
$dom = new DomDocument();
$dom->load("articles.XML");
正像上面所提及的,你可以使用PHP的數據流來載入一個XML文檔,你應該這樣寫:
$dom->load("file:///articles.XML");
(或者其它類型的數據流)
如果你想將XML文檔輸出到浏覽器或做為標准標出,使用:
print $dom->saveXML();
如果你想把它保存成文件,請使用:
print $dom->save("newfile.XML");
(注意這樣做會將文件大小發送到stdout)
當然這個例子沒有太多的功能,讓我們來做些更有用的。我們來取得所有的title元素。有很多方法可以辦到,最簡單的就是使用getElementsByTagName($tagname):
$titles = $dom->getElementsByTagName("title");
foreach($titles as $node) {
print $node->textContent . "\n";
}
textContent屬性並不是W3C標准,它可以讓我們很方便的快速讀取一個元素的所有文本節點,使用W3C的標准讀取是下面這樣:
$node->firstChild->data;
(這時候你要確保firstChild結點是你需要的文本結點,否則你還得遍歷所有子結點來查找)。
另外一個要注意的問題是getElementsByTagName()返回一個DomNodeList,對象,而不是像PHP4中get_elements_by_tagname()那樣返回一個數組,但是正像你在這個例子中看到的那樣,你可以使用foreach語句輕松的遍歷它。你也可以直接使用$titles->item(0)來訪問結點。該方法將返回第一個title元素。
另一個取得所有title元素的辦法是從根結點遍歷,你可以看到,這個方法更復雜,但是如果你需要的不只是title元素的時候,這個方法也就更靈活。
foreach ($dom->documentElement->childNodes as $articles) {
//如果節點是一個元素(nodeType == 1)並且名字是item就繼續循環
if ($articles->nodeType == 1 && $articles->nodeName == "item") {
foreach ($articles->childNodes as $item) {
//如果節點是一個元素,並且名字是title就打印它.
if ($item->nodeType == 1 && $item->nodeName == "title") {
print $item->textContent . "\n";
}
}
}
}
XPath
XPaht 就像是XML的SQL,使用XPath你可以在一個XML文檔中查詢符合一些模式語法的特定結點。想使用XPath獲得所有title結點,只需要這麼做:
$xp = new domxpath($dom);
$titles = $xp->query("/articles/item/title");
foreach ($titles as $node) {
print $node->textContent . "\n";
}
?>
這樣和使用getElementsByTagName()方法差不多,但是Xpath要強大的多,例如,如果我們有一個title元素是article的子元素(而不是item的子元素),getElementsByTagName()就會將它返回。而使用/articles/item/title語法,我們只會得到在指定深度和位置的title元素。這只是一個簡單的例子,再深入一點可能是這樣:
/articles/item[position() = 1]/title 返回第一個item元素的所有
/articles/item/title[@id = @#23@#] 返回所有含有id屬性並且值為23的title
/articles//title 返回所有articles元素下面的title(譯者注://代表任意深度)
你也可以查詢含有特殊兄弟元素的點,含有特殊文本內容的元素,或者使用命名空間等等。如果你必須大量的查詢XML文檔,適當的學習使用XPath會節省你很多時間,它使用簡單,執行速度快,比標准的DOM需要更少的代碼。
向DOM中寫入數據
文檔對象模型並不是只能讀取和查詢,你也可以操作和寫入。(DOM標准有點冗長,因為編寫者想盡量支持能夠想像到的每一個環境,但是它工作的非常好)。看看下面這個例子,它在我們的article.XML文件中添加了一個新元素。
$item = $dom->createElement("item");
$title = $dom->createElement("title");
$titletext = $dom->createTextNode("XML in PHP5");
$title->appendChild($titletext);
$item->appendChild($title);
$dom->documentElement->appendChild($item);
print $dom->saveXML();
首先,我們創建了所有需要的結點,一個item元素,一個title元素和一個包含item標題的文本結點,然後我們將所有的結點鏈接起來,把文本結點加到title元素上,把title元素加到item元素上,最後我們把item元素插入到articles根元素上。現在,我們的XML文檔中有一個新的文章列表了。
擴展類(class)
好了,上面的例子都可以在PHP4下面用DOMXML擴展來做(只是API有一些不同),能夠自己擴展DOM類是PHP5的一個新特性,這使得書寫更多可讀性強的代碼變得可能。下面是用DOMDocument類重新寫的整個例子:
class Articles extends DomDocument {
function __construct() {
//必須調用!
parent::__construct();
}
function addArticle($title) {
$item = $this->createElement("item");
$titlespace = $this->createElement("title");
$titletext = $this->createTextNode($title);
$titlespace->appendChild($titletext);
$item->appendChild($titlespace);
$this->documentElement->appendChild($item);
}
}
$dom = new Articles();
$dom->load("articles.XML");
$dom->addArticle("XML in PHP5");
print $dom->save("newfile.XML");
Html
PHP5中一個經常不被注意到的特性是libxml2庫對HTML的支持,你不僅可以使用DOM擴展載入結構良好(well-formed)的XML文檔,還可以載入非結構良好的(not-well-formed)Html文檔,把它當做標准的DOMDocument對象,使用所有能用的方法和特性,比如XPath和SimpleXML。
當你需要訪問一個你無法控制站點的內容時,HTML的性能就顯示十分有用了。在 XPath, XSLT 或 SimpleXML的幫助下,你省掉了許多代碼,像使用正則表達式比較字符串或者SAX解析器。當Html文檔結構不是很好的時候,這個辦法尤其有用(這是個頻繁的問題!)。
下面的代碼獲得並解析PHP.Net的首頁,將返第一個title元素的內容。
$dom = new DomDocument();
$dom->loadHtmlFile("http://www.PHP.Net/");
$title = $dom->getElementsByTagName("title");
print $title->item(0)->textContent;
請注意當指定元素沒有找到時,你的輸出可能會包含錯誤。如果你的網站還在使用PHP輸出HTML4代碼,有一個好消息要告訴你,DOM擴展不僅能載入HTML文檔,而且還能將他們保存為HTML4格式的文件。在你添加完DOM文檔後,使用$dom->saveHTML()來保存。要注意的是,為了使輸出的HTML代碼符合W3C標准,最好不用使用 整齊的擴展?(tidy extension)。LibXML2 庫支持的Html並不會考慮到每個可能發生的事情,也不能很好的處理非通用格式的輸入。
驗證
XML文檔的驗證越來越重要了。例如,如果你從一些國外資源中獲得了一個XML文檔,在你處理之前你需要檢驗它是否符合某個確定的格式。幸運的是你不需要在PHP中寫自己的驗證程序,因為你可以使用三個應用最廣泛的標准之一(DTD,XML Schema 或RelaxNG)來完成它。.
DTD是一個產生於SGML時代的標准,缺少一些XML的新特性(如命名空間),而且由於它不是用XML寫的,它也很難被解析和轉換。
XML Schemai是由W3C制定的一個標准,它應用廣泛,幾乎包含了所有驗證XML文檔所需要的內容。
RelaxNG 是復雜的XML Schema標准的對頭,是由自由者組織創建的,由於它比XML Schema更容易實現,越來越多的程序開始支持RelaxNG了
如果你沒有遺留下來的計劃文檔或者非常復雜的XML文檔,那麼使用RelaxNG吧。它書寫和閱讀都比較簡單,越來越多的工具也支持它。甚至還有一個工具叫Trang,它可以從XML范本中自動創建一個RelaxNG文檔。而且只有RelaxNG(和老化的DTDS)被libxml2完全支持,盡管libXML2也即將完全支持ML Schema。
驗證XML文檔的語法相當簡單:
$dom->validate(@#articles.dtd@#);
$dom->relaxNGValidate(@#articles.rng@#);
$dom->schemaValidate(@#articles.xsd@#);
目前,所有這些都只會簡單的返回true或false,錯誤會被做為PHP警告輸出。顯然想返回給用戶友好的信息這並不是一個好主意,在PHP5.0以後的版本裡會有所改善。到底該怎麼實現目前還在討論之中,但是錯誤報告肯定會處理的更好。
SimpleXML
SimpleXML 是PHP的XML家族中最後一個被加入的成員,加入SimpleXML擴展的目的是為了提供一個使用標准對象屬性和迭代器訪問XML文檔的更簡單的方法。該擴展沒有太多的方法,雖然如此它還是相當強大的。從我們的文檔的取得所有title節點比原來需要更少的代碼。
$sxe = simplexml_load_file("articles.XML");
foreach($sxe->item as $item) {
print $item->title ."\n";
}
這是在干什麼?首先將articles.xml載入到一個SimpleXML對象。然後取得所有$sxe中的item元素,最後$item->title返回title元素的內容,就是這樣。你也可以使用關聯數組查詢屬性,使用: $item->title[@#id@#]。
看到了吧,這後面真是太神奇了,有許多不同的辦法可以得到我們想要的結果,例如, $item->title[0]返回和例子中相同的結果,另一方面,foreach($sxe->item->title as $item)只返回第一個title,並不是所有在文檔中的title元素。(就像我在XPath中預期的那樣)。
SimpleXML 實際上是使用了Zend引擎2新特性的第一個擴展。因此也成了這些新特性的測試點,你要知道在開發階段bugs和不可預料的錯誤可不是少數。
除了上面例子中所使用的遍歷所有節點的方法,在SimpleXML中也有一個XPath接口,它為訪問單個結點提供了更簡單的辦法。
foreach($sxe->xpath(@#/articles/item/title@#) as $item) {
print $item . "\n";
}
不可否認,這段代碼也不比前面例子中的短,但是提供了更復雜或更深的嵌套XML文檔,你會發現和SimpleXML一起使用XPath會節省你很多的輸入。
向 SimpleXML 文檔寫入數據
你不僅可以解析和讀取SimpleXML,而且還可以改變SimpleXML文檔。至少我們加入一些擴展:
$sxe->item->title = "XML in PHP5 "; //title元素的新內容。
$sxe->item->title[@#id@#] = 34; // title元素的新屬性。
$xmlString = $sxe->asXML(); // 將SimpleXML對象做為序列化的XML字符串返回
print $XMLString;
互用協作性
由於SimpleXML也是基於libxml2庫的,你可以在幾乎不影響速度的情況下輕松的將SimpleXML對象轉化成DomDocument對象。(文檔不用進行內部復制),由於這個機制,你擁有了二個對象的最好部分,使用一個適合你手頭工作的工具吧,它是這樣使用的:
$sxe = simpleXML_import_dom($dom);
$dom = dom_import_simpleXML($sxe);
XSLT
XSLT是用來將XML文檔轉換為其它XML文檔的語言,XSLT本身是用XML編寫的,屬於功能性語言家族,在程序處理上和面對對象語言(像PHP)有所不同。PHP4中有二種XSLT處理器:Sablotron(在廣泛使用的XSLT擴展中)和Libxslt(在domxml擴展中),這兩種API不互相兼容,並且使用方法也不相同。PHP5只支持libxslt處理器,之所以選擇它是因為它是基於LibXML2的,因此也更符合PHP5的XML概念。
理論上將Sablotron綁定到PHP5上也是可能的,但是不幸的是沒人來做。因此,如果你正在使用Sablotron,你不得不在PHP5中切換到libxslt處理器。Libxslt 是帶有JavaScript異常處理支持的Sablotron,甚至可以使用PHP強大的數據流來重新實現Sablotron獨有的計劃處理(scheme handlers)。此外,libxslt 是 最快的XSLT處理器之一,所以你還免費得到了速度的提升。(執行速度是Sablotron的二倍)。
和本文討論的其它擴展一樣,你可以在XSL擴展,DOM擴展和vice versa之間交換XML文檔,實際上,你必須得這麼做,因為EXT/XSL擴展並沒有載入和保存XML文檔的接口,只能使用DOM擴展。一開始學習XSLT轉換,你不需要掌握太多的內容,這裡也不存在W3C標准,因為這個API中從Mozilla“借”過來的。
首先你需要一個XSLT樣式表,將下列文本粘貼到一個新文件並且保存灰articls.xsl
然後用PHP腳本調用它::
/* 將XML和XSL文檔載入到DOMDocument對象*/
$xsl = new DomDocument();
$xsl->load("articles.xsl");
$inputdom = new DomDocument();
$inputdom->load("articles.XML");
/* 創建XSLT處理器,並導入樣式表*/
$proc = new XsltProcessor();
$xsl = $proc->importStylesheet($xsl);
$proc->setParameter(null, "titles", "Titles");
/* 轉換並輸出XML文檔 */
$newdom = $proc->transformToDoc($inputdom);
print $newdom->saveXML();
?>
上面的例子首先使用DOM的方法load()載入XSLT樣式表articles.xsl,然後創建了一個新的XsltProcessor對象,該對象導到了後面要使用了XSLT樣式表對象,參數可以這樣設置setParameter(namespaceURI, name, value),最後XsltProcessor對象使用transformToDoc($inputdom)開始轉換並返回一個新的DOMDocument對象。
. 這個API的優點在於你可以使用同一個樣式表轉換許多XML文檔,只需要將它載入一次然後重復使用它,因為transormToDoc()函數可以應用於不同的XML文檔。
除了transormToDoc(),還有二個用於轉換的方法:transformToXML($dom)返回一個字符串,transformToURI($dom, $uri)將轉換之後的文檔保存到文件或一個PHP數據流。注意如果你想使用XSLT的一個語法如 或 indent="yes",你不能使用transformToDoc(),因為DOMDocument對象 不能保存該信息,只能當你將轉換後的結果直接保存到字符串或文件中時才能這樣做。
調用PHP函數
XSLT擴展最後一個新加的特性是能夠在XSLT 樣式表內部調用任何PHP函數,主張正統的XML支持者一定不會喜歡這個功能(這樣的樣式表有點復雜,很容易混淆邏輯和設計),在某些地方卻是十分有用的。當涉及到函數時XSLT就變得很有限,即使想實現用不同的語言輸出一個日期也是非常麻煩的。但是使用這個功能,處理這些就和只使用PHP一樣容易。下面是向XSLT添加一個函數的代碼:
function dateLang () {
return strftime("%A");
}
$xsl = new DomDocument();
$xsl->load("datetime.xsl");
$inputdom = new DomDocument();
$inputdom->load("today.XML");
$proc = new XsltProcessor();
$proc->registerPHPFunctions();
// 載入文檔並使用$xsl來處理
$xsl = $proc->importStylesheet($xsl);
/* 轉換並輸出XML文檔 */
$newdom = $proc->transformToDoc($inputdom);
print $newdom->saveXML();
?>
下面是XSLT樣式表datetime.xsl,它會調用這個函數。
下面是要使用樣式表轉換的XML文檔,today.xml(同理,articles.XML也會得到同樣結果)。
上面的樣式表,PHP腳本和所有的XML文件會用當前系統設置的語言輸出星期的名字。你可以給php:function()添加更多的參數,添加的參數會被傳遞給PHP函數。這裡有一個函數php:functionString(),這個函數自動將所有輸入的參數轉換為字符串,所以你不需要在PHP裡進行轉換。
注意你需要在轉換之前調用$xslt->registerPhpFunctions(),否則PHP函數調用將因為安全原因不會被執行(你始終相信你的XSLT樣式表嗎?)。目前訪問系統還沒有實現,也許在將來PHP5的版本中會實現這個功能。
摘要
PHP對XML的支持已經向前邁進了一大步,它符合標准,功能強大,互用協作性強,被作為默認選項安裝,已被授權使用。新加入的SimpleXML擴展提供了簡單快速訪問XML文檔的方法,可以節省你很多的代碼,尤其是當你有結構化文檔或者可以使用強大的XPath時。
感謝libXML2—PHP5 XML擴展所使用的底層庫,使用DTD,RelaxNG或XML Schema驗證XML文檔現在已經被支持了。
XSL支持也得到了翻新,現在使用Libxslt庫,比原來的Sablotron庫在性能上有很大提高,而且,在XSLT樣式表內部調用PHP函數可以讓你寫出更強大的XSLT代碼。
如果你已經在PHP4或其它語言中使用了XML,你會喜歡PHP5的XML特性的,XML在PHP5中有了很大的變化,符合標准,和其它工具,語言是同等的。