DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁腳本 >> XML學習教程 >> XML詳解 >> 在VC6中使用MSXML 4.0 DOM處理XML文檔
在VC6中使用MSXML 4.0 DOM處理XML文檔
編輯:XML詳解     

1.DOM與XML

  DOM是DocumentObjectModel的縮寫,提供了與XML交互的標准編程模型:(1)提供了標准方法在程序中創建、遍歷或者更新XML文檔內容。(2)提供了一組核心的與供應商和語言無關的應用程序編程接口(API),可滿足與XML交互的大部分需求。因此,DOMAPIs成為應用程序和XML文檔之間互通的橋梁。

  W3C(WorldWideWebConsortium)DOMLevel1規范定義了兩組DOM編程接口:

  (1)基本接口:W3C基本接口定義了用來在應用程序中操縱XML文檔的接口;

  (2)擴展接口:W3C擴展接口定義了一些方便開發者的接口。

  所有XML處理程序必須支持Unicode字符編碼的兩種形式:UTF-8和UTF-16。XMLParser可以讀取使用ISO-8859-1、Big-5或者Shift-JIS編碼的文檔,並在加載文檔時將它們自動轉換為Unicode。

  如果XML文檔使用的字符編碼不是UTF-8(8-bitASCII文本也是可接受的UTF-8)或者UTF-16,那麼它必須在XML聲明中提供字符編碼聲明,否則XMLParser可能會出錯。當然,即使對字符編碼進行了聲明,Parser也可能不能夠處理(不支持該編碼),但能夠正確地給出提示信息。(由於XML聲明是使用基本的ASCII文本書寫的,Parser能夠正確地讀出它的內容。)

  2.MSXML4.0簡介

  MSXML(MicrosoftXMLCoreServices)是Microsoft提供的用於處理XML文檔的COM庫。MSXMLDOM不僅實現了W3CDOMLevel1規范定義的基本接口和擴展接口,還提供了額外的方法來支持XSLTransformation(XSLT)、XPath、名字空間和數據類型。MSXML除了支持規范所要求的字符編碼外,還支持更多的字符編碼格式,而在內部使用UnicodeUCS-2字符編碼處理XML文檔中的所有文本。

  本文以VisualC++6.0為開發環境,介紹MSXML4.0SDK中DOM的使用。另外,MSXML中的SAX也比較常用。

 2.1.MSXMLDOM

  MSXMLDOM是本文介紹的重點,它提供了豐富的接口方便在程序中操作XML文檔。DOM在內存中提供了XML文檔的完整表示,允許對整個文檔內容的隨機訪問。DOM允許應用程序依賴於MSXMLParser提供的邏輯結構來處理基於XML的信息。其工作流程和原理如下圖所示(源自MSXML4.0SDK):

在VC6中使用MSXML 4.0 DOM處理XML文檔

  當MSXMLParser把一個XML文檔加載進DOM時,它從頭到尾讀入整個XML文檔,並構建內在邏輯樹結構。文檔本身被認為是包含其它所有節點的單個節點,例如,它包含根元素(RootElement),而根元素則包含文檔中所有的元素、屬性和文本節點。

  MSXMLDOM樹中每一個節點都有特定的類型(如元素、屬性、文本),也有指向父節點和子節點的成員。其中,屬性節點是一個特殊的節點,它不是子節點,是元素的屬性。

  2.2.MSXMLSAX2

  有時,使用SAX(SimpleAPIforXML)來解決XML應用可能是一個更好的選擇。DOM方式允許開發者利用MSXML維護的DOM樹,而不用自己來管理。但有時,開發者需要更高的效率時,可能只需要讀入XML文檔,而在程序內部構造數據結構來管理XML文檔信息,這時就可以選擇SAX方式。下圖是MSXMLSAX2的工作流程和原理圖(源自MSXML4.0SDK):

在VC6中使用MSXML 4.0 DOM處理XML文檔

  3.安裝MSXML4.0SDK

  早期的MSXML版本,特別是MSXML2.5和MSXML3.0,借助於xmlinst.exe工具,可以以替換模式進行安裝。在替換模式下,新安裝的MSXML版本替換舊版本,從而變成缺省的XMLParser。當你在程序中使用版本無關的CLSID和ProgID時,缺省的XMLParser就被調用。這常常引起舊程序的兼容性問題。基於這個原因,MSXML4.0只能以Side-by-side模式進行安裝。Xmlinst.exe工具在MSXML4.0中不再提供,也不適用於MSXML4.0。

MSXML4.0SDK(MicrosoftXMLCoreServices4.0SoftwareDevelopmentKet)是以side-by-side模式安裝在你的機器上的。這種模式有助於保護那些使用msxml.dll、msxml2.dll,或者msXML3.dll的應用程序,使其不受干擾,仍可照常使用。Side-by-side模式允許你決定使用哪個版本的Parser來為你工作,這可在你的代碼中指定。

  從MicrosoftXMLDownloadCenter下載回安裝程序,安裝程序將在你的機器上安裝三個文件:msxml4.dll、msxml4a.dll和msxml4r.dll,並對msXML4.dll進行注冊。

  或者,你也可以手動安裝MSXML,如果你樂意的話。首先,拷貝上面的三個dll文件到機器的系統目錄($sysRootsystem32),一般是C:WINDOWSsystem32;然後,運行cmd,執行命令:(1)cdC:Windowssystem32 (2)regsvr32msXML4.dll。

  在安裝MSXML4.0SDK後,應用程序必須使用版本相關的CLSID和ProgID來顯式地實例化Parser,這確保你的應用程序的穩定性。

  4.使用MSXMLDOM

  本節介紹在VC6.0中使用MSXMLDOM處理XML文檔。下面的示例中將動態生成一個XML文檔,並對文檔進行查詢。

  4.1.導入MSXML

  首先,需要導入MSXML頭文件和庫到VC6.0工程中。有兩種導入方式:

  (1)自動方式,在源代碼中添加如下兩行程序即可:

  #import<msXML4.dll>

  usingnamespaceMSXML2;

  (2)手動方式(有存在的理由麼?呵呵)

  a)找到MSXML4.0SDK的安裝目錄,去發現兩個子目錄inc和lib;

  b)在VC選項中,將MSXML4.0下inc和lib子目錄添加到默認的頭文件和庫文件搜索路徑中;

  c)在使用MSXML的源文件中包含頭文件<msXML2.h>;

  d)在工程設置中將msXML2.lib添加到要鏈接的庫中。

以自動方式導入MSXML,會在你的工程目錄下(或者Debug/Release下)生成兩個頭文件msxml4.tlh和msXML4.tli(前者為頭文件聲明,後者為內聯函數定義文件)。

  4.2.XML樣例文檔

  後面的程序中將動態生成如下XML文檔,然後對該文檔進行查詢。

<?XMLversion="1.0"encoding="utf-8"?>
<!--SampleXMLfilecreatedusingXMLDOMobject.-->
<request>
 <identification>
  <userName>tyc</userName>
  <password>pwd</passWord>
 </identification>
 
 <commandLinescount="2"reply="no"immediate="yes">
  <commandnum="1">
   <type>backup</type>
   <dbName>db1359</dbName>
  </command>
  <commandnum="2">
   <type>save</type>
   <data><![CDATA[這裡是XML文檔的CDATA數據段...]]></data>
  </command>
 </commandLines>
</request>

  4.3.用到的COM技術

  與其它COM技術一樣,MSXML也使用引用計數來管理DOM對象的生存期。當使用MSXML中的COM裸接口指針時,程序員必須負責處理該指針的引用計數:調用AddRef增加引用計數;調用Release減少引用計數。

  例如,當調用IXMLDOMDocument::createNode、IXMLDOMNode::appendChild或者CoCreateInstance創建或者獲取對象時,對象的引用計數已經在函數返回前增加了,而你卻有責任在使用完這些指針後調用Release釋放對象。如果你復制一個已存在對象的引用,你必須調用AddRef增加相應的引用計數。

4.4.MSXMLDOM中裸指針與智能指針的用法區別

  MSXML中成員函數有兩類,一類成員函數的返回值是通過參數返回的,而函數本身返回HRESULT作為操作成功與否的標識,如果函數返回的值(通過參數)是指針,那麼該指針是裸指針,這裡把這類用法稱為裸用法,這種函數稱為裸函數;另一類成員函數是對前面的裸函數的簡單封裝形式,把裸函數的返回值作為真正的返回值返回,如果是返回指針,則指針不再是裸指針,而是經過封裝的智能指針。一般前類函數的函數名中有下劃線,而後者沒有。你可以在生成的msXML4.tli文件中看到這種封裝。

  4.5.源程序

  不多說了,看代碼吧。(注:本來想貼上所有代碼的,但系統字數限制,只好刪除了兩個實現函數,請看文後的源程序打包文件)

#include<iOStream>
#include<string>
#include<cassert>
 
usingnamespacestd;
 
#import<msXML4.dll>
usingnamespaceMSXML2;
 
boolgenerateXMLSampleFile(conststring&path);
boolqueryXMLSampleFile(conststring&path);
 
intmain()
{
  //初始化COM庫
  CoInitialize(NULL);
 
  //創建XML文件及其內容
  if(!generateXMLSampleFile("sample.XML"))
    cout<<"Failed"<<endl;
 
  //加載剛生成的XML文件,將其輸出到標准輸出中予以顯示
  IXMLDOMDocument2PtrpXMLDom;
  HRESULThr=pXMLDom.CreateInstance(__uuidof(DOMDocument40));
  if(FAILED(hr)){
    cout<<"FailedtoinstantiateDOMDocument40class!"<<endl;
    return-1;
  }
  
  if(pXMLDom->load("sample.XML")!=VARIANT_TRUE){
    cout<<"FailedloadXMLdatafromfile:"<< 
      static_cast<char*>(pXMLDom->parseError->Getreason())<<endl;
    return-1;
  }
 
  //下面輸出XML文件內容,但奇怪的是文件頭中沒有編碼的部分!
  cout<<static_cast<char*>(pXMLDom->XML)<<endl;
 
  pXMLDom.Release(); //注意,不能用pXMLDom->Release()這種形式!
 
  //對剛生成的XML文件進行查詢
  cout<<"---------------------------------------"<<endl;
  cout<<"Startquery..."<<endl;
  queryXMLSampleFile("sample.XML");
  
  CoUninitialize();
 
  return0;
}

  補充下,如果是遍歷一個未知XML文檔,就需要使用IXMLDOMDocumentPtr的documentElement獲得根元素,使用IXMLDOMNodePtr的firstChild、nextSibling成員獲得一個節點的所有子節點;使用IXMLDOMNodePtr的nodeType成員來判斷節點類型(元素、屬性、文本,等等),使用text成員得到文本值,使用nodeName成員得到節點名。還可以使用IXMLDOMDocumentPtr、IXMLDOMNodePtr等的xml成員獲得相應的xml字符串。另詳細的資料請參考MSXML4.0SDK文檔。

  另外,在程序中動態創建的text節點的text值的數據量大小是有限的,在我的機器上測試發現(默認VC配置),使用256K的數據還正常,但使用512K的數據時就StackOverflow了。但是,加載XML文檔時是沒有問題的,其數據量並不受此限制。

  最後,在你使用MSXMLDOM時,請清醒地認識到它在內部是一顆樹的表示,任何數據都是以節點形式存在的。That’sall!

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved