最近我一直在尋找XML搜索工具,我編寫的應用程序需要定期的搜索一些有關聯的XML文件,我本來的意思是為了看一看文件中是否有與我想要的數據匹配的數據,但是有時候,我也想把找到的這些數據輸出出來。一開始,我試用了一下XSLT和XPath,想通過把搜索的問題轉化成使用XSLT能夠解決的問題,但是經過一段時間的試驗,我發現,使用XSLT並沒有真正解決我想要處理的搜索問題,因為我想要輸出的數據是使用逗號隔開的數,而XSLT不能滿足這個要求,而且XLST也不能提供全文搜索功能。然後我想嘗試一下使用XML查詢語言(XQL),來看看能不能解決,所以我仔細的著了一下XQL的各種版本的實現,很巧,正好發現一個叫XQEngine的小工具能解決這個問題,所以,在本文中我想介紹一下如何使用XQEngine來在你的XML文件中搜尋你想要找的字符串數據。
XQEngine可以在www.fatdog.com網站下找到,它是一個JavaBean,使用一個SAX解析器來索引一個或多個XML文檔,然後你就可以在這些文檔中進行復合式搜索了。它所使用的搜索語言是XQL的超集,與XPath有相似的語法。
使用XQEngine的Java類必須實現一個result()方法,完成搜索後,引擎將調用這個方法把搜索結果傳到result()方法中,可以使用三種顯示數據的格式來輸出數據結果。使用命令行參數指明你所需要的搜索參數,比如說你可以指明一個文件假如含有stop這個詞,就不會被索引;又如你可以在參數中命令引擎忽略那些少於指定子數的詞。
下面,我給出了一個使用XQEngine的例程,現在讓我們來分析一下。首先,main()方法實例化一個搜索引擎:XmlEngine engine = new XmlEngine(),然後它從命令行中取得文件名、返回結果格式和搜索請求這三個參數,再使用各種配置方法來設置引擎,接著調用setSaxParserName()方法來設置SAX解析器的全名,因為我們使用的是Xerces解析器,所以要用到 "org.apache.xerces.parsers.SAXParser"。然後我們就需要設置搜索參數,再本例中,我們將不索引數字或任何少於3個字符的詞。在你下載到的XQEngine的API文檔當中會有詳細的配置參數說明,所以在此我就不細說如何配置參數了,請大家自己參閱相關文檔。最後,setDocument()方法指定XQEngine將要索引或搜索的XML文件。當然,如果你想要索引多個文件的話,只需設置幾個相應的setDocument()方法就可以了。
從下面的代碼中我們還可以看到,XQEngine引擎將用三種不同的格式返回搜索結果:STANDARD、SUMMARY和CSV(使用逗號分開的數值)為了簡單起見,我為每種返回結果類型定義了一個數字來代替(1,2,3),然後使用相應的參數調用setListenerType()方法。我將在後面詳細介紹每一種返回結果類型。還有個方法printSessionState()用來輸出索引和引擎的信息,但是我沒有把它寫進例程中,所以上面的程序只會輸出搜索結果;下一步再調用addXQLResultListener()方法,並傳遞Search的一個實例,用來實現XQLResultListener的接口;然後再把查詢字符串作為一個參數來調用setQuery方法,引擎就會開始執行查詢任務。等到查詢結束後,引擎調用Search類的result()方法,把查詢結果傳回,在我提供的例程中,result()方法只是簡單的把結果輸出出來。
代碼:
import Java.io.*;
import com.fatdog.textEngine.XMLEngine;
import com.fatdog.textEngine.exceptions.*;
import com.fatdog.textEngine.query.XQLResultListener; public class Search implements XQLResultListener
{
public static void main( String[] args )
{
XmlEngine engine = new XMLEngine();
String searchFile = args[0];
String searchType = args[1];
String query = args[2];
try { file://配置引擎
engine.setSaxParserName( "org.apache.xerces.parsers.SAXParser");
engine.setMinIndexableWordLength( 3 );
engine.setDoIndexNumbers( false );
engine.setDocument( searchFile ); if (searchType.equals("1")) {
engine.setListenerType(
XMLEngine.STANDARD_LISTENER);
}
else if (searchType.equals("2")) {
engine.setListenerType(
XMLEngine.SUMMARY_LISTENER);
}
else {
engine.setListenerType(
XMLEngine.CSV_LISTENER);
}
}
catch( MissingOrInvalidSaxParserException e ){
System.out.println(
"缺少或不可用的 SAX解析器" );
return;
}
catch( FileNotFoundException e ) {
System.out.println(
"不能找到 XML 文件: ");
return;
}
catch( CantParseDocumentException e ) {
System.out.println(
"不能解析 XML 文件: ");
return;
}
// engine.printSessionStats();
engine.addXQLResultListener( new Search() );
try {
engine.setQuery( query );
}
catch( InvalidQueryException e ) {
System.out.println(
"不可用的查詢請求: " + e.getMessage() );
return;
}
}
public void results( String xqlResults )
{
System.out.println( xqlResults );
}
}
好,我們已經把一個使用XQEngine的程序編寫出來了,那麼就讓我們來運行這段代碼,在編譯這段代碼之前,我們需要下載到XQEngine和SAX解析器。我是從xml.apache.org上下載到Xerces解析器的。我使用的操作系統是Windows 2000 Professional,JDK為1.3版,好,搞定這些以後就跟我來設置CLASSPATH吧,在"環境變量"中修改CLASSPATH,添加"c:xqlXQEngine.jar;c:xqlantlr.jar; c:xercesxerces.jar"。現在就可以編譯代碼了,不過為了能夠運行程序,我們還需要一個XML文件,我使用了apache Tomcat裡的web.XML文件作為演示。前面我也介紹過了,我們使用1,2,3來分別代替三種返回查詢結果格式:
1、使用STANDARD_LISTENER (數字1)和查詢項"//welcome-file-list/welcome-file",C:xqlxql1>Java Search web.XML 1 "//welcome-file-list/welcome-file"
Parser.installSaxParser:
<org.apache.xerces.parsers.SAXParser>
installed successfully
1: indexing web.XML
Query: ( // ( / welcome-file-list welcome-file ) )
3 hit(s) for file://welcome-file-list/welcome-file
<?XML version="1.0"?>
<xql:result
query="//welcome-file-list/welcome-file"
hitCount="3"
elemCount="3"
docCount="1"
XMLns:xql="http://www.fatdog.com/ Standard_Listener.Html">
<welcome-file>
index.JSP
</welcome-file>
<welcome-file>
index.Html
</welcome-file>
<welcome-file>
index.htm
</welcome-file>
</xql:result>
上面的例子中,查詢項要求找到任何"welcome-file-list"元素的所有的"welcome-file"子元素。請注意,搜索的結果基本上是從原XML文檔中摘錄出來的,不能夠建立搜索結果和原文檔之間的關系。SUMMARY_LISTENER(2)返回類型則有些不同,它包括一個"docID"號和一個"elemlx"號,這樣就能夠把結果和原文檔聯系起來了。
如下是返回結果的示例:
C:xqlxql1>Java Search web.XML 2
"//welcome-file-list/welcome-file"
Parser.installSaxParser: <org.apache.xerces.parsers.SAXParser>
installed successfully
1: indexing web.XML
Query: ( // ( / welcome-file-list welcome-file ) )
3 hit(s) for file://welcome-file-list/welcome-file
<?XML version="1.0"?>
<xql:result
query="//welcome-file-list/welcome-file"
hitCount="3"
elemCount="3"
docCount="1"
XMLns:xql="http://www.fatdog.com/
Summary_Listener.Html">
<welcome-file xql:docID="0" xql:elemIx="270"/>
<welcome-file xql:docID="0" xql:elemIx="271"/>
<welcome-file xql:docID="0" xql:elemIx="272"/>
</xql:result>
我前面也說過,對於我的應用程序來說,最重要的是返回使用逗號隔開的返回結果,所以CSV_LISTENER(3)就很有用了,它能夠返回一個使用使用逗號隔開的結果,如下:
C:xqlxql1>Java Search web.XML 3
"//welcome-file-list/welcome-file"
Parser.installSaxParser:
<org.apache.xerces.parsers.SAXParser>
installed successfully
1: indexing web.XML
Query: ( // ( / welcome-file-list welcome-file ) )
3 hit(s) for file://welcome-file-list/welcome-file
3,3,1,0
0,270,welcome-file
0,271,welcome-file
0,272,welcome-file
當然,XQEngine還有很多很強大的功能,在此我不可能一一介紹,它所附帶的文檔中有豐富的源程序和使用方法,你可以對照著自己學習使用,當然,如果你願意的話你甚至還可以開發出一個GUI程序,文檔中就自帶了一個基於GUI的搜索程序:SwingQueryDemo,你可以看一看研究研究。