如何利用Scala簡化XML處理

DIV+CSS佈局教程網 >> 網頁腳本 >> XML學習教程 >> XML詳解 >> 如何利用Scala簡化XML處理

如何利用Scala簡化XML處理

編輯：XML詳解

本文使用了 Scala 編程語言，其版本為 2.6.1。作為一種新生語言，它仍在快速發展，因此需要了解它的最新進展。本文並不要求讀者具備 Scala 知識，而是嘗試介紹 Scala 的語法和術語。Scala 需要一個 Java 虛擬機。本文使用 JDK 1.6.0_04，但 Scala 只需要 1.5 或更高版本。盡管本文沒有包含 Java 代碼，但是也要求讀者熟悉 Java 編程。

解析XML

首先探討如何使用 Scala 解析 XML。像大多數編程語言一樣，Scala 提供了多種 XML 解析方法。以下是一些基本的方法：基於表示的 InfoSet/DOM、push (SAX) 或 pull (StAX) 事件、與 JAXB（Java Architecture for XML Binding）類似的數據綁定。您將探討基於 DOM 的處理，因為它演示了 Scala 語法的眾多好處。在深入研究之前，您需要了解要解析的 XML 內容以及對它執行哪些操作。因此需要借助一個樣例應用程序。

樣例應用程序：FrIEndFeed

FriendFeed 是一個在 2008 年非常流行的 Web 服務，它允許用戶在其他服務中聚合他們的行為，例如各種博客（blog）服務、即時信息傳遞服務、YouTube、Flickr 和 Twitter 等。然後從這種聚合中創建單獨的數據提要。您可以針對個人執行上述操作，即對指定的人員實現聚合行為。盡管可能不是很有用，但是 FriendFeed 的公共提要非常有趣。它在所有 FriendFeed 用戶之間聚合所有的公共行為。FrIEndFeed 提供一個 API 來訪問個人提要和公共提要。您將編寫一個應用程序來訪問和解析公共提要。

利用 Java 庫

您要做的首要事情是訪問 FrIEndFeed 的公共提要。其 URL 為 http://frIEndfeed.com/api/feed/public。默認的情況下它以 JSON 格式顯示數據並且顯示最新的 30 個條目。要將其改為 XML 格式，添加查詢字符串參數 format=XML。例如，要將條目數目改為 100，添加查詢字符串參數 num=100 。現在您只需要訪問這個 URL。這在 Java 代碼中很容易實現，因此在 Scala 代碼也很容易。看一下清單1中訪問 FrIEndFeed 公共提要的代碼。

清單 1. 訪問 FrIEndFeed

object FrIEndFeed {
　import Java.Net.{URLConnection, URL}
　import scala.xml._
　def friendFeed():Elem = {
val url = new URL("http://frIEndfeed.com/api/feed/public?format=xml&num=100")
val conn = url.openConnection
XML.load(conn.getInputStream)
　}
}

注意，這裡要做的第一件事就是導入兩個核心的 Java 類。 Scala 不必使用自己的 API 執行諸如打開 HTTP 連接之類的操作，因為它可以利用 Java 的 API 來解決這個問題。注意 Scala 為從同一包導入多個類提供了捷徑。下一行導入 Scala 的核心XML 類。下劃線就像Java 中的星號一樣，它導入scala.XML 包中的所有類。

因此使用 Java 的 API 打開一個到 FrIEndFeed 的 HTTP 連接。接下來使用 Scala 的 XML 對象進行解析。這裡有很多有趣的現象。首先，XML 是一個 Scala 對象，即它是一個單例（singleton）對象。Scala 沒有靜態的方法、字段和初始化程序。相反您可以定義一個對象（而不是類）並且它將成為類的一個單例實例。您可以像調用靜態方法一樣訪問單例對象的方法。這就是 XML.load 語句的作用。注意，盡管這是一個 Scala 對象的方法，它接受一個 Java 對象（java.io.InputStream）作為參數。這正體現了 Scala 和 Java 之間的緊密聯系。最後要注意沒有返回語句。返回語句在 Scala 中是可選的。如果沒有返回語句，將返回對方法的最後一個語句的求值（如果可行並且 Scala 沒有返回編譯錯誤的話）。現在可以很簡單地訪問清單 1 中的方法，如清單2所示。

清單 2. 訪問 frIEndFeed 方法

val feedXML = frIEndFeed

注意在調用 friendFeed 的方法時沒有必要使用圓括號。您也可以使用 Scala 的類型接口。您沒有必要聲明 feedXml 的類型，因為它是由 frIEndFeed 方法的返回類型推斷出來的。再次查看清單 1 並了解它如何利用語法捷徑。最後要注意的是您所解析的 XML 對象被聲明為 val。這使其成為不可變的對象（像 Java 代碼中的字符串），這在 Scala 中是很常見的。把 XML 作為一個不可變的對象有很多優點，但是如果您習慣在 DOM 中使用 appendChild API，那麼則很難適應這一點。現在已經從 FrIEndFeed 中解析了XML，可以開始使用Scala 對其劃分。

導航和模式匹配

許多編程語言將 XML 表示為 DOM 樹。這個方法有許多優點，但是不利於以編程的方式遍歷樹來從 XML 文檔中提取數據。Java 技術提供了可以利用 XPath 語法的庫。Scala 采取相似的方法，但它有許多優點。Scala 在這個方法中體現了很多函數語言特征。在 Scala 中沒有使用操作符（像 + 或 *）。相反，使用 + 或 * 等符號定義可以執行普通數字加減法的函數。這也意味著您可以定義任何類型的操作符（因為它們實際上就是函數）。這些操作符號比 C++ 這類語言中的重載操作符具有更強大的功能。在 XPath 中，由於可以被轉換成一個函數調用，您可以在 Scala 中直接應用 XPath 語法的某一部分。

了解了這些內容，我們來看一下 FrIEndFeed 中的 XML 是什麼樣子。清單3提供了一個例子。

清單 3. FrIEndFeed XML 示例

＜feed＞
＜entry＞
＜updated＞2008-03-26T05:06:36Z＜/updated＞
＜service＞
＜profileUrl＞http://twitter.com/karlerikson＜/profileUrl＞
＜id＞twitter＜/id＞
＜name＞Twitter＜/name＞
＜/service＞
＜title＞Listening to Panic at the Disco on Kimmel＜/title＞
＜link＞http://twitter.com/karlerikson/statuses/777188586＜/link＞
＜published＞2008-03-26T05:06:36Z＜/published＞
＜id＞f18ebf10-06be-98e2-6059-fa78fa44584b＜/id＞
＜user＞
＜profileUrl＞http://friendfeed.com/karlerikson＜/profileUrl＞
＜nickname＞karlerikson＜/nickname＞
＜id＞f294a86c-e6f3-11dc-8203-003048343a40＜/id＞
＜name＞Karl Erikson＜/name＞
＜/user＞
＜/entry＞
＜entry＞
＜updated＞2008-03-26T05:06:35Z＜/updated＞
＜service＞
＜profileUrl＞http://twitter.com/asfaq＜/profileUrl＞
＜id＞twitter＜/id＞
＜name＞Twitter＜/name＞
＜/service＞
＜title＞@ceetee lol＜/title＞
＜link＞http://twitter.com/asfaq/statuses/777188582＜/link＞
＜published＞2008-03-26T05:06:35Z＜/published＞
＜id＞d4099bb0-8186-5aa1-ce1f-672246c0fe9c＜/id＞
＜user＞
＜profileUrl＞http://friendfeed.com/asfaq＜/profileUrl＞
＜nickname＞asfaq＜/nickname＞
＜id＞41e24568-ee6b-11dc-a88d-003048343a40＜/id＞
＜name＞Asfaq＜/name＞
＜/user＞
＜/entry＞
＜entry＞
＜updated＞2008-03-26T05:06:31Z＜/updated＞
＜service＞
＜profileUrl＞http://twitter.com/chrisjlee＜/profileUrl＞
＜id＞twitter＜/id＞
＜name＞Twitter＜/name＞
＜/service＞
＜title＞sleep..＜/title＞
＜link＞http://twitter.com/chrisjlee/statuses/777188561＜/link＞
＜published＞2008-03-26T05:06:31Z＜/published＞
＜id＞8c4ec232-3ad5-28e1-16c0-00a428294c9c＜/id＞
＜user＞
＜profileUrl＞http://friendfeed.com/chrisjlee＜/profileUrl＞
＜nickname＞chrisjlee＜/nickname＞
＜id＞5af39ad4-53b6-45d8-ae25-ef7c50fe9568＜/id＞
＜name＞Chris＜/name＞
＜/user＞
＜/entry＞
＜entry＞
＜updated＞2008-03-26T05:06:49Z＜/updated＞
＜service＞
＜profileUrl＞
http://www.google.com/reader/shared/09566745492004297397
＜/profileUrl＞
＜id＞googlereader＜/id＞
＜name＞Google Reader＜/name＞
＜/service＞
＜title＞Poketo First Editions Show!!＜/title＞
＜link＞
http://www.poketo.com/blog/2008/03/24/poketo-first-editions-show/
＜/link＞
＜published＞2008-03-26T05:06:49Z＜/published＞
＜id＞4caefceb-d71c-59c9-8199-45c5adbc60f2＜/id＞
＜user＞
＜profileUrl＞http://frIEndfeed.com/misterjt＜/profileUrl＞
＜nickname＞misterjt＜/nickname＞
＜id＞e745cc8a-f9e4-11dc-a477-003048343a40＜/id＞
＜name＞Jason Toney＜/name＞
＜/user＞
＜/entry＞
＜/feed＞

對於您的應用程序，您將首先得到一個基於某種服務的用戶列表。因此，將首先過濾提要，從而只獲得感興趣的服務。查看清單4了解Scala 如何實現上述功能。

清單 4. 過濾基於服務的提要

def filterFeed(feed:Elem, feedId:String):Seq[Node] = {
　 var results = new Queue[Node]()
　 feed"entry" foreach{(entry) =＞
if (search(entry"service""id" last, feedId)){
　 results += (entry"user""nickname").last
}
　 }
　 return results
}
def search(p:Node, Name:String):Boolean = p match {
　 case ＜id＞{Text(Name)}＜/id＞ =＞ true
　 case _ =＞ false
}

您的函數 filterFeed 接受一個 XML 元素（提要）和一個服務 ID 作為參數。首先創建一個稱為 results 的 XML 節點隊列。隊列被參數化，類似 Java 中的 List 和 Map。 Scala 使用方括號來表示泛型類型，而不是像 Java 編程使用的尖括號。feed"entry" 行是一個類 XPath 表達式。反斜槓符號實際上是 scala.xml.Elem 類的一個方法。它返回具有給定名稱的所有子節點，即提要中所有＜entry＞元素。這將作為一個 scala.XML.NodeSeq 類的實例返回。這個類擴展了 Seq[Node]。因為它是一個 Seq，它具有一個 foreach方法，並將一個閉包作為參數。

(entry) =＞ ... 標記表示一個將單個參數標記為條目的閉包。在這個閉包中，您將再次使用類 XPath 表達式 entry"service""id" 來從 entry 節點提取服務的 ID。把服務 ID 傳遞給搜索函數來將其與傳遞給方法的提要 ID 相比較。我們稍後將查看這個函數體。如果匹配的話，您可將創建條目的用戶別名添加到結果隊列中。注意這個隊列目標中類似操作符的符號，+=。再次聲明這僅僅是一個隊列對象的函數。您可以使用 Scala 的類 XPath 語法來提取用戶別名節點。

現在參看搜索函數，這個函數使用一個功能最強大的 Scala 特性：模式匹配。在這種情況下，將輸入節點與一個名為 id 的節點相比較，id 節點的子文本節點由傳遞給函數的 Name 字符串構成。如果匹配則函數返回 true。語法 case _ 和所有內容匹配。其中__再次用作 Scala 的通配符。諸如 case _ 這樣的聲明和 Java 或 C++ 代碼中 case 語句的默認子句類似。這個簡單的例子證明了 Scala 中模式匹配的強大功能。下面您將會明白如何構建 XML 結構。

利用模式匹配構建XML

在應用程序中，您需要為從 FrIEndFeed 公共提要提取出的所有用戶別名構建一個新的 XML 結構。實現上述操作有許多方法，但我們將演示如何再一次使用模式匹配方法。看一下清單5中所示的函數。

清單 5. 利用模式匹配構造函數

def add(p:Node, newEntry:Node ):Node = p match {
　 case ＜UserList＞{ ch @ _* }＜/UserList＞ =＞
＜UserList＞{ ch }{ newEntry }＜/UserList＞
}

這個模式將會和一個具有任意類型的子節點的 UserList 元素匹配。繼而返回一個具有相同子節點的新 UserList 元素，另外在現有子節點之後又增加了一個子節點。這在功能上等效於 DOM 規范中的 appendChild 用法。但它有本質的不同，因為原始節點沒有改變（它也不能改變，因為它是不可變的）。相反創建並返回了一個新節點。這樣比等效的 DOM 操作使用更多的內存。我們來看一下使用 Scala 構建 XML 結構的其他方法。

創建XML

當創建新的 XML 文檔時，Scala 的原生 XML 語法再合適不過。第一個例子是獲取創建的 UserList 結構並把它封裝在相關服務的節點中。清單6顯示了這些代碼。

清單 6. 創建服務結果

def results(name:String, cnt:Int, elements:NodeSeq):Any = {
　 if (cnt ＞ 0){
return ＜Service id={name}＞{elements}＜/Service＞
　 }
}

由於 Scale 提供了對 XML 的原生支持，您可以利用一個模板樣式的語法將動態數據插入到 XML 結構中。在本例中，使用傳入的名稱字符串設置 id 屬性。您將獲得一串傳入的元素，將它們作為正在創建的 Service 元素的子節點。但是要注意，只有在 cnt 參數大於 0 的情況下才執行上述操作。如果 cnt 值等於 0，這個函數將不返回任何值。在 Scale 中您可以通過聲明函數返回 Any 來解決這個問題。Any 類在 Scala 中是一個原始的類，類似於 Java.lang.Object。Scale 沒有 void 類型，但是有一個等價的 Unit 類型。它的優點是可以擴展 Any 類，並且允許函數在某些情況下返回對象，而在其他時候不返回任何內容。

如您所見，在 Scala 的 XML 語法中結合動態數據可以產生強大的功能。再舉一個例子，您可以創建一個統計 XML 文檔，其中顯示的 XML 描述每個服務在提要中出現的次數。代碼如清單7所示。

清單 7. 創建統計 XML

def stats(map:HashMap[String,Int]):Node = {
　 var nodes = new Queue[Node]()
　 map.foreach{(nvPair) =＞
nodes += ＜Service id={nvPair._1} cnt={nvPair._2.toString}/＞
　 }
　 return ＜Stats＞{nodes}＜/Stats＞
}

您的函數要求 HashMap 的鍵是服務的名稱，其值為服務在 FrIEndFeed 中出現的次數。這個函數使用熟悉的 foreach-closure 風格遍歷 HashMap，然後使用 HashMap 的名稱/值對創建一個新節點，將這個節點添加到節點隊列中。隨後創建 Stats 結構並作為動態數據訪問節點隊列，節點隊列隨後被賦值給一個 XML 結構。現在准備好了所有函數，您只需驅動程序以便進行測試。

運行和測試

在運行程序之前，需要加入一些代碼來驅動它。將創建一個 main 方法，就像使用 Java 編程一樣，如清單8所示。

清單 8. FrIEndFeed main 方法

def main(args:Array[String]) = {
val feedXML = frIEndFeed
var map = new HashMap[String,Int]
args.foreach{(serviceName) =＞
　val filteredEntrIEs = filterFeed(feedXML, serviceName)
　var users:Node = ＜UserList/＞
　filteredEntrIEs.foreach{(user) =＞
users = add(users, user)
　}
　map += serviceName -＞ filteredEntrIEs.length
　println(results(serviceName,filteredEntrIEs.length,users))
}
println(stats(map))
}

這個方法創建了 FrIEndFeed。它接受命令行參數確定哪些服務查找用戶並計算統計數據。注意這些語法與 Java 語法非常相似。main 函數接受一個 String 數組（稱為 args）作為參數。這個程序為統計文檔創建 HashMap，並且為每個服務創建 UserList 文檔。然後輸出每個 UserList 和統計文檔。要運行這個程序，需要使用 scalac FriendFeed.scala 和 scala FrIEndFeed 進行編譯，如清單9所示。

清單 9. 運行程序

$ scalac FrIEndFeed.scala
$ scala FrIEndFeed googlereader flickr delicious twitter blog
＜Service id="twitter"＞＜UserList＞＜nickname＞ntamaoki＜/nickname＞
＜nickname＞terrazi＜/nickname＞＜nickname＞ntamaoki＜/nickname＞
＜nickname＞terrazi＜/nickname＞＜nickname＞ntamaoki＜/nickname＞
＜nickname＞parodi＜/nickname＞＜nickname＞trevor＜/nickname＞
＜nickname＞cindy＜/nickname＞＜nickname＞christinelu＜/nickname＞
＜nickname＞clint＜/nickname＞＜nickname＞savvyauntIE＜/nickname＞
＜nickname＞44gi＜/nickname＞＜/UserList＞＜/Service＞
＜Serviceid="blog"＞＜UserList＞＜nickname＞nechipor＜/nickname＞
＜nickname＞mdolla＜/nickname＞＜nickname＞kyhpudding＜/nickname＞
＜nickname＞hanayuu＜/nickname＞＜nickname＞hanayuu＜/nickname＞
＜/UserList＞＜/Service＞＜Stats＞＜Service cnt="12" id="twitter"＞
＜/Service＞＜Service cnt="0" id="delicious"＞＜/Service＞＜Service
cnt="0" id="flickr"＞＜/Service＞＜Service cnt="0" id="googlereader"＞
＜/Service＞＜Service cnt="5" id="blog"＞＜/Service＞＜/Stats＞

您當然可以選擇不同的服務名稱作為命令行參數或其他參數。Scala 具備完美的 printer 類，可以使用正確的空格、制表符和格式打印 XML。還提供了 XML 寫入程序（writer）將 XML 寫回數據流，比如文件。您可以使用 Scala 完成所有普通的任務，同時還可以使用 Scala 提供的一些獨有的功能。

結束語

許多人把 Scala 視為 Java 編程語言發展歷程中的重要一步。XML 已經成為一種重要的技術，編程語言只有在其語法中內置了 XML 支持，才能自然地應用 XML 技術。而 Scale 做到了這一點。它使得復雜問題變得簡單。查看本文使用 Scale 執行的所有功能，想像一下做同樣的事情需要使用多少行 Java 代碼。

上一頁:淺談XML在Web中的應用
下一頁:應用MSXML的DOM模型處理XML

XML詳解

XUL技巧之我的側欄: Firefox有一個側欄功能，包括歷史記錄、書簽等功能都可以在側欄打開，不影響當前浏覽的網頁，如果
CAM 整理 XML結構化最新利器: 　Web服務的面包和黃油主要是由為了實現協作性需求的應用間的交換式的XML結構所組成。在這些交換繁
使用 IBM Database Add-ins for Visual Studio 生成數據綁定 XAML: IBM® 現在支持新的 .Net Framework 3.5 Windows® P

XML基礎 XML與XSLT XML詳解

小編推薦

Java與XML（一）入門基礎介紹應用 XML 管理層次結構的數據 XML、DataSet、DataGrid結合寫成廣告管理程序二 DTD 簡介 XML開發入門基礎：XML 浏覽器支持 WML Script標准函數庫在JavaScript中串行化為JSON—使用json2.js 在PHP中利用XML技術構造遠程服務(1) PHP中的XML應用(一) 遠程數據自動導入的設計與實現

DIV CSS 佈局教程網

相關文章