高效交换XML文档

2016-02-19 19:03 2 1 收藏

get新技能是需要付出行动的，即使看得再多也还是要动手试一试。今天图老师小编跟大家分享的是高效交换XML文档，一起来学习了解下吧！

【 tulaoshi.com - Web开发】

XML文档因为其固有的描述性特性而趋向于变得很罗嗦。其结果是文档会由于被描述的数据增多而变得很长，而这种很大的文档会在需要同其他实体进行交换时出现问题。和其他文档（比如普通文本文件（flat file）或者Electronic Data Interchange （EDI））比起来XML文档就显得特别冗长。为了举例说明这个概念，让我们看看以下这个普通文本文件： John,Doe,1587,4/18/2000,1234
Anywhere St.,SomeCity,AZ,85222

再看这个XML文档：customers
customer customerID="1587"
firstNameJohn/firstName
lastNameDoe/lastName
customerSince4/18/2000
/customerSince
street1234 Anywhere St.
/street
citySomeCity/city
stateAZ/state
postalCode85222/postalCode
/customer
/customers

如果你曾处理过很多XML文档，那么你就不会奇怪于即使这个XML文档和这个以逗号分隔开的普通文本文件中包含了相同的原始数据（raw data），XML文档也显得比普通文本文件大很多了。毕竟，XML是一种元数据语言（metadata language）（它包含了许多优点比如支持解析、验证、转换等等），因此决定了其大小会比另一些同类文档格式大很多。由于XML被更广泛地作为一种数据交换的方法来使用，那么被交换的文档的大小会降低应用程序的性能和可升级性就是毫无疑问的了。

有很多方法来使XML文档的大小最小化，比如（在适当的地方）将元素转换为属性，缩写元素和属性名，去掉不重要的空白处，只定义一些内容。然而无论你做出何种改变，最终大量的原始数据还是会形成一个很大的XML文档。如果你的XML文档中包含有很多兆字节，你又该如何在你的企业中对它们进行有效地传递或将它们传递到其他企业中去呢？

一种方法是将一个大的XML文档分成多个文档，它们会（如果可以切分的话）运行的很好，但这样还会产生一些额外的复杂性和确保所有文档都能被准确发送和接收的问题。即使是被分开的小文档也可能会由于大量被传递的数据而形成几兆字节大小的文档。既然存在这些潜在的问题，那我们这些XML开发人员该如何更有效地对XML数据进行交换呢？（我赞成去打高尔夫。）

你可以用压缩技术来加速各点之间的文档交换。由于XML是一个简单的文本形式，因此大的文档可以被压缩成较小形式。这里显示的范例程序证明了如何通过将一个开发式代码的.Net组件添加到一个ZIP存档文件中来实现用程序来压缩XML文档。这么做能够将文件的大小减至最小并提高数据交换的效率。

尽管.Net的J#语言本身支持压缩，但构建到.Net框架中的基类库却不支持。然而，有一个完全由管制代码写成的名为SharpZipLib的组件可以被用于压缩各种类型的文档（在www.icsharpcode.net/OpenSource/SharpZipLib/default.asp中下载该组件）。

SharpZipLib是一个用C#写的、用在.Net中支持Zip、GZip、Tar和BZip2的类库。它是作为一个assembly来实现的，而且它还能够同任何使用.Net语言的项目结合使用。

我曾在几个应用程序中使用过SharpLibZip的早期beta发行版，我认为它在对文档进行压缩和解压缩方面非常有效。让我们来看看如何使用SharpZipLib组件来实现用程序压缩XML文档。

压缩XML文档

尽管SharpZipLib能够执行好几种类型的压缩，但我还是决定在范例程序中使用应用最为广泛的ZIP压缩格式，因为它很有名，也很好用。为了使代码能够被重用，我写了一个名为Zipper的自定义类。Zipper中有一个名为GenerateZipFile()的静态方法（它可以接受指定要保存ZIP文件的路径）以及一个包括所有要压缩的文件路径集合的ArrayList（见列表1）。

Zipper类是SharpZipLib中名为ZipOutputStream类的一个封装类。你几乎不用写什么代码，也不用花什么力气就可以用Zipper来将多个文件压缩到一个简单的ZIP存档文件中（一个带有ZIP扩展名的文件）。这个GenerateZipFile()方法是通过建立一个ZipOutputStream类的实例并通过其SetLevel属性设置压缩级别来实现压缩的。最高压缩级别可以被设置到9，而最低则为0。

设置好压缩级别之后，由ArrayList（被传入GenerateZipFile()）方法）所指定的文件内容就会被处理。一个生成的计数器（enumerator）会逐个列举该列表中的文件。每个文件被加载到一个接受文件名和登录时间的ZipEntry对象中。然后ZipEntry对象通过PutNextEntry()方法被添加到ZipOutputStream对象中。

在文件名被添加到这个ZIP存档文件之后将通过一个FileStream对象来读取其内容。FileStream（位于System.IO命名空间下）用于将文件以字节形式读入到缓冲区中。你可以通过调用FileStream对象中的Read()方法来完成读取操作。在缓冲区中的字节通过Write()方法被写入ZipOutputStream对象中。注意Write()方法接受要写入数据流中字节的长度以及在缓冲区中的起始位置。该过程适用于所有包含在传给GenerateZipFile()方法的ArrayList参数之中的每一个文件。当所有条目被添加到这个ZIP文件之后，它会以一个ZIP作为文件扩展名被保存到硬盘中。

列表2中显示了一个用于测试Zipper类的简单ASP.Net应用程序的代码（见图1）。它是从定义一个要被压缩的XML文档路径和存储ZIP文件的路径开始的。尽管在这个例子中只有一个被压缩的XML文档，但是其他文档的路径可以被添加到ArrayList对象中来进行压缩。在所有文件路径被定义好之后，将会调用静态方法GenerateZipFile()。一旦这个ZIP文件被建好之后，会通过System.Web.Mail命名空间下的类来给最终用户发送一封e-mail。

解压XML文档

对XML文档进行压缩的能力在不同的情况下是非常有用的，但不可避免地会出现这种情况：有人给你发送了一个在解析前需要被展开的（extracted）的压缩文档。这个问题可以直接通过使用SharpZipLib中的一个名为ZipFile的类来解决。在列表3中你可以看到在这个用于将压缩文件展开到一个指定目录下的Zipper类中有一个名为ExtractZipFile()的静态方法。代码首先通过将一个FileStream对象（通过调用File.Open()方法得到的）传入ZipFile类的构造器中来建立一个ZipFile实例。建立好对象之后，ZIP文件中的每个ZipEntry会被列举（enumerate）出来。然后调用ZipFile对象的GetInputStream()方法，该方法接受一个要被展开的ZipEntry作为参数。从GetInputStream()返回的数据流被读取到一个缓冲区中，该缓冲区通过一个FileStream被写入到文件里。在调用GetInputStream()时，该ZipFile类会自动对ZipEntry进行解压。

在调用ExtractZipFile()方法之后，所有位于ZIP文件中的被压缩文件会被展开并存储到硬盘上。另外，解压的字节流会被写入一个MemoryStream对象中，这在文件被解析前无需被保存到硬盘上时非常有用。

尽管XML是一个很冗长的元数据语言，但大的文档可以在使用.Net组件（比如SharpLibZip）后被压缩成一个很小的文档。通过对这些文档进行压缩，可以缩短不同实体间文档交换的时间，其结果是能够更快地处理数据。想要试试这个很好的压缩/解压代码的例子，你可以访问www.xmlforasp.net/codeSection.aspx？csID=95。

关于作者:

Dan Wahlin(是ASP.NET方面的Microsoft MVP)是Wahlin Consulting LLC公司的总裁并创办了XML for ASP.NET Developers网站（www.XMLforASP.NET），其中主要研究如何在Microsoft的.Net平台下使用XML和Web services。他还是一名合作培训师和演讲者，并在美国各地教授“public and on-site XML and .Net”培训课程。Dan是Professional Windows DNA (Wrox)、ASP.NET Tips、Tutorials 和Code (Sams)等书的合著者，并著有XML for ASP.NET Developers (Sams)一书。他的联系方式是dwahlin@xmlforasp.net。

来源:http://www.tulaoshi.com/n/20160219/1619902.html

上一篇： XSL教程：了解XSL的选择模式
下一篇： VC系统热键的注册

看过《高效交换XML文档》的人还看了以下文章更多>>

掌握XML系列(4)---创建格式良好的XML文档

标签： Web开发

这一节,我们讲解有关属性的问题. XML的属性: 其实大家都知道,其实属性就"名值对",再HTML中,我们看见过很多.之前的文章中也用过了一些属性的例子.来看个例子吧: ？xml version="1.0" ？ persons person name="xiaoyang"/ person name="panyan"/ /persons 关于属性的问题,有几点是要说...

XML文档搜索使用小结2

标签： Web开发

这个方法要求我们一层层向内找我们需要的数据，如果层次很多的话，做起来就会很费劲，也容易出错。幸好.NET给我们提供了另外一个方法SelectSingleNode和SelectNodes方法可以让我们直接找到所要的数据。比如，我们要找姓名为“Tim”的用户的hobby,我们可以用下面的方法： myDoc.SelectSingleNode ("//member[name='Tim']").Ch...

XML简明教程第2课: 处理XML文档

标签： Web开发

什么是XML文档？？一个基本的XML文档就是一个XML元素，它可以嵌套XML元素。例如，下面的XML元素“books”就是一个有效的XML文档。？？？？？？？？？？？？？？？？？？？Hunter？S.？Thompson？？？？？？处理指导？构建一个基本的XML文档需要记住关键的四点：？所有元素必须有结束标签；？所有元素必须正确的嵌套（不允许交迭...

Word教程：高效编辑多图片的文档

标签：办公软件

我们在在编辑含图片较多的Word长文档时，往往会觉得运行速度很慢，这时我们可以将图片暂时隐藏起来，以轮廓的方式来显示图片，提高Word的运行速度。方法如下：执行工具菜单上的选项命令，在弹出的对话框中选择视图选项卡，在显示选项中选中图片框复选框。单击确定按钮后，用户就会发现文档中的图片都变成边框了。 &nbs...

DOM文档如何与XML文件互换？

标签： Web开发

文简要描述了DOM的概念和内部逻辑结构，实例讲述DOM文档操作和XML文件互相转换的java实现过程。 1. DOM简介目前，W3C已于2000年11月13日推出了规范DOM level 2。文档对象模型(DOM)是HTML和XML文档的编程接口规范，它与平台和语言是无关的，因而可以用各种语言在各种平台上实现。该模型定义了THML和XML文件在内存...

查看更多精彩>>