XSLT教程

在计算机科学中,可扩展样式表转换语言(英语:Extensible Stylesheet Language Transformations,缩写XSLT)是一种样式转换标记语言,可以将XML数据档转换为另外的XML或其它格式,如HTML网页,纯文字。XSLT最末的T字母表示英语中的“转换”(transformation)。它是XSL规范中的一部分,最新的建议版本为XSL 3.0。

通常将XSLT称为可扩展样式表语言转换(EXtensible Stylesheet Language Transformation)是一种将XML文档转换为其他格式(如XHTML)的方法。 本教程介绍了XSLT的基础知识,包含讨论XSLT的所有基本组件以及示例。

以XSLT进行格式转换并不会变动原始的数据文件;而会以现有数据产生新的内容格式。作为输入的通常是XML数据档,或者由支持XQuery和XPath的数据模型处理器,其它来源的数据也能被转换,例如关系数据库表格或地理信息系统。

XSL规范的另外一部分是XSLF(Formatting Objects,代表格式化对象),又称XSL-FO或XSLFO,已逐渐被CSS 3.0所取代。XSLT是一种图灵完备的语言,它可以指定计算机能运行的任何计算。

XSLT历史

XSLT受到函数式编程语言和字符串模式匹配语言(如SNOBOL和AWK)的影响。它最直接的前辈是DSSSL,即为SGML的文件样式描述语言。

  • XSLT 1.0版本:XSLT是二十世纪末万维网联盟(W3C)可扩展样式表语言(XSL)开发工作的一部分,该项目还产出了XSL-FO和XPath。编订XSLT规范的委员会成员,包括编辑James Clark,具备DSSSL的工作经验。W3C于1999年11月推荐发表了XSLT 1.0规范。

  • XSLT 2.0:XSL工作组在2001年尝试新创1.1版本中断之后,与XQuery工作组合作,产出了根基于XML纲要之上的XPath 2.0,具有更丰富的数据模型和类型系统;而XSLT 2.0是由Michael Kay主导开发的,在2007年1月成为推荐状态。然而至2010年,XSLT 1.0仍然被广泛使用,因为客户端的网络浏览器尚未内置支持XSLT 2.0,或因为处于LAMP架构环境中。

  • XSLT 3.0:于2017年6月8日成为W3C推荐书。主要新功能有:

    • 流转换:在以前版本中,整个输入数据档必须在处理之前被读入内存,在处理完成之前无法写到输出(尽管Saxon有流扩展)。这个工作草案允许XML流,这对于处理内存容纳不下的过大数据档,或者在XML管道中连串变换时,是有用处的。

    • 改进大型样式表的模块化。

    • 改进动态错误的处理,例如xsl:try指令。

    • 函数可以作为其它(高阶)函数的参数。

设计模型与处理

XSLT处理器会取用一或多个XML源数据档,加上一或多个XSLT样式表,并处理它们以产生输出文件。与广泛实现的指令式编程语言(例如C编程语言)相反,XSLT是宣告式的。基本处理的范式是模式配比。模板规则只定义如何处理特定XPath模式相符的节点,而不是列出在具有状态的环境中运行的一系列动作;处理器在遇到某一模式匹配时,那么模板规则的内容就包含了,以函数式语句评估的直接成果:即结果树,它是处理器输出的基础。

处理器遵循固定的算法。首先,假设样式表已经读取和准备好了,处理器从输入的XML数据档创建来源代码树。然后处理来源树的根节点,在样式表中找到该节点相符的最佳模板,并评估模板的内容。每一个模板中的指令通常要求处理器在结果树中产生节点,或者与根节点相同的方式,处理来源树中的其它节点。从结果树中获取输出。

处理器实现

  • Altova RaptorXML 服务器:支持XSLT 1.0和2.0的跨平台引擎,大部分XPath 3.0,以及XSLT 3.0工作草案中的一些功能;也有XQuery支持。允许指令列操作以及利用COM,Java和.NET的接口,并且还包括一个内置的HTTP服务器。

  • Exselt:在.NET框架上以F#编写成的XSLT 3.0流处理器。完全支持XSLT 3.0草案,XPath 3.0推荐标准和XDM 3.0推荐标准。

  • libxslt是根据MIT授权发布的开放库,可商业化且重复使用。它以libxml为基础并以C语言实现,有快速的性能和可移植性。它支持XSLT 1.0和EXSLT扩展。

    • 在指令列中可执行xsltproc,它包含在macOS和许多Linux版本中,在微软Windows系统则透过Cygwin使用。

    • Safari浏览器的WebKit引擎,和Chrome和Blink布局引擎,都利用libxslt库进行XSL转换。

    • 在Python,Perl,Ruby,PHP,Common Lisp,Tcl和C++等编程语言中也有相对的绑定。

  • MSXML和.NET。MSXML包括XSLT 1.0处理器。从MSXML 4.0它包括指令列的工具程序msxsl.exe。

  • Saxon:XSLT 3.0和XQuery 3.1处理器,有独立操作的开源和专有版本,也提供了可用于Java,JavaScript和.NET的库。

  • QuiXSLT:由Innovimax和INRIA以Java编程语言实现的XSLT 3.0处理器。

  • Xalan:来自Apache Software Foundation的开源XSLT 1.0处理器,可以独立使用,也适用于Java和C++。

  • 网络浏览器:Safari,Chrome,Firefox,Opera 和Internet Explorer这些网络浏览器都只支持XSLT 1.0;而如果以Saxon-CE和Frameless这样的第三方协力产品,则可支持XSLT 2.0。浏览器有能力运行XML文件的即时转换,并在其视窗中显示输出。转换方式有将XSL嵌入到XML数据档中,或在XML数据档中以导入XSL的指示来完成。由于Chrome的保守安全策略,可能无法使用导入XSL的指示。

  • XMLStarlet是“可用于转换、查询、验证和编辑XML数据档的一组指令列工具程序。它可以将XSLT样式表应用于XML数据档”,而且不需要Java。它使用libxslt支持XSLT 1.0。 

  • Xuriella和Plexippus-xpath是用Common Lisp编程语言实现的XSLT 1.0处理器。

XSLT性能

早期大多数的XSLT处理器都是解释器。近来字节码越来越普遍,使用可移植的中间语言(如Java字节码或.NET中间语言)作为目标。然而,即使是解释器的成品通常也提供单独的分析和运行阶段,允许在内存中创建优化的表达式树,并可重复使用以运行多重转换。在线上发行应用程序时,这方式有显著的性能优势,其中同样的转换每秒可多次应用在不同的来源档之上。这种分离处理反映在XSLT处理器的应用编程接口(如JAXP)的设计中。

早期XSLT处理器很少被优化过。读取的样式表成为文档对象模型,而XSLT处理器会直接对它们产生作用。XPath引擎也没有被优化过。但是渐增地,XSLT处理器利用了函数式编程和数据库查询语言中发现的优化技术,例如表达式树的静态重写(例如,将计算移出循环),以及惰性的流评估来减少过程中所占内存的足迹(允许处理器对子表达式求值时,“提早退出”而不必运行全部,例如following-sibling::*)。许多处理器还使用比一般DOM实现更有效率(在空间和时间上)的树表达式。

2014年6月,Debbie Lockett和Michael Kay推出了一个开放源代码的标竿测试框架,名称为XT-Speedo。