HTML解析器 - 编程之家

Cobra 是一个纯 Java 的HTML 解析和生成器，支持 HTML 4 、JavaScript、CSS 2 示例代码：

NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档

phpQuery是一个服务器端jQuery开源项目。它可以让PHP开发人员采用与jQuery相同的语法来处理网页元素。

Jericho HTML解析器是一个Java库，以分析和操纵部分的HTML文件，其中包括服务器端的标签，而过滤掉任何无法识别的或无效的HTML

HTML Parser 是一个对HTML进行分析的快速实时的解析器，最新的发行版本是1.6，另外2.0的开发版本已经两年没有进展了。

当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时，您需要使用 mechanize 库

HTML Purifier是一个可以用来移除所有恶意代码(XSS)，而且还能确保你的页面遵循W3C的标准规范的PHP类库。

jScraper 提供了简单的接口用来解析HTML文本，它将HTML文本转成Java的对象。查看 jScraper 的 JavaDoc 文档：

VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器，支持 HTML 4.0.1 。具有语法检查、自动关闭元素，可以处理一些匹配错误的元素，执行效率高。

HotSAX 是一个快速，小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于ApacheXerces分析器。

HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-

Streaming HTML parser 是一个 C 语言的 HTML 解析器。示例代码 #include <stdio.h> #include <streamhtmlparser/htmlparser.h>

MozillaParser 是一个 Java 的HTML 解析类库，基于 mozilla 的html 解析器，提供了Java类到

TagSoup 是一个Java开发符合SAX的HTML解析器

CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是NekoHTML

Loofah 是一个 HTML 代码清理库，它可以修复被中断的HTML标签。示例代码： doc = Loofah.fragment(unsafe_html)# returns a Nokogiri document ...

JTidy 是 HTML Tidy 用Java语言实现的版本，提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的

Hpricot是一个HTML解释的库。Hpricot允许开发者通过CSS-selectors和X- Path访问html元素，因此你很轻松就可以明确目标标记，还有它是用C语言写的，因此相当快。

毫无疑问，HTML、HTTP 和 XML 是支撑 Web 技术的三种最重要的技术。对于 PHP 开发人员而言，使用这些技术可能比较麻烦。但是，新的

Html Agility Pack 是CodePlex 上的一个开源项目。它提供了标准的DOM API 和XPath 导航–即使 HTML