HTML解析器专题提供HTML解析器的最新资讯内容,帮你更好的了解HTML解析器。
Cobra 是一个纯 Java 的HTML 解析和生成器,支持 HTML 4 、JavaScript、CSS 2 示例代码:
NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档
phpQuery是一个服务器端jQuery开源项目。它可以让PHP开发人员采用与jQuery相同的语法来处理网页元素。
Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML
HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。
当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize 库
HTML Purifier是一个可以用来移除所有恶意代码(XSS),而且还能确保你的页面遵循W3C的标准规范的PHP类库。
jScraper 提供了简单的接口用来解析HTML文本,它将HTML文本转成Java的对象。 查看 jScraper 的 JavaDoc 文档:
VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器,支持 HTML 4.0.1 。具有语法检查、自动关闭元素,可以处理一些匹配错误的元素,执行效率高。
HotSAX 是一个快速,小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于ApacheXerces分析器。
HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-
Streaming HTML parser 是一个 C 语言的 HTML 解析器。 示例代码 #include <stdio.h> #include <streamhtmlparser/htmlparser.h>
MozillaParser 是一个 Java 的HTML 解析类库,基于 mozilla 的html 解析器,提供了Java类到
TagSoup 是一个Java开发符合SAX的HTML解析器
CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是NekoHTML
Loofah 是一个 HTML 代码清理库,它可以修复被中断的HTML标签。 示例代码: doc = Loofah.fragment(unsafe_html)# returns a Nokogiri document ...
JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的
Hpricot是一个HTML解释的库。Hpricot允许开发者通过CSS-selectors和X- Path访问html元素,因此你很轻松就可以明确目标标记,还有它是用C语言写的,因此相当快。
毫无疑问,HTML、HTTP 和 XML 是支撑 Web 技术的三种最重要的技术。对于 PHP 开发人员而言,使用这些技术可能比较麻烦。但是,新的
Html Agility Pack 是CodePlex 上的一个开源项目。它提供了标准的DOM API 和XPath 导航–即使 HTML