如何解决Java相当于PHP Simple HTML DOM Parser
| 由于我必须使用无法在PHP中雄辩地解决的多线程,所以我想使用Java进行编程,不幸的是,我找不到一个像PHP Simple HTML DOM Parser一样健壮,快速且容易地解析HTML DOM的库。 。您是否知道Java中易于使用的替代方法?解决方法
我从简单HTML DOM解析器转到JSoup,对此我感到非常满意。
, 我可以看到我们面临两个挑战:
可能不是格式正确的XHTML的HTML解析,可以简化任何内容,并且解析起来很不错。我建议使用TagSoup库,该库可以读取丑陋的HTML并生成格式正确的StaX流,然后可将其用于其他地方。
构建HTML文档的DOM表示并进行处理。您可能在JDK中知道XML DOM(
org.w3c.dom.*
)已全面实现。但是我想这不是您一直在寻找的API类型。可以包装JDK文档并且可以享受易于使用的API的DOM4J或更旧的JDOM呢?
, 我已经成功地使用TagSoup作为SAX解析器来填充DOM4J文档,然后使用XPath进行查询。我花了一些时间来解决咒语-(Scala,但我确定您可以转换):
parserFactory = new org.ccil.cowan.tagsoup.jaxp.SAXFactoryImpl
val reader = new SAXReader(parserFactory.newSAXParser.getXMLReader)
val doc = reader.read(new InputSource(new StringReader(page)))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。