如何解决用Java解析结构化文档
| 我想将带有Java库的一些法律文档解析为代表标题,段落等的文本片段。法律文档通常结构良好,因此我想使用比JavaCC(或其他解析器生成器)更简单的东西。有什么可以(几乎)自动检测到这样的结构? 谢谢。解决方法
我认为没有工具可以“几乎自动”提取此类结构。如果确实很容易提取结构,则不需要任何工具,则可以自己编写代码。如果不是那么简单,则需要一个功能强大的工具(JavaCC,ANTLR ...)。
我认为用自定义代码自己解析文本是最好的方法。也许事先了解一下解析(递归体面,词法分析器/解析器分离...)。对于简单的结构,迅速获得可行的解决方案并不难。
,Apache POI-Microsoft文档的Java API
Apache PDFBox-Java PDF库
Apache Tika是一个更简单的工具-内容分析工具箱,使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具箱。
它内部使用pdfbox和poi
使用:java -jar tika-app-0.9.jar [option] [file] -t
将解析文件上指定的文件
命令行并输出提取的文本内容
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。