如何解决从 pdf 文件中抓取一篇文章 - Python
我有 5000 多个 pdf 文件,每个文件至少 15 页,最多 20 页。我使用 pypdf2 找出 5000 个 pdf 文件中哪些有我要查找的关键字以及在哪个页面上。
现在我有以下数据:
我想知道是否有办法使用此数据在特定页面上获取特定文章。我现在知道要检查哪些文件名和哪个页面。
非常感谢。
解决方法
有一个名为 tika 的库。它可以从单个页面中提取文本。您可以以这样的方式拆分您的 pdf,即您只有相关页面仍然可用。然后你可以使用:
parsed_page = parser.from_file('sample.pdf')
print(parsed_page['content'])
注意:此库需要在系统上安装 Java
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。