如何解决我想使用PyPDF模块获取pdf文件中所有字段,并得到以下错误:-TypeError:“ NoneType”对象不可迭代
嗨,我正在尝试获取PDF文件中的所有字段,我使用的是PyPDF
Python模块,所以当我使用
getFormTextFields()
方法返回错误,请帮助
下面是我写的代码:
import PyPDF2
pdfFileObj = open('Trainee Application form.pdf','rb')
pdfreader = PyPDF2.PdfFileReader(pdfFileObj)
print("Pages of Document are",pdfreader.numPages)
print("The Text Fields are",pdfreader.getFormTextFields())
解决方法
尝试pdfreader提取纯文本和/或PDF“降价”,然后解析。
这是从所有文档页面提取以上所有内容的示例代码。
from pdfreader import SimplePDFViewer,PageDoesNotExist
fd = open(you_pdf_file_name,"rb")
viewer = SimplePDFViewer(fd)
plain_text = ""
pdf_markdown = ""
try:
while True:
viewer.render()
pdf_markdown += viewer.canvas.text_content
plain_text += "".join(viewer.canvas.strings)
#### put your parsing code here ####
viewer.next()
except PageDoesNotExist:
pass
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。