如何解决如何遍历目录中的文件,以便可以使用 PyPDF2 打开/读取它们?
我正在开发用于工作的发票抓取工具,我已经成功编写了所有代码来使用 PyPDF2 抓取我需要的字段。但是,我无法弄清楚如何将此代码放入 for 循环中,以便我可以遍历存储在我的目录中的所有发票。可能有 1 到 250 多个文件,具体取决于我将其用于哪个项目。
我以为我可以使用“*.pdf”代替 pdf 名称,但它对我不起作用。我对 Python 比较陌生,以前没有使用过那么多循环,因此我们将不胜感激!
import re
pdfFileObj = open(r'C:\Users\notylerhere\Desktop\Test Invoices\SampleInvoice.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
#Print all text on page
#print(pageObj.extractText())
#Grab Account Number Meter Number
accountNumber = re.compile(r'\d\d\d\d\d-\d\d\d\d\d')
meterNumber = re.compile(r'(\d\d\d\d\d\d\d\d)')
moAccountNumber = accountNumber.search(pageObj.extractText())
moMeterNumber = meterNumber.search(pageObj.extractText())
print('Account Number: '+moAccountNumber.group())
print('Meter Number: '+moMeterNumber.group(1))'''
Thanks very much!
解决方法
您想遍历目录并独立处理每个文件。
示例:
import os
for root,directories,files in os.walk('.'):
for file in files:
if '.pdf' in file:
openAndDoStuff(file)
,
另一个选项是 glob:
import glob
files = glob.glob("c:/mydirectory/*.pdf")
for file in files:
(Do your processing of file here)
您需要确保冒号之后的所有内容都正确缩进。
,import os
import PyPDF2
for el in os.listdir(os.getcwd()):
if el.endswith("pdf"):
pdf_reader = PyPDF2.PdfFileReader(open(os.getcwd() + "/" + el))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。