如何解决PYPDF2 - 提取所有页面并转换为 CSV
我是 Python 新手,试图将 PDF 中的数据提取到 CSV 文件中,下面是我正在使用的代码:
import pdfplumber
import pandas as pd
file = 'Test Slip.pdf'
lines = []
with pdfplumber.open(file) as pdf:
pages = pdf.pages
for page in pdf.pages:
text = page.extract_text()
for line in text.split('\n'):
print(line)
df = pd.DataFrame(lines)
df.to_csv('test.csv')
我可以在终端中看到整个文本,这很棒。但是,CSV 文件变为空白。谁能指出我代码中的错误?
解决方法
您忘记将字符串 line
附加到列表 lines
。
问题是变量 lines
总是等于 []
试试这个代码:
import pdfplumber
import pandas as pd
file = 'Test Slip.pdf'
lines = []
with pdfplumber.open(file) as pdf:
pages = pdf.pages
for page in pdf.pages:
text = page.extract_text()
for line in text.split('\n'):
lines.append(line)
print(line)
df = pd.DataFrame(lines)
df.to_csv('test.csv')
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。