如何解决为什么我的文本是直线输出而不是原始文本?
我目前正在从事一个项目,该项目要求我仅从PDF中提取文本并将其存储在文本文件中。但是,当我使用以下代码时,它将提取代码,但将所有文本以直线形式输出。
from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
import textwrap
#from textwrap_example import sample_text
def convert_pdf_to_string(file_path):
output_string = StringIO()
with open(file_path,'rb') as in_file:
parser = PDFParser(in_file)
doc = PDFDocument(parser)
rsrcmgr = PDFResourceManager()
device = TextConverter(rsrcmgr,output_string,laparams=LAParams())
interpreter = PDFPageInterpreter(rsrcmgr,device)
for page in PDFPage.create_pages(doc):
interpreter.process_page(page)
return(output_string.getvalue())
print((convert_pdf_to_string("SDA334.pdf")))
file1=open("11.txt","a")
file1.write(textwrap.fill(("SDA334.pdf")))
file1.close()
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。