如何解决如何使用python从pdf文件中提取文本?
我正在使用pyPDF2模块...。我的代码在下面->
import PyPDF2 as p2
pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb")
pdfread = p2.PdfFileReader(pdffile)
x = pdfread.getPage(0)
print(x.extractText())
pdffile.close()
但是到目前为止,输出不是utf-8字符...我假设有某种方法可以定义python读取时使用哪种编码。输出是->
˘ˇˆ˙˝ˇ
˛˚˜
˘ˇ
ˇ˘ˆ˙
˝
˚˜ˇ ˇ ˇ!˜
˘
˙
ˆ#˘ $˛%
&ˇ&ˇ˜'
ˇ
%(%˜)
˘ˇˆ˙˙˙˚˜˙
!ˇ˚
˘ˇˆ˙˙!ˇ&#˘˘˙
'#(˚
˘ˇˆ˙˙!#(#˘˘
)*#˚
˘ˇˆ˙˙#˘˘˙,˝˛#˚
˘ˇˆ˙˙˙˙,˝˛#-#
˜˚.ˇ
˘ˇˆ˙˙˙˙/ˇ##
˜##1#ˇˇˇ#####
ˇ&#ˇ#
输出仅包含空格和符号。没有可用的文字
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。