如何解决阅读PDF时忽略特殊字符
我正在使用pdfplumber
抓取PDF文本。然后,我使用write
(来自软件包string
)将其写入文本文件。直到pdf开始添加特殊字符(例如↓)之前,此方法都运行良好。现在,当我将其写入文本文件时,会出现unicode错误。无论如何,有没有忽略这个特殊字符并写下其余部分的文字?
代码:
dataFile = open('AgW1.txt','w')
for eachitem in aList:
dataFile.write(str(eachitem)+'\n')
跟踪:
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-12-13532302c2d5> in <module>
1 for eachitem in aList:
----> 2 dataFile.write(str(eachitem)+'\n')
~\Anaconda3\lib\encodings\cp1252.py in encode(self,input,final)
17 class IncrementalEncoder(codecs.IncrementalEncoder):
18 def encode(self,final=False):
---> 19 return codecs.charmap_encode(input,self.errors,encoding_table)[0]
20
21 class IncrementalDecoder(codecs.IncrementalDecoder):
UnicodeEncodeError: 'charmap' codec can't encode character '\u2193' in position 63: character maps to <undefined>
解决方法
尝试将utf-8
编码添加到打开的文件中,即dataFile = open('AgW1.txt','w',encoding='utf-8')
。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。