如何解决pdf文本提取缺少的空格
我有一个pdf文件,我正在尝试使用以下代码提取文本。我可以获取文本,但是返回的文本不包含单词之间的空格。我正在使用itext 7.1.12版本。感谢您的帮助。
PdfDocument pdfDoc = new PdfDocument(new PdfReader(new FileStream(pdfPath,FileMode.Open)));
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
String str = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(1),strategy) + "\n";
str = Encoding.UTF8.GetString(Encoding.Convert(
Encoding.Default,Encoding.UTF8,Encoding.Default.GetBytes(str)));
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。