如何解决如何快速扫描图像中的可搜索PDF?
我想使用tesseract框架快速扫描文档,并生成可搜索的pdf文件。
实际上,我正在使用此代码将图像转换为文本,但是我想以主要格式生成图片,但是格式会随着转换为文本而更改并生成pdf文件。 我的代码是:
func recognizeText(image:UIImage) ->String {
var str = "0"
if let tessaract = G8Tesseract(language: "eng") {
tessaract.engineMode = .tesseractCubeCombined
tessaract.pageSegmentationMode = .auto
tessaract.image = image
tessaract.recognize()
str = tessaract.recognizedText ?? "0000"
}
return str
}
解决方法
使用OCR使扫描图像中的文本可搜索后,您可能需要使用能够生成PDF输出的库或SDK。
输出可能是多层PDF,其中一层将保存识别的文本,而上面的层将保存之前扫描的图像,从而使PDF可以搜索。
有多种可用于生成PDF的库,我建议(当我为供应商工作时)建议使用LEADTOOLS工具箱,它同时具有OCR和文档转换功能: https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。