如何解决什么是决定何时使用OCR解析文档的有效方法?
我正在使用Apache Tika解析20.000多个文档。我还使用Tesseract对文档进行OCR,因为有些文档是扫描或屏幕截图,我也需要提取它们。 不过,使用OCR Tesseract解析所有文档将需要几天时间。例如,17个文档只用文本花费了12秒,而启用OCR则花费了20分钟。 我现在正在考虑一种识别方法,使用OCR对文档进行天气分析是否值得,也许基于Tika Text输出。
例如如果要扫描PDF,Tika不会使用text_only选项提取任何内容,所以我将使用OCR进行另一次扫描。
如果我收到很多文本并且图片主要是公司徽标等,则不必解析PDF。(我不确定如何自动看到它)
如果是.pptx,我可能会从标题和项目符号处得到一些文本,但是我可能需要图形中的文本。
您是否知道可以基于什么标准来确定天气是否值得使用OCR进行解析?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。