如何解决tesseract脚本和语言问题
嘿
我正在使用Tesseract OCR从图像中提取文本:
对于以下几点,我需要您的宝贵建议。
- 我如何重新培训osd.traindata文件以添加Ethiopic和其他脚本,因为当前osd.traindata文件无法检测到少数脚本名称,例如:(ethiopic,gujarati,gurmukhi),但脚本目录中提供了这些脚本文件。
- 对于文本提取[语言培训数据文件]或[脚本培训数据文件]来说更准确
- 就文本提取精度而言,使用脚本进行文本提取而不是language.traindata会有什么区别。
请根据您对tesseract的经验,分享对上述列表的宝贵意见和建议。 这将对我的最后一年的项目非常有帮助。
联系人:sharmaomesh0@gmail.com。
感谢和问候 欧麦什·夏尔玛
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。