如何解决Tesseract OCR C#:为未知字体训练网络
所以我使用 Tesseract 和 C# 来阅读英文文本,它就像一个魅力。我使用来自 tesseract 存储库的预训练数据:https://github.com/tesseract-ocr/tessdata
到目前为止,一切都很好。但是,我无法理解如何解决以下情况:我的图像最多包含三个数字:
我也遵循本教程来训练我自己的数据,但中途我无法理解我到底在做什么:https://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/
在本教程中,他们使用了一些现有字体并相应地训练了他们的网络。但是,我不知道这种字体是什么。我试图自己弄明白,但被关于 tesseract 的大量信息所淹没,实际上不知道从哪里开始。
我想知道以下是否可行:我有很多看起来像这样的图片(实际上,每个可能的字符都有每种可能的颜色,唯一的区别是背景不同): 等等...
使用这些图片,我想在不使用任何现有字体文件的情况下训练网络。
我的算法现在不使用tesseract,它只是截取数字的位置,然后按像素进行比较。不过我不喜欢这种方法,因为准确率大约是 60%。
提前感谢您的帮助
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。