如何解决将 Spacy 用于带有“垃圾”令牌的 OCR 数据集
我正在使用 Spacy 命名实体识别从文档图像 OCR 中提取特定名称。 我的训练数据集包含多达 6000 个文档,每个文档最多 4 页,每个文档注释数十个名称。
我在词汇量方面面临的问题。由于 OCR 数据包含大量拼写错误和正确的“垃圾”(无法读取的标记),因此词汇表变得非常庞大。这不仅会影响训练/模型,还会影响不断增长的“预测服务器”。 对于“预测服务器”,我知道定期停止和重新加载模型/词汇的建议。这并不理想(使服务器离线几秒钟),但(勉强)可以接受。
我主要担心的是 OCR 拼写错误和“垃圾”会在训练(和预测)期间降低(命名实体)上下文。上下文如:
"aaa bbb ccc [named_entity] ddd eee fff"
经常出现在未读或“垃圾”之上的任何标记。我尝试用“停用词”替换“垃圾”标记“bbb”:
"aaa [stop_word] ccc [named_entity] ddd eee fff"
这并没有改善任何事情。我假设“aaa [stop_word] ccc”序列与简单地删除[停止词]相同,导致序列“aaa ccc” - 这与“aaa bbb ccc”非常不同。
同样,用固定的(-junk-)标记或完全随机的标记替换“垃圾”也无济于事。我想我需要的是某种“通配符”。在序列中充当占位符但匹配“任何事物”的标记:
"aaa [通配符] ccc"
被同等对待(匹配)
"aaa bbb ccc"
“通配符”令牌的概念是否可行?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。