如何解决变压器模型在图像字幕问题上无法正常工作
我使用了Transformer模型进行图像字幕,该模型将图像作为输入,然后进行了一些卷积层处理,然后将结果转换为单个序列,并将此序列馈送到Transformer,它将输出另一个具有一定长度的序列,该序列将成为该图像的标题。 但是问题是,当我根据Tensorflow的Transformer文档训练该模型时,我获得了85%的准确度,但是如果我对来自互联网的单个图像输入运行该模型,则无论您输入什么内容,它都会为所有图像生成相同的输出。 有人可以解决这个问题吗?
Colab链接:https://colab.research.google.com/drive/1_IgCJHeJBvW70qfdYoQ9NwnYxebtGCZK?usp=sharing
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。