如何解决具有强化学习的 Transformer
我正在使用 RL 训练序列到序列转换器模型,演员和评论家都必须是转换器。但我不明白当转换器输出一个序列而不是一个单一的标量奖励时,我怎么能从评论家那里得到一个输出。
我使用的是来自 Huggingface 的预训练 t5。
它的代码在这里:
https://huggingface.co/transformers/_modules/transformers/modeling_t5.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。