如何解决Ray rllib 自定义训练过程
我想细化算法的步骤: 默认情况下,操作选择为:
a = argmax Q(f(s),a; teta)
然后计算从旧状态到新状态的转换。 然后将旧状态、动作、奖励和新状态存储在缓冲区中。
我想更改 get 操作函数并使其看起来像这样:
while not condition:
action = policy.compute_action(obs)
new_obs,rew,done,info = env.step(action)
if condition:
break
obs = new_obs
replay_buffer.add(obs,action,new_obs,done)
obs = new_obs
如何自定义?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。