如何解决具有不减少的评论家损失的 DDPG 代理
我在 pytorch 中使用 DDPG 实现,在自定义健身房环境中使用反向渐变。 代理似乎在某些动作空间中收敛到 0 或 1 等极端值,而在其他动作空间中则有所不同。我不确定代码中的错误在哪里,我训练了 2000 集,其中状态空间为 4,动作空间为 4。即使在 2000 集之后,评论损失也没有减少。
这是我的特工课
NO_EPISODES = 1000
for i in range(NO_EPISODES):
obs = env.reset()
done = False
score = 0
while not done:
action = agent.act(obs)
new_state,reward,done,info = env.step(action)
agent.remember(obs,action,new_state,int(done))
agent.learn()
score += reward
obs = new_state
为了训练代理,我使用
{{1}}
任何有关实施的帮助都会非常有帮助
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。