如何解决tensorflow如何减少高的“设备到设备”负载
我分析了一个我正在运行的模型,并且每个步骤(320毫秒中的295个)中的绝大多数时间都由“设备到设备”操作占用(见图)。我认为这意味着将数据从我的cpu加载到我的gpu上,而这又是瓶颈。
我正在单台机器上运行它。数据存储在SSD上,并馈入GPU。
我正在使用tensorflow的tf.data.Dataset API并进行所有建议的操作,例如预取和num_parallel_calls=tf.data.experimental.AUTOTUNE
我的问题是: (1)我的假设正确吗? (2)如何减轻模型的巨大负担?
Tensorboard Profiling Overview
解决方法
这不是一个正确的答案,但确实如此;通过使用tensorflow的mixed precision training,我可以将“设备到设备”的时间减少到145ms。与其他介绍的内容相比,这仍然是一个沉重的负担,我希望能够进一步减轻它。
我也不知道为什么这样做对我有帮助。我认为mp训练意味着要传递较少的字节数,所以也许有帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。