如何解决多工策略不适用于在多台主机上进行cpu扩展
我编写的代码需要扩展到具有20个cpu内核的多个主机。我曾经使用过多种工作策略。我们基本上专注于在Tensorflow 2.3中对CPU“ NOT ON GPU”进行分布式培训。我能够在所有节点上的集群上成功运行代码。
现在是问题-
我看到缩放问题。我已经在单个主机和5个不同的主机上运行它。在增加主机数量方面,我看不到任何性能提升。 1个机器对2个,4个或5个机器来说,每个时期和整个训练所花费的时间是相同的。没有性能提升。
比起我留下的代码,我在具有相同设置的tensorflow文档中使用了该示例。
https://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras
我看到的是相同的行为,而不是随着主机的增加而扩展。
有人可以帮我吗
- multiworkerstrategy是否不支持在多主机中对分布式cpu进行扩展?
任何解决问题的帮助都会非常有帮助。我被卡住了并且长时间调试。但无法进步。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。