如何解决ray tune 中是否有 `initial_workers` (cluster.yaml) 替换机制?
我简短地描述了我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群:
过去我总是使用 initial_workers: 10
、min_workers: 0
、max_workers: 10
选项 (cluster.yaml
) 来最初将集群启动到满容量,然后利用基于集群的自动缩减在空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点将自动删除。
现在,随着 initial_workers
选项消失 #12444,我不太清楚如何完成相同的缩减行为。
我在 ray.autoscaler.sdk.request_resources
之前和之后尝试了以编程方式请求资源 (tune.run
) 但这似乎与 settig min_workers
字段相同,我只能缩小集群在所有工作都被终止后。
我还尝试设置 upscaling_speed
,但由于某种原因,升级非常缓慢,而且似乎一次只添加一个节点(我要求使用 GPU)。也总是只有一个待处理的任务我也不太明白(不幸的是,我也没有时间完全调查这个 :()
目前我正在使用上面描述的编程方式,它工作正常,但在工作结束时我有很多空闲资源,在我可以缩减规模之前运行了几个小时。
如果有人能指出我解决这个问题的正确方向,那就太好了。
谢谢
解决方法
在 ray
版本 1.30 中,我观察到的自动缩放问题似乎得到了解决,现在集群按预期随着待定试验进行扩展(使用 AWS ec2 g4dn 实例)。所以不再需要 intial_workers
选项。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。