如何解决在 Python 程序中的集群上部署 TF 服务模型
我正在开发一个项目,在该项目中,我在程序中使用 tf 服务依次运行不同的 tf 模型。它在本地部署没问题,如果我使用集群来完成我的任务,我要么需要在每个节点上手动部署模型,要么想办法在集群上部署 tf 服务模型并能够按顺序部署模型,因为这就是程序需要做的。
我正在使用 ray 在私有/本地云提供商(即不是 aws、gcp 或 azure)上设置集群 我发现 ray 在其内部 api 中有一个函数可以在所有工人上运行一个函数,但它对我不起作用。
def deploy_model(*args,**kwargs):
subprocess.run('docker run -t --rm -p 8501:8501 -v "$(pwd)"/models/TensorFlowServe":"/models/TensorFlowServe""
tensorflow/serving --model_config_file="/models/TensorFlowServe/models_TFServe.config.txt"
--model_config_file_poll_wait_seconds=6000 --prefer_tflite_model=false
--enable_batching --batching_parameters_file="models/TensorFlowServe/batching_parameters_file.txt" &',shell=True)
ray.worker.global_worker.run_function_on_all_workers(deploy_model,True)
以上可以将其部署在我的头节点上,而不是工作节点上。另外,也许可以使用 ray 将模型的端口转发到工作节点?
除此之外,我已经读到您可以使用 kubernetes 在集群上部署 tf 服务,但是我不知道它是否仍能解决问题,我也没有这方面的经验。可以用其他方式吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。