在Amazon SageMaker中运行批量转换时，GPU利用率为零

如何解决在Amazon SageMaker中运行批量转换时，GPU利用率为零

我想在AWS SageMaker上运行批处理转换作业。我有一个在本地GPU上训练过的图像分类模型。现在，我想将其部署在AWS SageMaker上，并使用Batch Transform进行预测。批处理转换作业成功运行时，作业期间的GPU利用率始终为零（但是GPU内存利用率为97％）。这就是CloudWatch告诉我的。另外，这项工作大约需要花费时间。 7分钟处理500张图像，我希望它的运行速度比这快得多，至少与将其与在本地GPU上处理图像所需的时间进行比较时是可以的。

我的问题：即使我使用的是GPU实例（我使用的是ml.p3.2xlarge实例），为什么批处理转换期间也没有使用GPU？我能够将相同的模型部署到端点并发送请求。在部署到端点而不是使用批处理转换时，实际上会使用GPU。

模型准备

我正在使用带有TensorFlow后端的Keras模型。我使用本指南https://aws.amazon.com/blogs/machine-learning/deploy-trained-keras-or-tensorflow-models-using-amazon-sagemaker/将该模型转换为Sagemaker模型：

import tensorflow as tf
from tensorflow.python.saved_model import builder
from tensorflow.python.saved_model.signature_def_utils import predict_signature_def
from tensorflow.python.saved_model import tag_constants
import tarfile
import sagemaker

# deactivate eager mode
if tf.executing_eagerly():
   tf.compat.v1.disable_eager_execution()

builder = builder.SavedModelBuilder(export_dir)

# Create prediction signature to be used by TensorFlow Serving Predict API
signature = predict_signature_def(
    inputs={"image_bytes": model.input},outputs={"score_bytes": model.output})

with tf.compat.v1.keras.backend.get_session() as sess:
    # Save the meta graph and variables
    builder.add_meta_graph_and_variables(
        sess=sess,tags=[tag_constants.SERVING],signature_def_map={"serving_default": signature})
    builder.save()

with tarfile.open(tar_model_file,mode='w:gz') as archive:
    archive.add('export',recursive=True)

sagemaker_session = sagemaker.Session()
s3_uri = sagemaker_session.upload_data(path=tar_model_file,bucket=bucket,key_prefix=sagemaker_model_dir)

批量转换

用于批量转换的容器图像：763104351884.dkr.ecr.eu-central-1.amazonaws.com/tensorflow-inference:2.0.0-gpu

framework = 'tensorflow'
instance_type='ml.p3.2xlarge'
image_scope = 'inference'
tf_version = '2.0.0'
py_version = '3.6'

sagemaker_model = TensorFlowModel(model_data=MODEL_TAR_ON_S3,role=role,image_uri=tensorflow_image)

transformer = sagemaker_model.transformer(
    instance_count = 1,instance_type = instance_type,strategy='MultiRecord',max_concurrent_transforms=8,max_payload=10,# in MB
    output_path = output_data_path,)

transformer.transform(data = input_data_path,job_name = job_name,content_type = 'application/json',logs=False,wait=True
)

日志文件摘录

加载模型需要很长时间（几分钟）。在这段时间内，将记录以下错误消息：

2020-11-08T15：14：12.433 + 01：00 2020/11/08 14:14:12 [错误] 14＃14：* 3066在连接到上游时没有活动的上游，客户端： 169.254.255.130，服务器：，请求：“ GET / ping HTTP / 1.1”，子请求：“ / v1 / models / my_model：predict”，上游： “ http：// tfs_upstream / v1 / models / my_model：predict”，主持人： “ 169.254.255.131:8080” 2020-11-08T15：14：12.433 + 01：00
169.254.255.130--[08 / Nov / 2020：14：14：12 +0000]“ GET / ping HTTP / 1.1” 502157“-”“ Go-http-client / 1.1” 2020-11-08T15：14： 12.433 + 01：00
2020/11/08 14:14:12 [错误] 14＃14：* 3066 js：失败ping＃015 2020-11-08T15：14：12.433 + 01：00 502错误网关＃015 2020-11-08T15：14：12.433 + 01：00
＃015 2020-11-08T15：14：12.433 + 01：00
502 错误的网关
＃015 2020-11-08T15：14：12.433 + 01：00
nginx / 1.16.1＃015 2020-11-08T15：14：12.433 + 01：00 ＃015 2020-11-08T15：14：12.433 + 01：00＃015

有一个有关NUMA节点的日志条目已读：

从SysFS读取的成功NUMA节点的值为负（-1），但是必须至少有一个NUMA节点，所以返回NUMA节点为零

关于服务热身请求：

在以下位置找不到预热数据文件 /opt/ml/model/export/my_model/1/assets.extra/tf_serving_warmup_requests

此警告：

[警告] getaddrinfo：不支持节点名称的地址族

在Amazon SageMaker中运行批量转换时，GPU利用率为零

如何解决在Amazon SageMaker中运行批量转换时，GPU利用率为零

502 错误的网关

相关推荐