如何解决将Amazon SageMaker端点集成到Glue或EMR上的批处理ETL工作流程中
如何最好地通过基于Glue,基于EMR的Spark Jobs配置上述AWS Sagemaker ML模型端点?
正如我们在AWS文档'here'中所看到的那样,创建了一个名为'linear-learner-2019-11-04-01-57-20-572'的端点,可以将其调用为
response = client.invoke_endpoint(EndpointName='linear-learner-2019-11-04-01-57-20-572',ContentType='text/csv',Body=values)
但是,假设我们有一个这样的批处理作业
- 大数据上的预定批处理作业,从S3读取数据,其中
- 进行了一种转换,即添加新列作为预测
- 结果输出存储为S3。
- 可以每天触发一次,也可以在源文件夹中有新文件触发时触发
我们如何最好地通过基于EMR的Glue Spark Jobs配置上述端点?
解决方法
您可以使用Amazon Step Functions创建操作的工作流程,并依次触发每个任务(EMR,Glue,Athena,SageMaker等)。关于批处理任务,我建议您考虑启动SageMaker Processing或SageMaker批处理推断作业
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。