如何解决运行Dataproc工作流程
我希望使用Dataproc工作流程来运行顺序的Spark作业。
基于docs,它必须:
- 创建工作流程
- 按作业名称将作业添加到工作流中
- 启动工作流程
为了将作业添加到工作流,您需要知道该作业的ID。因此,您需要提交工作。但是,一旦提交所有作业,如何暂停它们,将其添加到工作流程中,然后使用这些作业运行工作流程?
解决方法
所有作业同时运行,除非您指定一个或多个作业相关性。您将是为每个工作提供step-id
的人。
示例:
将 Hadoop 作业“ foo ”添加到“ my-workflow ”模板中。
gcloud dataproc workflow-templates add-job hadoop \
--region=[region] \
--step-id=foo \
--workflow-template=my-workflow \
-- [space separated job args]
将作业“ bar ”添加到“ my-workflow ”模板中,该模板将在工作流作业“ foo ”完成后运行成功。
> gcloud dataproc workflow-templates add-job [job-type] \
> --region=[region] \
> --step-id=bar \
> --start-after=foo \
> --workflow-template=my-workflow \
> -- [space separated job args]
请注意参数--start-after
,该参数指示您指定的作业将在该工作流程作业之后运行。这样,您可以按顺序运行Spark作业。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。