如何解决如何通过运行Google Compute Engine cron作业来计划Dataflow作业
在Dataflow FAQ中,列出了在Compute Engine上运行自定义(cron)作业过程是调度数据流管道的一种方法。我对应该怎么做感到困惑:如何在计算引擎上启动数据流作业并启动cron作业。
谢谢!
解决方法
我正在App Engine上工作,但我想这与Compute Engine类似
Cron将以您指定的频率命中服务的端点。因此,您需要为该端点设置一个请求处理程序,该请求处理程序将在命中时启动数据流作业(通常在请求处理程序中,您需要定义管道,然后在其上调用“运行”)。
那应该是它的基础。我要做的一个额外步骤是,让我的cron作业的请求处理程序启动云任务,然后让我的云任务的请求处理程序启动数据流作业。之所以这样做,是因为我注意到管道的“运行”命令有时会花费一些时间,而云任务的超时时间为10分钟,而cron作业的超时时间为30秒(或60秒)。
,您可以使用Google Cloud Scheduler执行您的数据流作业。在Cloud Scheduler上,您有目标,这些目标可以是HTTP / S终结点,发布/订阅主题,App Engine应用程序,您可以将Dataflow模板用作目标。查看此外部文章以查看示例:Schedule Your Dataflow Batch Jobs With Cloud Scheduler,或者如果您想向交互添加更多服务:Scheduling Dataflow Pipeline using Cloud Run,PubSub and Cloud Scheduler。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。