如何解决使用 Dataproc 上的配置文件提交 pyspark 作业
我是 GCP 的新手,正在努力在 Dataproc 中提交 pyspark 作业。
我有一个依赖于 config.yaml 文件的 python 脚本。而且我注意到,当我提交作业时,所有内容都在 /tmp/ 下执行。
如何在 /tmp/ 文件夹中提供该配置文件?
目前,我收到此错误:
12/22/2020 10:12:27 AM root INFO Read config file.
Traceback (most recent call last):
File "/tmp/job-test4/train.py",line 252,in <module>
run_training(args)
File "/tmp/job-test4/train.py",line 205,in run_training
with open(args.configfile,"r") as cf:
FileNotFoundError: [Errno 2] No such file or directory: 'gs://network-spark-migrate/model/demo-config.yml'
提前致谢
解决方法
下面的片段对我有用:
gcloud dataproc jobs submit pyspark gs://network-spark-migrate/model/train.py --cluster train-spark-demo --region europe-west6 --files=gs://network-spark-migrate/model/demo-config.yml -- --configfile ./demo-config.yml
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。