如何解决如何在 Google Cloud Platform 上提交 Spark Graphx 作业示例?
我在 Google Cloud Platform 上创建了一个集群,该集群具有五个基于 Linux 的虚拟机 (VM):一个主服务器和 4 个工作线程。
我在主虚拟机上运行 ./start-master.sh
,在工作虚拟机上运行 ./start-worker.sh [external-master-IP:7077]
。
现在我想简单地运行一个 Graphx 示例作业,例如一个已经在 Spark 中的 PageRank 算法,使用 ./bin/spark-submit。 >
我知道,我阅读了文档,其中说要像这样运行:
./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
我试过这个:
./bin/spark-submit \
--class org.apache.spark.examples.graphx.PageRankExample \
--master spark://<external-IP>:7077 \
--deploy-mode cluster
它说:
“错误:缺少应用程序资源。”
我需要添加一个 .jar 吗?对于这个 PageRank 示例,我找不到它。
谢谢。
解决方法
是的,您需要在 spark-submit 命令中添加 jar :
./bin/spark-submit \
--class org.apache.spark.examples.graphx.PageRankExample \
--master spark://<external-IP>:7077 \
--deploy-mode cluster
../examples/jars/spark-examples_[your version].jar
您应该在 spark 安装下的 examples/jars
文件夹中找到它。该罐子名为 spark-examples_*.jar
:
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。