如何解决如何在Spark中从Cassandra Datastax Cloud中读取数据
如何在Spark 2.0中从Cassandra Datastax读取数据?
这是我尝试过的-
val df = spark.read.format("org.apache.spark.sql.cassandra").options(Map("keyspace" -> "my_keyspace","table" -> "my_table","spark.cassandra.connection.config.cloud.path" -> "file:///home/training/secure-connect-My_path.zip","spark.cassandra.auth.password" -> "password","spark.cassandra.auth.username" -> "Username"
))
.load()
我收到此错误:
Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: org.apache.spark.sql.cassandra. Please find packages at http://spark.apache.org/third-party-projects.html
当我使用datastax zip时,为什么需要安装Cassandra或执行其他任何步骤?
使用相同的zip文件,我可以在java程序中读取数据。为什么我无法阅读Spark?
解决方法
您在正确的轨道上。如果您是通过Spark Shell连接的,则应传递如下详细信息:
$ spark-shell --packages com.datastax.spark:spark-cassandra-connector_2.11:2.5.0 \
--files /path/to/your/secure-connect-dbname.zip \
--conf spark.cassandra.connection.config.cloud.path=secure-connect-dbname.zip \
--conf spark.cassandra.auth.username=astra_username \
--conf spark.cassandra.auth.password=astra_password
然后您的代码应类似于:
import org.apache.spark.sql.cassandra._
val df = spark.read.cassandraFormat("ks_name","tbl_name").load()
有关详细信息,请参见Spark Cassandra Connector documentation on connecting to Astra。另外还有{@ 3}的Alex Ott的博客文章。干杯!
,DataStax Astra仅在Spark Cassandra Connector 2.5.0+中受本机支持,它需要Spark 2.4(尽管它也可以与2.3一起使用)。从理论上讲,您可以从安全捆绑包中提取证书和其他信息,并使用它们,但这是繁琐的任务。因此最好升级Spark版本。
但最初的问题是未提供该软件包-请参见@flightc的答案。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。