apache-spark - 编程之家

我有一个函数all_purch_spark（），它为五个不同的表设置一个Spark上下文以及SQL Context。然后，相同的函数

当我尝试通过Spark-Submit提交要聚类的作业时，我的工人很少，每个工人只有10g，有2个核心： <em>初

在相当新的环境中挖掘POC以获取火花并检查火花功能，但是在pyspark终端中运行sql查询时出现问题，而Hive

我有一个Cassandra表，其创建方式如下（在cqlsh中） <pre><code>CREATE TABLE blog.session( id int PRIMARY KEY, visited t

由于我们已从CDH迁移到HDP（火花2.2到2.3），因此我遇到了一些数据删除问题。正在从hdfs位置读取表，并

我正在考虑执行以下代码。但是，我收到一个错误消息，说JavaSparkContext（sc）无法序列化。我想知道是

我有一个csv文件，其中的文本字段具有文本限定符“”。该文件还包含多行，某些字段中包含回车符。

我正在尝试创建一个相对较快的模型，该模型需要获取一组文档的单词嵌入以用于分类。现在，在Spark中

我有一个包含以下数据的json文件 <pre><code>{ "@odata.context": "XXXX", "value": [

我正在尝试使用spray json将我的数据集（案例类）转换为数据集（字符串）。下面的代码使我在spark-shell

我对Spark还是很陌生，我想知道是否有办法通过<code>SparkContext</code> / <code>SQLContext</code> API专门了解给定

我在spark中有下面的数据集，可以有n行。我正在尝试查找行，其中payment_1和payment_2的值之和以及payment_3

我是Spark的新手。任何帮助将不胜感激。 Spark SQL中是否可以使用sql的<code>FORMAT()</code>替代方法。我的核

我正在用纱线作为Resource Manager（RM）运行spark。我提交的应用程序尝试次数最多为2，即<code>spark.yarn.maxApp

我想在一段时间间隔后重新启动我的Spark会话，而又不中断当前正在工作的作业和阶段。如何获得特定Spa

无法拆分长破折号的Experience_datesEmployeed列。如何分割字符串或如何从列值中删除长破折号。我尝

我有一个要合并/合并多个数据帧的要求。总体而言，我们在运行时会生成大约14000个这样的数据帧/ sql，

在（spark 2.4.0 scala 2.11.12 sbt 1.1.6）上运行简单应用程序时出现错误。 <pre><code> 20/08/19 15:35:39 INFO StateSto

有一个输入数据框<code>df</code>（有10列，col1-col10），我在其中使用下面的UDF添加新列<code>uuid</code>并转换