apache-spark - 编程之家

我在Medium中阅读了一篇文章，该文章声称执行程序的数量+ 1（对于驱动程序）应为3的倍数，以有效利用

我目前正在学习Apache-Spark，并尝试运行一些示例python程序。目前，我遇到以下异常。 <pre><code>spark-subm

我有一个用于标记字符串的代码。但是该令牌化方法使用了一些在我的应用程序启动时加载的数据

我正在创建一个粘合作业，该作业需要处理来自s3路径-<code>s3://<path>/<year>/<month>/<day>/&l

我拥有多年的数据，并且想使用<code>date</code>列添加一个额外的列，该列可容纳这些年中的星期数，这些

如何在spark中执行以下操作 <pre><code>Initially: +-----------+-----+------+ |date |col1 | col2 | +-----------+-----+--

我是Scala和Spark的新手。我正在尝试使用编码器从Spark读取文件，然后转换为java / scala对象。

我正在尝试将流数据集写入Cassandra。我有以下课程的流数据集； <pre><code>case class UserSession(var i

我想在pyspark中<code>QuantileDiscretizer</code>数据框的列。但是大约有<code>4,000</code>列需要转换。因此，我想

我有如下所述的spark数据框。 <pre><code>val data = spark.sparkContext.parallelize(Seq( (1,"", "SNACKS",

我的Java代码中有一个复杂对象列表。如何为该列表创建一个DataFrame？例如，下面是我的测试代码。 <p

我想使用Spark 2.4.0和Exasol 6.2.0，通过基于JDBC的简单查询<code>SELECT * FROM table_name</code>通过jdbc创建一个DataFr

我拥有与多家公司合作的用户的数据。一些用户同时在多个公司工作。如何在不考虑重叠经验的情况下

我在hdfs中具有以下文件夹结构。 / home / myid -main.py -test1.py -test2.py 在main.py中，我试图同时导

我正在kubernetes上运行Spark作业，并且随着大量数据的出现，我经常会出现“执行器丢失”的情况，执行

我正在使用Spark 2.3.1。我正在从json文件读取数据，并且有5条<strong> <class'pyspark.sql.types.Row'> </strong>类型</p

需要了解如何<strong>配置Spark作业的核心</strong>。我的机器可以有最大的<code>11 Cores , 28 Gb memory</code>中。

我无法通过Spark作业从HDFS中流式传输“旧”文件。如果我的Spark作业由于某种原因（例如演示，部署）而

我想在spark 2.0中删除hive分区，但是在创建sparksession时，我不想启用hive支持，因为它需要很多库。有什么

我正在使用wget下载一个csv文件，但是下载进度尚不清楚，因为我无法在输出中看到进度条，是否可以查