apache-spark - 编程之家

当我的批量达到n时，我需要在Spark Streaming上专门执行聚合：例如，当我运行此代码时： <pre clas

我在使用Spark应用程序资源时确实遇到了一个奇怪的问题。我的spark <strong> spark-defaults.conf </strong>文件如

使用pyspark 2.4.4，python 3.6.5 我正在使用scala编写自定义<code>PipelineStage</code>。我更喜欢在scala中使用

我想在spark-submit中传递两个文件： <ul> <li> key.jks </li> <li> trustore.jks </li> </ul> 位置如下： <ul> <li>

尝试以下代码时出现序列化错误 <pre><code>public Result implements Serializable { ArrayList<AvroGeneratedEntity&gt

嗨，我有一个配置单元外部表，该表使用AWS胶水作为数据目录.EMR可以访问胶水目录。我已经通过蜂巢控

我有一种格式为<code>1::654::5::7546786</code>的评分文件。我的文件包含<code>movieId</code>，<code>userId</code>，<cod

我有示例数据集，我想根据开始日期和结束日期（从2016-01-01到2016-01-08）用0填充日期。 <pre><code>id,date

我是Spark的新手。我的代码出现意外行为。谁能向我解释为什么？ <pre><code>run_prog</code></pre> 其行为

<pre><code>rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ]) # convert to as f

让我们假设我有一个事件流，它是转换为案例类的以下JSON <pre><code> e.g. {"id" : "IdOfUser" , &

我有一个这样的数据框： <pre><code>root |-- runKeyId: string (nullable = true) |-- entities: string (nullable = true) </c

我尝试学习Spark，但是在这里我发现了一个异常（不允许设置spark.sql.warehouse.dir，应为跨会话使用而静态

我已将json数据分解为结构化格式。现在我要计算多行用户的experience_expdurration？我们如何汇总同一用户

如何在没有互联网连接的情况下安装离线Spark NLP软件包。我已经下载了软件包（<code>x_varnames = x_vars.flatt

我正在使用Java和Spark，并且具有以下代码 <pre><code>JavaRDD<String> uploadedFiles = resultJavaRDD.map( rdd ->

我正在将一些ETL sql从mysql迁移到Spark sql。遇到非常奇怪的异常。我希望有人能帮助我。测试表： <pre>

这里是一个例子。单元44的输出显示了不同键的计数，但是当我在单元45中找到分区大小时，它将3和5组

我正在执行以下操作以使用EMR集群进行API请求： <pre><code>def get_normal_objects(self,object_name, get_id, chunk_siz

我通过扩展<code>CustomListener</code>创建了<code>SparkListener</code>。当我将数据写入文件时，它确实会打印在spa