apache-spark-sql - 编程之家

我知道您可以将上一个函数与窗口函数结合使用的下一个非缺失值向前/向后填写缺失值。但我有

<pre><code> df.writeStream .foreachBatch((batchDF: DataFrame, batchId: Long) => batchDF.write .format("o

在这里，我尝试使用Apache Kafka执行基于结构的流。但是在这里无法正常工作并执行错误（ERROR MicroBatchExec

我有一个数据框，看起来像： <pre><code>Region, 2000Q1, 2000Q2, 2000Q3, ... A, 1,2,3,... </code></pre> 我想通过“

下面的代码用于创建数据管道。 <pre><code>package Test import org.apache.log4j.{Level, Logger} import org.apache.spark.s

我的目标是使用sparklyR中的ml_corr函数计算缺少值的数据的相关矩阵。为简单起见，我使用ml_corr文

检查以下代码。如果存在重复的密钥，它将生成含糊不清的数据帧。我们应该如何修改代码以添加父列

我有一个按列值过滤pyspark数据帧的函数。我想针对不同的值在循环中运行它，并将每个循环的输出附加

以下代码用于提取给定父列的子数据框。 <pre><code>mdf.selectExpr(mdf.schema.map(c => if(c.dataType.typeName ==&#34

我正在寻找使用where子句将字符串变量过滤为日期的正确语法。例如，我想在2020年7月1日之后保留pol_expi_

我有一个Kafka Avro主题，数据采用以下格式。 <pre><code>Sample data {'model_id': 'tesla_model_s'} {&#

我在Spark版本3.0.0中使用Pyspark，并且当我尝试获取数据帧的单行类型时，例如： <pre><code>type(df.collect()

采用以下示例数据框： <pre class="lang-scala prettyprint-override"><code>val df = Seq(Seq("xxx")).toDF("a")

输入： <pre><code>item loc qty year month A IND 10 2019 13 A IND 20 2020 1 A

<strong> Input_dataframe </strong> <pre><code>id name collection 111 aaaaa {"1":{"city":"city_1",&#

我有这样的输入数据，以年名称为列，我想用新列作为评分差异从今年减去过去一年的评分。 <pre><cod

我正在尝试将Spark中的DF格式的XML文件读取。 XML文件： <pre><code><cool> <incollection mdate="2

我想知道spark如何管理工作节点的崩溃恢复。例如，如果我通过spark-submit作业在“ --files”参数中

我正在使用PySpark，在其中我根据数据框构建临时视图。作为其中的一部分，我想知道如何比较两个数据

我们将数据存储在实木复合地板中。我们将其读入数据框并转换为案例类。这是一个模拟示例： <pre>