apache-spark-sql - 编程之家

当我尝试写入/保存数据以从Spark配置单元时，我遇到错误。同样在运行之前，我从终端启动hive --service元

我有一个将hql转换为spark sql的要求。我使用的是以下方法，因此我认为性能没有太大变化。如果有人有

我正在尝试了解spark，并在<code>df=df.join(df2,"ID"); df4=df4.join(df3,"ID"); df=df.union(df4); long count=df.co

我在Python中有一个Spark数据框，它按照特定的顺序，可以根据列“ start_of_section”（其值为1或0）将行划

我正在使用Apache Spark（通过DataBricks和Scala）将某些数据从原始格式（在SQL数据库中，但所有内容都作为

我正在尝试将流数据从Kafka加载到SQL Server大数据群集数据池中。我正在使用Spark 2.4.5（Bitnami 2.4.5 spark图

我在Presto查询中有以下代码。 <pre><code>IActionResult</code></pre> 现在，我需要将它们迁移到<code> TRANSF

我有一个 PySpark SQL数据框df 。其列之一具有以下数据类型： <pre><code>rsn_cd: string (nullable =

在Spark（2.2）结构化流中，我使用UDF从kafka消息中获取值。 输入JSON：<code>{"A":"1","B&#34

假设我有一个像这样的数据框，其中<code>B_C</code>是col <code>B</code>和col <code>C</code>的连接，而列<code>selecte

给出一个动态的structType。在这里structType名称是未知的。它是动态的，因此名称正在更改。名称是

我有一个通用代码，给出了一组键，并且dataFrame会在Dataframe中找到该键集的副本 无效的代码：

给出具有以下模式的数据框。问题在于数据框是动态的，字段也是动态的。因此，您可以预先假定给定

当我们从数据框创建临时视图时， <pre><code>df.createOrReplaceTempView("table") </code></pre> 视图使用数

输入： <pre><code>item loc month year qty A DEL 5 2020 12 A DEL 6 2020 14 A DEL

我在PySpark中有这个数据框： <pre><code>+--------+--------------------+--------------------+------+--------+----------+-----

我正在尝试合并约150个表，每个表具有约3000列和350行。列不完全匹配，因此我编写了以下代码以

我已在线搜索，但在线提供的解决方案无法解决我的问题。我正在尝试读取分层目录下的实木复合地板

我正在开发一个使用以下spark上下文的spark应用程序： <pre><code>org.apache.spark.sql.SparkSession sparkSession = or

我正在使用PySpark和Hive开发Spark集群。我在SO上看到了很多有关“无法覆盖正在读取的表” Hive错误