apache-spark-sql - 编程之家

我很想知道何时需要将数据帧保存在spark中，何时不需要。案例：- <ol> <li>如果我需要文件中的数据（

我有2个具有相同架构的数据框 <pre><code>df1 col1 col2 23 89 df2 col1 col2 57 72 </code></pre>

我具有bigint格式的visit_start_time_gmt字段，可以将其转换为date_time，但是现在我需要在另一列中删除时间戳

我正在研究一种多类分类模型来进行实体识别。我在Databricks平台上使用python，所以使用pyspark软件包。我

我有一个如下所示的数据框： <pre><code>pass</code></pre> <pre><code>TEST_schema = StructType([StructField("date",

我的数据框，myDF就像下面的波纹一样- <pre><code>DATE_TIME Wed Sep 6 15:24:27 CDT 2017 Wed Sep 6 15:30:05 CDT 2017 </c

有人可以帮忙将以下代码转换为scala吗？ <pre><code>(spark.read .format("parquet") .option("basePath

因此，我查看了Pyspark，Jupyter上的一堆帖子，并设置了内存/核心/执行程序（以及相关的内存）。

我目前正在使用spark 2.3.0，并升级到Spark 3.0.0。我的集群创建在Spark 2.3.0上运行良好，脚本调用如下

我有一个数据框df，其中包含a，b，c，d，e，f，g列。我有一个scala列表L1，它是List [Any] = List（a，b

spark（2.4.5）尝试执行类似于以下所示的选择查询时，引发以下错误。 <pre><code>org.apache.spark.sql.Analysis

我正在尝试捕获数据库所有表的元数据。我正在使用<code>spark.catalog</code> api提取元数据。我写了以下方

给出了s3序列所需的内容。任何两个位置的区别是表的分区列值。每个实木复合地板文件夹都具有

我得到两个<code>RDD</code>，并且想要合并并合并为一个<code>RDD</code>，如下所示： <pre><code>rdd_1 = ['a1&

我正在尝试解析本质上是动态的Json结构并将其加载到数据库中。但是面临着其中json具有动态键的困难。

输入： <pre><code>item loc month year qty_name qty_value a x 8 2020 chocolate 10 a x

我有以下列表，其中包含来自数据帧<code>@ContextConfiguration(classes = {AppConfig.class}) @CucumberContextConfiguration @W

我在Java 8中使用spark-sql-2.4.1v。我有一种情况，我会将列名作为list / Seq传递给我，对于那些列，我只需要

我是Pyspark的新手。我正在尝试运行pyspark代码。我运行了一个名为“ time.py”的代码，因此pyspark无法立即

我有一个带有3个工作程序节点的Spark集群，当我尝试从hdfs加载csv文件时，它仅利用了我通过spark-shell（