apache-spark-sql - 编程之家

我希望使用Scala在Apache Spark中实现以下功能。我有一组这样的样本记录。 <a href="https://i.stack.imgur.co

根据<a href="https://stackoverflow.com/questions/63580115/how-to-read-parquet-files-under-a-directory-using-pyspark/63580182?noredirect

是否有任何方法可以将sqoop运行为火花作业。通过它我们可以将MapReduce执行替换为Spark执行引擎

我有一个项目，其中我基本上是从S3存储桶读取Json文件的数据，然后转储到Elasticsearch中。我能够成功地

我们正在生成如下数据框 <pre><code>val res_df = df.select($"id",$"type",$"key",from_json($"valu

我正在尝试使用<a href="https://github.com/adrianulbona/osm-parquetizer" rel="nofollow noreferrer">https://github.com/adrianulbona/

我以前运行glob来获取Spark 2.0+下的文件路径。 <pre class="lang-py prettyprint-override"><code>glob.glob("/dbfs/mnt/

我在spark中有一个非常奇怪的要求，其中我必须转换数据帧中存在的数据。因此，我从s3存储桶中读取数

我想用一列数字创建一个spark数据框架，其中一些是整数，另一些是浮点数： <pre><code>tmp = spark.createDa

<a href="https://i.stack.imgur.com/Jd5Ck.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/Jd5Ck.png" alt="CSV file ope

我试图在Spark SQL中将字符串格式的数据类型转换为日期格式，下面是我用来隐蔽的查询，但奇怪的是它

我已经使用数据帧上的头部动作（比如说“ val1”）在spark程序中收集了一些值。因此，“ val1”驻留在

在<code>/dev/tty</code>结构中，有50多种结构。例如：<code>report-card-details</code>，<code>result</code>，<code>editparty

我正在将数据从elasticsearch迁移到hdfs。数据大小约为200GB，有8000万条数据。这是我的代码。非常简

我在下表中有地址列 <pre><code> >>> spark.sql("select add1 from test").show(10,False) +---------------------

在调查Spark作业的性能时，我在Spark UI SQL DAG视图中注意到正在执行SortMergeJoin而不是预期的BroadcastHashJoin

我试图通过命令行运行Pyspark sql文件，并尝试在Azure的abfs位置上创建数据库和表，我通过pyspark命令执行

我有一个postgres表“ log”，其中有一个名为“ timestamp”的列，其中包含文件夹中文件的日期和时间。

此处，DF是具有超过50,000行的spark数据帧。<br/> list_skills是具有超过500个值的python列表。<br/> 我试图遍历

我有以下数据框 <pre class="lang-scala prettyprint-override"><code>val input = Seq(("ZZ","a","a","b