apache-spark-sql - 编程之家

我是Scala和Spark的新手。我正在尝试使用编码器从Spark读取文件，然后转换为java / scala对象。

我有如下所述的spark数据框。 <pre><code>val data = spark.sparkContext.parallelize(Seq( (1,"", "SNACKS",

我想使用Spark 2.4.0和Exasol 6.2.0，通过基于JDBC的简单查询<code>SELECT * FROM table_name</code>通过jdbc创建一个DataFr

我拥有与多家公司合作的用户的数据。一些用户同时在多个公司工作。如何在不考虑重叠经验的情况下

我在Java8中使用spark-sql-2.4.1v。我有下面的情况 <pre><code>List data = List( ("20", "score", "sch

我正在使用Spark 2.3.1。我正在从json文件读取数据，并且有5条<strong> <class'pyspark.sql.types.Row'> </strong>类型</p

我有一个Spark数据框，看起来像这样，其中商品编号，国家/地区代码和日期的每种组合都包含一行，而

我正在一个应用程序上使用udf之后使用df.cache（）然后使用df.count（），但是我读的是较新的Spark版本（>

我有一个DF包含数组的列。每行的结构如下： <pre><code>+---------------+------------+-----------+---------+---------

我在SQLServer中有下表 <pre><code>CREATE TABLE test ( id smallint, val, varchar(200) ); </code></pre> 我正在尝试使

以换行符分隔的JSON文件示例如下所示。 <pre><code>[ {"name": "Vishay Electronics", "specif

我有一个函数all_purch_spark（），它为五个不同的表设置一个Spark上下文以及SQL Context。然后，相同的函数

我有一个给定的数据框，如下所示： <pre><code> TEST_schema = StructType([StructField("Date", StringType(), True

我对Spark还是很陌生，我想知道是否有办法通过<code>SparkContext</code> / <code>SQLContext</code> API专门了解给定

我在spark中有下面的数据集，可以有n行。我正在尝试查找行，其中payment_1和payment_2的值之和以及payment_3

我是Spark的新手。任何帮助将不胜感激。 Spark SQL中是否可以使用sql的<code>FORMAT()</code>替代方法。我的核

无法拆分长破折号的Experience_datesEmployeed列。如何分割字符串或如何从列值中删除长破折号。我尝

在（spark 2.4.0 scala 2.11.12 sbt 1.1.6）上运行简单应用程序时出现错误。 <pre><code> 20/08/19 15:35:39 INFO StateSto

在Pyspark中，我试图对数据框中的所有行进行计数。在Hive上，我可以执行以下操作： <pre><code>cou

新出现在Spark中，我正在寻找一种使用Spark <strong>结构化流</strong>在数据集的所有元素中执行动作的方法