apache-spark-sql - 编程之家

我正在尝试将数据帧保存到spark-shell中的TFrecord文件中，这需要spark-tensorflow-connector jar的依赖关系，所以

<pre><code>val value:String = "\u0001"+ "V1" + "\u0002" val df = Seq((value)).toDF("f1") df.show </code></p

我想统计一些数据集超过1列后的行数，例如 <pre><code>test1 <- data.frame(a = 1:5, b = 6:10) second_column = &#3

我在数据集中有一列，需要分成多列。这里是<code>contextMap_ID1</code>列的示例，这就是我要查找的结

<pre><code>q1: select distinct y.c1,y.c2,y.c6, y.c3,y.c5 max(case when y.c3 is null and y.c4='N' and y.c5 <>'Ca

我正在编写一个结构化的流Spark应用程序，在这里我从Kafka队列中读取并处理收到的消息。我想要的最终

我对Pyspark中的ML操作存有疑问。是Pyspark中的拟合操作，是分布式操作/处理，还是整个拟合操作在

我有一个目录，其中有两个具有相同架构的镶木地板文件，但列顺序不同我想知道在读取目录时spark如

我在Amazon S3上有一个inputNestedJson。此json有一个JsonObjects列表，并且这些jsonObject的每个都有一个动态字段

我想在PySpark DataFrame中创建一个具有N个重复行号的新列，而不考虑数据框中的其他列。原始数据：

我低于Spark数据框。 <a href="https://i.stack.imgur.com/cXntx.png" rel="nofollow noreferrer"><img src="https://i.stack.imgu

我已经使用pd.read加载了CSV并创建了蜂巢上下文，并尝试在pyspak中创建数据框。我遇到以下错误。 V

我正在尝试将四列（QBR，码，触地得分和拦截）连接或合并为一列，并使用pyspark中的sql函数将它们按球

是否有更好的查询从Hive托管表中获得一个月的完整数据，该表按天进行分区。我需要从表中选择一些列

如何在Spark中爆炸多个数组列？我有一个包含5个字符串化数组列的数据框，我想在所有5个列上爆炸。为

如何在pyspark中编写以下sql <pre><code>select FORMAT(DATEADD(HOUR, addHours, Coltimestamp), 'yyyy-MM-dd HH:mm') AS Tr

目前，我有一个数据框。我想将它们分为几个独立的数据帧，然后依次处理它们。像这样的火花数

我有一个数据框df，在那里我想将某些列转换为类别类型。使用熊猫，我可以按照以下方式进行操作：</p

我正在创建一个Python脚本，该脚本应定期自动执行。由于它使用日历DataFrame，因此该日历会自动更新，

我的数据框如下 <pre><code>+----+-----------------------------+ |id | att | +----+--------------------