apache-spark-sql - 编程之家

我试图理解为什么我要在pyspark中将数据框注册为临时视图。这是一个虚拟的例子 <pre><code># Creat

我想找到一种最有效的方法来解析raw_json列中的json或dict值，并将其提取到包含ID列和raw_json列中所有值作

样本数据集： <pre><code>id,Amount1,Amount2,Account1,Account2 1,10000,20000,AAA,ABC 2,33333,30000,BBB,CDE 3,50000,45000,C

尝试将最终数据帧数据插入Hive ORC表时，我感到很奇怪。我实际上是从两个表中读取数据，并基于order_id

我正在尝试将一堆CSV文件逐行加载到使用pyspark配置在OpenShift上运行的mysql实例中。我有一个可以启动并

我正在使用具有列<code>numpy</code>和<code>basketID</code>的数据框。有没有一种方法可以有效地解析数据集并

我有一个主数据集（df），我试图根据某些过滤器创建平均值。 <a href="https://i.stack.imgur.com/a6mRa.png" rel="no

我的任务是将包含func（s）的.py文件传入我的脚本（而不是导入），并在Spark中同时运行作业，我使用curr

我所拥有的结构： <pre><code>{ "person":"Jhon", [ {"model":"golf","mark":"vw

我正在使用“ start_pyspark_shell”命令启动我的Spark Shell，并提供cli选项，例如-4个执行程序，每个执行程

我在数据库中有一列，第一个字母为字符串，其余为数字。我会选择仅排除A1-> A999的数据，我该怎么做？

我正在编写一个针对最近一小时数据的Spark SQL查询。我以前运行此查询来获取前一天的结果，但是

我需要使用pyspark从时间戳（这是数据帧中的列）中提取时间。可以说这是时间戳记2019-01-03T18：21：39，

我有一个由两列组成的spark数据框。 <pre><code>+-----------------------+-----------+ | Metric|Recipe_name

我们很少有Spark应用程序（流和批处理模式）。我们在数据库中保存了一些配置数据（来自不同表）。在

我已经在数据集中缓存了一个配置单元表（Java中为Dataset <Row>，Scala中为Dataframe）。我想保持定期

我在SQL Server中有我的主表，我想根据我的主表（在SQL Server DB中）和目标表（在HIVE）中3列匹配的条件来

我想创建一个pyspark数据框，其中有一列具有可变模式。所以我的数据框看起来像这样： <pre><code>| Id |

在这种情况下请帮助我，我想基于大小（mb / gb）而不是行数读取spark数据帧。假设我在数据库中还为用

我正在我的Spark项目中对Hudi进行PoC。我需要从hudi表中读取数据，其中“ data_date / year”是我的主要列。<