apache-spark-sql专题提供apache-spark-sql的最新资讯内容,帮你更好的了解apache-spark-sql。
有一个Parquet文件格式的事实表(FACT_TABLE)。我使用相同的列在事实表的顶部创建了视图VW_FACT_TABLE,当
尝试提取A列和B列(以下)的不同值的最新日期的记录 <a href="https://i.stack.imgur.com/KSI7k.png" rel="nofoll
我有两个数据框 <ol> <li> 来自一个数据帧的最大日期列:: <strong>一列,第一行-df1,列:maxdate </strong>
我正在尝试应用PandasUDFType.GROUPED_MAP函数,该函数将数据帧作为输入并产生数据帧作为输出。当我执行sdf.
我有两列要相互部分匹配。 例如: <pre><code>A, B Birmingham Hoover, Hoover Birmingham Area </code></pre> 这
说我在dfA中有一些数据,例如,一个键(pid)和一个数组类型列(category_ids_array): <pre><code>val dfA =
假设我有下表: <pre><code>+------+------+--------+ | Col1 | Col2 | NumCol | +------+------+--------+ | a | z | 1 |
我想为每组名称选择第二行。我使用orderby按名称排序,然后按购买日期/时间戳排序。请务必为每个名称
我正在PySpark中进行编码,并具有一个包含令牌及其关联短语的数据框。同一短语可以出现在多行中,因
我需要以有效的方式执行SparkSQL语句。例如。编译一次,执行多次(使用不同的参数值)。 对于一
我是Spark和Scala的新手,我想将一列字符串日期转换为Unix时期。我的数据框如下所示: <pre><code>+-------
想使用MAVEN在我的/ src文件夹中的spark-sql上运行<strong> sql </strong>文件,尝试了很多事情,但找不到任何方
我有一个<code>Dataset&lt;Row&gt;</code>,其结构如下: <pre><code>{&#34;name&#34;: &#34;Ben&#34;, &#34;lastHolidayDestinati
用Spark Java编写时,在访问数据框行的一列时遇到此错误。我不明白为什么从行而不是普通数组中检索<cod
我正在尝试建立一个pyspark作业,以每天约700GB数据的传入量估算p25,p50,p75,p90。我正在运行40个工作节
<a href="https://i.stack.imgur.com/Umfhj.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/Umfhj.png" alt="enter image
我的数据框看起来像这样 <pre><code>------+-------+ |cat_id|
我有一个像这样的元组和值的rdd列表。有成千上万种不同的配对。 <pre><code>(A, B), 1 (B, C), 2 (C, D), 1 (A,
我知道有一个名为<a href="http://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=registerjava#pyspark.sql.funct
我有一个带美元符号的字符串列。如何转换为doubletype或float以便对它进行计算? 这些列看起来像是