pyspark - 编程之家

Jupyter Notebook报错 SparkException: Python worker failed to connect back.

我只是试图在pyspark shell中执行<code>sc.version</code>，但是由于未定义<code>sc</code>而收到错误消息。 <pre><

尝试提取A列和B列（以下）的不同值的最新日期的记录 <a href="https://i.stack.imgur.com/KSI7k.png" rel="nofoll

我正在使用PySpark（约10个执行程序，每个执行程序有4-5个内核）以拼合形式从云存储中读取一些数据到Sp

我有两个数据框 <ol> <li> 来自一个数据帧的最大日期列:: 一列，第一行-df1，列：maxdate

嗨，我正在尝试创建一个字符串，该字符串将具有单词及其在输入字符串中出现的位置。我试过了- <p

我正在尝试应用PandasUDFType.GROUPED_MAP函数，该函数将数据帧作为输入并产生数据帧作为输出。当我执行sdf.

对于暂存和生产，我的代码将在PySpark上运行。但是，在我的本地开发环境中，我不会在PySpark上运行代码

我正在运行多个Spark作业，这些作业从各个S3存储桶读取数据，转换为Parquet格式，然后写入单个S3存储桶

我需要在spypark（Databricks）python中实现tf-idf函数。我有一个<a href="https://filebin.net/8d0fkupze5358dde" rel="nofollo

我有两列要相互部分匹配。例如： <pre><code>A, B Birmingham Hoover, Hoover Birmingham Area </code></pre> 这

我有一个2.10的食用Hadoop。 + spark 2.4.6我在Spark中有一个查询，该查询应生成一个CSV文件以导出到我们的Ora

我正在使用PySpark库读取JSON文件，处理数据并写回实木复合地板文件。传入数据的日期字段以纪元

我有一个如下的python字典： <pre><code>data = [{"cust_decision": "buy", "cust_details": "Easy to

TLDR ；在pyspark的类中进行groupby-apply UDF时，我无法弄清楚如何在bioID列中保留信息。

我正在尝试在本地运行胶水作业，但遇到一个问题，当我运行脚本时会引发异常： <pre><code>py4j.protocol

我有这样的查询 <pre class="lang-sql prettyprint-override"><code>int</code></pre> 我需要将其转换为pyspark。如何

我下面有一个数据框： <a href="https://i.stack.imgur.com/9TUWw.png" rel="nofollow noreferrer"><img src="https://i.stack.

如果我检查点如下所示的DataFrame。我怎样才能读回它？ <pre><code>df1 = spark.createDataFrame([('Abraham',&

我进行了很多调查，但是无法获得关于如何测试我的pyspark结构化流水线工作（从Kafka主题到