apache-spark - 编程之家

我正在尝试使用Spark 2.2.3读取Phoenix表因此，我将此依赖项添加到build.sbt中： <pre><code>"org.apache.phoen

我有pyspark数据帧，其中有timestamp列，我想将timestamp减少1 ms。 spark中是否有一些内置功能可用于处理这种

由于我在Spark上工作了几天，所以对Spark内存管理感到困惑。我看到诸如物理内存，虚拟内存，执行程序

在Databricks <a href="https://docs.databricks.com/notebooks/visualizations/index.html" rel="nofollow noreferrer">visualization reference

我在Ubuntu VM上通过Jupyter运行有效的Pyspark安装。<br/> 只有一个Java版本（<code>openjdk version "1.8.0_265"</c

我必须运行spark作业，在该spark作业中，我们必须将date作为参数读取当前目录。我正在使用Airflow安排工

我正在一个应用程序上使用udf之后使用df.cache（）然后使用df.count（），但是我读的是较新的Spark版本（>

我已按照通常的步骤将日志级别更改为DEBUG，但是在AWS EMR中运行的spark应用程序日志中没有看到DEBUG级别

我正在客户端模式下在YARN上运行Spark。通过负载平衡器将驱动程序与ApplicationMaster隔离，该负载平衡器会

我们在kafka中获得了Avro数据，其中的数据包含特殊字符，例如“FETäälö”。我们正在尝试使用Spark

我有一个DF包含数组的列。每行的结构如下： <pre><code>+---------------+------------+-----------+---------+---------

我正在尝试记录我的项目。为此，我使用log4j，并将信息和设置放入代码本身，而不使用属性文件，如下

我的环境：Ubuntu 64位，Spark 2.4.5，Jupyter Notebook。互联网连接很好，没有任何错误： <pre><code>spark

我有兴趣计算r sparklyr中最后x秒/分钟的移动时间戳中的唯一观察值。这是移动时间戳记中最后1秒的示例

我正在尝试使单词数最多的句子。我对PySpark的经验很少，对此有麻烦。让我列出我遵循的步骤。</

在我自己的计算机上设置pyspark时，出现以下错误，请提供帮助。 ---> 1个导入pyspark 〜/ spark-2.4.6-bin

说我有表1，如： <pre><code>in_id, out_id, updated 2654, 2765, 2020-01-01 2765, 4891, 2020-03-03 1195, 2006, 2020-01-02 2006, 7

我尝试浏览各种帖子，但没有得到答案。可以说我的Spark作业有1000个输入分区，但我只有8个执行程序核

以换行符分隔的JSON文件示例如下所示。 <pre><code>[ {"name": "Vishay Electronics", "specif