apache-spark - 编程之家

我有mutable.wrappedArray [Any]。如何将其转换为数据框。 <pre><code>val content = structure .asInstanceOf[Seq[Gener

用Spark Java编写时，在访问数据框行的一列时遇到此错误。我不明白为什么从行而不是普通数组中检索<cod

我想了解Scala中与以下代码等效的PySpark。我正在使用数据块。我需要以下相同的输出：- <strong>创

我正在使用<em> WholeTextFiles </em>读取几个文件，但我想将所有文本行都放在一行中，我正在使用<em> reduce <

我正在使用以下代码进行api调用。 <pre><code>import requests response = requests.get('https://myapi.com/api/v1/cit

我正在容器内以独立模式运行Spark。我可以设置SPARK_WORKER_MEMORY，也可以设置jvm堆大小，但是我应该如何

我有5个文件，每个文件的大小为 <pre><code> File1=~500KB File2=~1MB File3=~1GB File4=~6GB File5=~1GB </code

我正在尝试建立一个pyspark作业，以每天约700GB数据的传入量估算p25，p50，p75，p90。我正在运行40个工作节

我的数据框看起来像这样 <pre><code>------+-------+ |cat_id|

我有一个像这样的元组和值的rdd列表。有成千上万种不同的配对。 <pre><code>(A, B), 1 (B, C), 2 (C, D), 1 (A,

我有以下案例课。 <pre><code>case class UserEvent(id: Int, url: String) </code></pre> 我有以下符合预期目的的代

我想对数据集重新分区，然后将其写入目标路径。但是，由于<code>DiskPressure</code>，我的吊舱将被逐出。

我在pyspark数据框中有一个由时间（数据类型：（）组成的字段，格式为mm-dd-yy，hr-mm-ss。看起来像： <

在我的Windows机器上，我尝试使用spark 2.4.6，而没有使用hadoop- spark-2.4.6-bin-and-hadoop-scala-2.12.tgz 设置

这是我的代码： <pre class="lang-scala prettyprint-override"><code> val rdd = session.sparkContext .parallelize(offset

这是源代码： <pre class="lang-scala prettyprint-override"><code>override def createWriter(writeUUID: String, schema: StructType

根据火花的小时数分割时间戳记 <pre><code>1,2019-04-01 04:00:21,12 1,2019-04-01 06:01:22,34 1,2019-04-01 09:21:23,10 1,20

我对Spark很陌生，需要使用JAVA api。我们的目标是实时提供预测，用户将在其中提供一些变量，但当然不

我的spark数据框的输出有问题。文件范围从几GB到50 + GB <pre><code>SparkDF = spark.read.format("csv").option

我知道有一个名为<a href="http://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=registerjava#pyspark.sql.funct