apache-spark - 编程之家

我想为用C＃/。NET编写的Spark应用程序编写单元测试。我目前正在使用XUnit编写测试，但没有找到任何好

在使用XGBoost Spark 4J训练随机森林时如何传递num_parallel_tree参数？参考<a href="https://xgboost.readthedocs.io

我已经用Spark GraphX中的Pregel编写了算法。但不幸的是，我收到TypeMismatch错误。我用：<code>val my_graph= Graph

我想在Databricks Job中使用一个Maven软件包，该软件包将在新的自动Cluster上运行。常规交互式集群可以选择

我有两个数据帧，一个是使用Spark结构化流传输的，另一个是我创建的静态数据帧。我正在尝试加入他们

我需要将文件从S3存储桶读取到Spark数据集中。我使用了正确的secretKey和accessKey，并且还尝试了端点配置

我需要一种从唯一的数据集中获取x数量的随机行的方法。我尝试了数据集类的<code>sample</code>方法，但有

我正在将Spring Boot从<code>1.5</code>升级到<code>2.3</code>，将kafka从<code>0.11.0.3</code>升级到<code>2.5.0</code>，spark

我使用Cloudera，我有一个Oozie工作流程，可通过Spark触发python的脚本。 在Oozie作业的“选项列表”字段

我想为每组名称选择第二行。我使用orderby按名称排序，然后按购买日期/时间戳排序。请务必为每个名称

我正在PySpark中进行编码，并具有一个包含令牌及其关联短语的数据框。同一短语可以出现在多行中，因

我正在尝试安装 Spark ，它需要Java才能使用 <pre><code>!apt-get install openjdk-8-jdk-headless -qq > /dev/nu

我需要以有效的方式执行SparkSQL语句。例如。编译一次，执行多次（使用不同的参数值）。对于一

我正在将spark数据帧保存到csv文件中。所有记录都用双引号保存，这很好，但列名也用双引号保存。您能

最近，我们将Spark Jobs迁移到了Kerberized集群。我们的一些Spark作业从尚未进行Kerberized的另一个集群中提取

我正在尝试将s3中的数据（在日期（休息）的日期字符串上进行了分区）移动到另一个位置，在该位置将

我是Spark和Scala的新手，我想将一列字符串日期转换为Unix时期。我的数据框如下所示： <pre><code>+-------

我有一个<code>Dataset<Row></code>，其结构如下： <pre><code>{"name": "Ben", "lastHolidayDestinati

我在spark数据框中有一个列时间跨度值在iso 8601持续时间内例如：<code>P0Y0M0DT0H5M35S </code>。我想将这些

当我运行下面的代码时，出现错误 java.lang.AssertionError：断言失败：找到重复的重写属性。在更新