apache-spark-ml - 编程之家

我对Spark很陌生，需要使用JAVA api。我们的目标是实时提供预测，用户将在其中提供一些变量，但当然不

有人知道如何将参数仅传递给PySpark ML Pipeline对象的一个步骤吗？我知道，在使用sklearn的情况下，可

是否有一种无需学习即可手动创建OneHotEncoderModel的方法？这是一个安静的简单模型，唯一的学习参

我已经收到了预先训练的pyspark模型（GBTRegressor），但无法在数据集上使用它来获取预测。我已经看到了

我正在python的PySpark（--version 3.0.0）中使用Apache Spark API，并且理想情况下，我希望以分层的方式对我的标

我们有一个机器学习分类器模型，该模型已通过pandas数据框和标准sklearn管道（StandardScaler，RandomForestClass

我是新来的火花。我正在使用以下配置集在Spark独立版本（v3.0.0）中编写机器学习算法： <pre><code>Spark

下面是我用来训练GBM模型以使用MLlib进行回归的代码。在我的数据中，没有分类变量，所有字符串列均

我想使用Spark MLlib的BinaryClassificationMetrics中可用的二进制分类指标，例如precisionByThreshold和retretByThreshold

我是Spark / pyspark的新手，可能对RFormula对象功能有误解。它的源代码很难被察觉。根据示例，单独

我有一个包含2900万行的数据集，并且我正在使用Azure Databricks和SparkR来处理数据和建立预测器模型。 <

我正在烧瓶应用程序内部使用sparknlp。 flask应用程序的目的是聆听kafka服务器，获取故事，对其进行处理

我们需要将（火花）机器学习模型存储到文件系统或数据库中，以便其他系统可以通过该模型运行新数

我有许多不同组件的时间序列数据。这些组件最初都带有标签，所以我知道它们是什么。然后，当我得

我正在尝试加速数据块上的Spark ML管道。目前，为具有2000行3列的数据帧训练SparkML管道需要花费35

我正在使用Spark v3.0.0。我的数据框是： <pre><code>indexer.show() +------+--------+-----+ |row_id| city|index| +------

我在使用Spark 3.0.1时遇到了MinMaxScaler的问题，其中生成的缩放列包含Dense和Sparse向量的混合。根据{{3}

我已经训练了一个模型，并希望计算几个重要指标，例如<code>accuracy</code>，<code>precision</code>，<code>recall<

我正在尝试建立一个回归模型，该模型的基础特征矩阵非常大（在73K列上有418K行）并且非常稀疏（58M非

单词和索引未按顺序排列。例如文档0，<code>unsigned int count = 0; while(true) { std::cout << ((++count%2) != 0)