feature-selection - 编程之家

我在大型数据集（> 500 个协变量）上运行了 Boruta 算法，并且使用获得了确认或拒绝特征的数据框，如

R 包 <code>adespatial</code> 在前向选择 (<code>forward.sel</code>) 期间使用哪个统计测试/模型来获取 p 值？

我有心脏数据集，其中包括年龄、性别、cp、trestbps、chol、fbs、restecg、thalach、exang、oldpeak、slope、ca、tha

我正在研究一个回归问题（我尝试了线性回归、Elasticnet 等正则化和随机森林来分析这些数据）。

我在 R 中使用 xgb.importance 和线性 xgb 模型（booster="gblinear"）。它为我提供了如下图所示的特征重要性分

当我尝试导入此链接 <a href="https://drive.google.com/drive/folders/19GmXlWGh4-u_GxntNvmlC1YD6XiIaXqn?usp=sharing" rel="nofollow

我处理一个主要包含二进制变量的数据集。但是，其中两个是具有多个值（字符串）的分类。我想使用 l

我想在分类器中包含多个特征，以更好地提高模型性能。我有一个类似于这个的数据集 <div class="s-tab

所以我使用 SVM 和 mlxtend 包执行特征选择。 X 是具有特征的数据框，y 是目标变量。这是我代码的一部分

我有一个无监督机器学习的客户细分项目，原始特征有300多个。我在数据清理阶段。有特殊的两级

我正在研究行人步数检测算法（加速度数据），我需要从过滤后的信号而非原始数据中计算统计特

这是我在这里的第一篇文章。如果您有关于更有效提问的建议，我很想听听。我正在使用 Mercedez be

我创建了一个包含大约 150 个特征的数据，我正在尝试在模型训练之前选择最佳特征。我不知道最好的

我正在为应用程序使用开放层 6。我在地图上渲染了多个图层。例如，在我的地图上，我有 2

我正在尝试设置一个 featurizers，它删除了我数据库的前 10 列之外的所有列。该数据库共有 76 列。这个想

我正在研究具有数值特征和目标的回归模型。 <pre><code>y : the weight of wastes collected in recycl

数据分析中的常见做法是删除低方差特征（自变量）以进行降维，理由是低方差特征不能解释响应变量

我尝试根据 Wickham 和 Grolemund (<a href="https://r4ds.had.co.nz/" rel="nofollow noreferrer">https://r4ds.had.co.nz/</a>) 所著的

我使用 XGBoost 模型预测空气中的 PM10 值。我主要关心的是特征重要性。我有两种类型的实验：一种针对

使用包 <code>flexsurvreg</code>，我们可以对事件发生时间数据进行分析。例如，我可以使用 <code>ovarian</code>