imbalanced-data - 编程之家

我需要使用分层的kfold（不平衡的多类任务）交叉验证keras模型。是否可以在（folds = list（StratifiedKFold（k

我对训练回归模型以预测价格（数值）感兴趣，我有两个数据源。一个来自2019年，另一个年份是2020年。

我有一个非常不平衡的巨大数据集，我正在使用它来训练keras模型。我正在使用ImageDataGenerator的flow_from_d

我使用Keras构建了具有7个类别的CNN，最初，我每个类别使用5000张图像来保持所有内容的平衡。对于7个课

在3类分类问题中，我有一个矩阵X（特征，昏暗的320x7）和一个数组y（目标，昏暗的320x1）。我为5种不同

我正在研究医学图像分类问题。这些类高度不平衡，为了弥补这一点，我根据每个类中的样本数量使用

我正在用BERT对德国推文进行情感分析。我的数据类方式完全不平衡，例如负2000，正2000和中性8000

<pre><code>weights = class_weight.compute_class_weight('balanced', np.unique(y_train),

我的视频数据非常不平衡，分为4类（有2个次要课程和2个主要课程）。在每个时期为每个类别传递相等

我已经花了30个小时来调试这个问题，这完全没有道理，希望你们中的一个可以向我展示不同的观点。</p

LightGBM官方文件说'scale_pos_weight'可用于控制正类标签的重量。 <a href="https://lightgbm.readthedocs.io/en/lat

我正在使用PySpark来实现针对业务问题的Churn分类模型，并且我拥有的数据集不平衡。因此，当我训练模

我将尝试使其尽可能具体，但这也是一个普遍的问题。我有一个严重偏斜的数据集，其顺序为<code>{ 'C

我正在研究不平衡数据集的分类，其中少数案例在6万条记录的数据集中为1K。因此在火车数据集上尝试

我的文本文档数据集高度不平衡（3％是，87％否），其中包含标题和摘要特征。我已将这些文档转换为

我面临的情况是，误报比误报要昂贵得多。想象一下一个模型的情况，该模型用于决定您是否将立

我正在尝试对属于4类的一组X射线图像实施简单的CNN分类。数据集如下所示： <pre><code>

我正在从不平衡学习中查看InstanceHardnessThreshold转换器的源代码，这里：<a href="https://github.com/scikit-learn-co

我正在为一项研究进行预注册代码，在该研究中，我将进行随机森林回归分析（〜200个预测变量），并

我正在处理不平衡的数据集，因此我决定使用权重字典进行分类。文档说，必须按照以下所示定义