如何解决什么时候应该用完 tidymodels 中的采样?
在 tidymodels 或其他方式中指定训练数据集时,我很难理解何时应该使用上采样。
例如,假设您正在构建一个分类模型来预测棒球运动员是否击中 (HIT) 或未击中 (NOHIT)。如果您有一个包含 10,000 次击球的数据集,则大约 2700 - 3000 个目标变量将是 HIT,其余的将是 NOHIT - 那个棒球。
这是一个不平衡的数据集,然而,底层系统恰好是不平衡的。在这种情况下,应该对我们的分类模型的目标变量使用 up_sampling,否则会产生错误的结果。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。