如何解决RF 模型中的样本 x 特征比率
我目前正在尝试构建随机森林模型来推断 70 个主题中的特征列表的相关性。 目前,我有 460 个功能,我读到过模型的构建不应使用比样本更多的功能。我知道可以应用特征选择来过滤更有意义的特征。
我想知道是否有人可以帮助我解释随机森林模型在“过度”训练时会发生什么。是否有最佳的行 x 列比率?我的意思是对于 N 个样本,应该使用 N/2 个特征还是 N 的平方根来构建模型?
我是否必须校准我的模型才能找到这个最佳比率?如何识别?
提前致谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。