如何解决如何选择适合数据的模型?
我的问题被赋予一个特定的数据集和一个二元分类任务,是否有一种方法可以选择一种最有效的特定模型?例如请在以下{@ {3}}中考虑kaggle上的钛酸数据集。仅通过分析图形和曲线图,是否有一般的经验法则来选择随机森林,KNN和神经网络,还是只需要对其进行测试,然后选择性能最好的规则?
注意:我不是在谈论图像数据,因为CNN最适合用于这些数据。
解决方法
否,您需要测试不同的模型以查看其性能。 基于论文和kaggle的顶级算法似乎是增强算法,XGBoost,LightGBM,AdaBoost,所有这些算法的堆栈,或者通常只是随机森林。但是在某些情况下,逻辑回归的性能可能会比它们高。 因此,只需全部尝试。如果数据集大于10万,则您不会浪费那么多时间,并且可能会学到一些有价值的数据。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。