如何解决树 vs 回归算法 - 对于主要具有分类特征的模型来说哪个更有效?
我正在研究一个回归问题来预测产品的售价。这些功能是 4 级产品层次结构和建议价格。总之,有4个分类特征和1个数值特征。总共有大约 1000K 行。
我认为在这种情况下,决策树或随机森林比回归更有效。原因是只有一个数字特征。此外,我计划将数字特征(建议价格)转换为价格桶,使其成为另一个分类特征。
我的推理有道理吗?还有其他算法值得尝试吗?有没有其他聪明的特征工程值得一试?
注1:这实际上是一个挑战问题(如Kaggle),因此特征已被屏蔽和编码。看数据,我可以肯定地说有4级产品层次,但我不太确定一个数字特征(我认为这是建议的价格),因为有很多差异这个数字和售价(y 变量)之间的一些情况。另外,本专栏有很多异常值(可能是强行引入混淆)。
解决方法
我不建议对提议的价格变量进行分箱,因为人们会期望该变量包含预测售价所需的大部分信息。当变量嘈杂时,对该变量进行分箱是有利的,但是由于您丢弃了有价值的信息,因此需要付出代价。您不必将连续变量装箱,Trees 会为您完成(RFs 也是如此)。如果您的分类变量是有序的,您不必做任何事情,但是如果不是,您可以考虑对变量进行编码(将不同的值映射到一个热向量 - 0,1)并以这种方式尝试其他回归量,例如来自 https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html 的 SVR(在这种情况下,您可以考虑将变量缩放到 [0,1])。
编辑:RF 总体上比树好,只要确保你知道你在做什么。并确保您了解 RF 是许多组合在一起的树。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。