如何解决在数据集的不同部分上整合相同scikit学习回归器的多个实例
我目前正在将sklearn回归变量安装在一个非常大的数据集(考虑数十亿行)上,并且鉴于我的硬件/云选项,我无法在没有OOM错误的情况下对整个数据运行该回归变量。因此,我认为在数据集的各个部分上运行相同的回归变量(例如一次1%),对其进行训练并执行100次,然后合计最后一个阶段的估计量,以简单地对预测取平均值即可。
我的问题是,这是否有助于解决内存问题,或者经过几次迭代后是否会遇到类似的问题?
如果是,如何实现?据我所知,sklearn集成中的集成方法首先是学习者,然后在相同的数据集上对它们进行训练(例如“ votingRegressor”),和/或实施经过交叉验证的某些最终阶段估计器(例如“ stackingRegressor”)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。