如何解决如何使用本地Booster文件预测分布式Spark数据帧?
我将使用xgboost4j spark scala API训练的模型增强器保存到本地
xgbRegressionModel.nativeBooster.saveModel()
我想用它来预测Spark数据帧(df1)。
我可以在python中本地完成。通过运行
import xgboost as xgb
model = xgb.Booster()
model.load_model(loc + model_file)
df3 = df1.select(*(col(c).alias(c) for c in var_list)).limit(10).toPandas()
model.predict(xgb.DMatrix(df3))
但是,df1太大而无法完全下载到本地,所以我的问题是,可以分解booster文件并在spark / pyspark中生成预测,而不是对其进行分解?
TIA
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。