如何解决使用 spacy 派生的数值数据对 TruncatedSVD 和 XGBClassifier 管道进行拟合永无止境
我正在做一个 NLP 分类项目,但是在尝试拟合模型时,它根本就没有完成;在我中断进程之前,我的计算机只是继续听起来像喷气发动机。
如果有人能帮我一把,我将不胜感激。我在下面提供了一些示例代码和输出,但我还删除了一个指向我的存储库的链接,您可以在其中找到我的完整笔记本、原始数据和样本清理数据。
https://github.com/reesh19/unit_4
我用来获取模型就绪数据的一般过程:
原始文本 > 引理字符串 > 基本指标(单词和字符计数)+ 情感分析 + tfidf DTM。
模型就绪训练数据并不小(4087、8743),但是一旦我删除文本向量和文本,所有数据类型都是浮点数/整数。旁注,我放弃了它们,因为我不知道如何正确设置 FeatureUnion 管道,所以如果有人也可以帮助我,kudosx90000。
这是模型就绪数据的图像:
以及我如何设置管道:
# DF shapes
> X.shape,y.shape
((4087,8743),(4087,))
# Datatypes
> X.dtypes
chars int64
words int64
neg float64
neu float64
pos float64
...
w_zip float64
w_zippy float64
w_zombie float64
w_zone float64
w_zuidam float64
Length: 8743,dtype: object
# Hyperparameters
params = {
'clf__objective': ['rank:ndcg','rank:map','rank:pairwise'],'clf__eta': np.arange(0.01,.1,.005),'clf__max_depth': np.arange(5,21,3),'clf__subsample': np.arange(.5,1,.05),'clf__grow_policy': ['depthwise','lossguide'],'clf__colsample_bytree': np.arange(.5,'clf__n_estimators': np.arange(200,401,20),'clf__tree_method': ['gpu_hist','approx'],'clf__eval_metric': ['merror','mlogloss','ndcg','map'],'clf__reg_lambda': np.arange(0,10,1),'clf__reg_alpha': np.arange(0,1)
}
svd = TruncatedSVD()
xgb = XGBClassifier(random_state=19)
pipe = Pipeline([('svd',svd),('clf',xgb)])
rscv = RandomizedSearchCV(xgb,params,n_iter=3,n_jobs=-1,cv=2,verbose=2)
rscv.fit(X,y)
提前致谢。
PS - 只是澄清一下,我实际上从来没有遇到过错误,我不得不中断这个过程,因为我担心我的 MacBook Pro 会融化。此外,我正在使用所有内容(包括 python3.9)的最新和稳定版本,在 pip 环境中的 jupyter notebook 中工作。 最后,我的 mbp 规格:
2.7 GHz 双核英特尔酷睿 i5 / 8 GB 1867 MHz DDR3 / 英特尔虹膜显卡 6100 1536 MB
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。