使用 spacy 派生的数值数据对 TruncatedSVD 和 XGBClassifier 管道进行拟合永无止境

如何解决使用 spacy 派生的数值数据对 TruncatedSVD 和 XGBClassifier 管道进行拟合永无止境

我正在做一个 NLP 分类项目，但是在尝试拟合模型时，它根本就没有完成；在我中断进程之前，我的计算机只是继续听起来像喷气发动机。

如果有人能帮我一把，我将不胜感激。我在下面提供了一些示例代码和输出，但我还删除了一个指向我的存储库的链接，您可以在其中找到我的完整笔记本、原始数据和样本清理数据。

https://github.com/reesh19/unit_4

我用来获取模型就绪数据的一般过程：

原始文本 > 引理字符串 > 基本指标（单词和字符计数）+ 情感分析 + tfidf DTM。

模型就绪训练数据并不小（4087、8743），但是一旦我删除文本向量和文本，所有数据类型都是浮点数/整数。旁注，我放弃了它们，因为我不知道如何正确设置 FeatureUnion 管道，所以如果有人也可以帮助我，kudosx90000。

这是模型就绪数据的图像：

sample

以及我如何设置管道：

# DF shapes

> X.shape,y.shape

((4087,8743),(4087,))

# Datatypes

> X.dtypes

chars         int64
words         int64
neg         float64
neu         float64
pos         float64
             ...   
w_zip       float64
w_zippy     float64
w_zombie    float64
w_zone      float64
w_zuidam    float64

Length: 8743,dtype: object

# Hyperparameters
params = {
          'clf__objective': ['rank:ndcg','rank:map','rank:pairwise'],'clf__eta': np.arange(0.01,.1,.005),'clf__max_depth': np.arange(5,21,3),'clf__subsample': np.arange(.5,1,.05),'clf__grow_policy': ['depthwise','lossguide'],'clf__colsample_bytree': np.arange(.5,'clf__n_estimators': np.arange(200,401,20),'clf__tree_method': ['gpu_hist','approx'],'clf__eval_metric': ['merror','mlogloss','ndcg','map'],'clf__reg_lambda': np.arange(0,10,1),'clf__reg_alpha': np.arange(0,1)
         }

svd = TruncatedSVD()
xgb = XGBClassifier(random_state=19)

pipe = Pipeline([('svd',svd),('clf',xgb)])

rscv = RandomizedSearchCV(xgb,params,n_iter=3,n_jobs=-1,cv=2,verbose=2)

rscv.fit(X,y)

提前致谢。

PS - 只是澄清一下，我实际上从来没有遇到过错误，我不得不中断这个过程，因为我担心我的 MacBook Pro 会融化。此外，我正在使用所有内容（包括 python3.9）的最新和稳定版本，在 pip 环境中的 jupyter notebook 中工作。最后，我的 mbp 规格：

2.7 GHz 双核英特尔酷睿 i5 / 8 GB 1867 MHz DDR3 / 英特尔虹膜显卡 6100 1536 MB

使用 spacy 派生的数值数据对 TruncatedSVD 和 XGBClassifier 管道进行拟合永无止境

如何解决使用 spacy 派生的数值数据对 TruncatedSVD 和 XGBClassifier 管道进行拟合永无止境

相关推荐