如何解决如何使用向量化器稀疏格式和其他输入生成的词袋训练sklearn模型?
我有一个问题,我有模型的文本和数字输入,我已经对每个输入进行了预处理,并使用sklearn的矢量化器生成了单词袋。 我能够用一堆单词(稀疏)来训练模型,因为sklearn知道如何扩展和训练,而且我也只能使用其他所有输入进行训练,但是当我尝试同时使用这两个输入进行训练时很热,把它们放在一起。 我尝试将单词袋扩展为数组并将其与其余数据堆叠在一起,但是这会占用太多内存。
vetorizar = CountVectorizer(lowercase=False)
bag_of_words = vetorizar.fit_transform(dataset["resumo"])
dataset["bag_of_words"] = bag_of_words
model_input = list()
for index,row in dataset.iterrows():
model_input.append(np.hstack((row["atores_encoded"],row["dirigido_encoded"],row["escritores_encoded"],row["receita_scaled"],row["popularidade_scaled"],row["orcamento_scaled"])))
这有效:
# Testando treinar com os parâmetros atores,diretor,escritores,receita,popularidade e orçamento
treino,teste,classe_treino,classe_teste = train_test_split(model_input,dataset["classificacao"],random_state=1)
regressao_logistica = LogisticRegression(max_iter=1000)
regressao_logistica.fit(treino,classe_treino)
print("Regressao Logistica",regressao_logistica.score(teste,classe_teste))
这也有效:
# Testando treinar apenas com o resumo
treino,classe_teste = train_test_split(bag_of_words,classe_teste))
但是我想同时进行这两件事的训练,我该怎么办?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。