如何解决如何仅从文本数据准备测试数据集?
我正在使用LinearSVC和python中的文本数据集执行ML分类任务。 我已经使用Sklearn(train_test_split)创建了训练和测试数据集。 该算法在我的数据集上正常工作。我的问题是,我有具有相同类的相似数据集。我想用这个新的数据集测试我的算法。如何将新数据集作为测试数据集输入到模型中?如何为同一数据集做出预测并检查准确性?进行预测的数据集的格式可能是什么?这样我就可以检查新数据集的准确性。
我检查了我从火车测试拆分创建的测试数据集。它是数组形式。如何将数据集转换为数组格式?
请帮助我解决这个问题。
您发现我的代码如下。其中“主题”是包含类名称的变量。其中“文本”是组成文本数据的列。
data['category_id'] = data['Topic'].factorize()[0]
category_id_data = data[['Topic','category_id']].drop_duplicates().sort_values('category_id')
category_to_id = dict(category_id_data.values)
id_to_category = dict(category_id_data[['category_id','Topic']].values)
tfidf = TfidfVectorizer(sublinear_tf=True,min_df=5,norm='l2',encoding='latin-1',ngram_range=(1,2))
features = tfidf.fit_transform(data.Text).toarray()
labels = data.category_id
model1 = LinearSVC()
X_train,X_test,y_train,y_test,indices_train,indices_test =
train_test_split(features,labels,data.index,test_size=0.2,random_state=0)
model1.fit(X_train,y_train)
y_pred = model1.predict(X_test)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。