尝试使用 skmultilearn.BinaryRelevance 预测新文本时出现 Matmul 错误

如何解决尝试使用 skmultilearn.BinaryRelevance 预测新文本时出现 Matmul 错误

我正在尝试创建一个多标签文本分类的小例子:

import skmultilearn
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from scipy.sparse import csr_matrix
from pandas.core.common import flatten
from sklearn.naive_bayes import MultinomialNB
from skmultilearn.problem_transform import BinaryRelevance

TRAIN_DATA = [

    ['Como efetuar uma conexão com MySQL usando PHP ?',['desenvolvimento','banco']],['Quais são os melhores clientes de VPN hoje em dia?',['redes']],['Qual é o equivalente ao tipo booleano no Oracle?',['banco']],['Como remover entidade indesejada da sessão do Hibernate?',['desenvolvimento']],['Como implementar o pool de conexão TCP em java?','redes']],['Como posso me conectar ao banco de dados PostgreSQL remotamente de outra rede?',['banco',['Qual a função python para remover acentos em uma string?',['Como remover índices no SQL Server?',['Como configurar o firewall com DMZ?',['redes']]
]

data_frame = pd.DataFrame(TRAIN_DATA,columns=['text','labels'])
corpus = data_frame['text']
unique_labels = set(flatten(data_frame['labels']))
for u in unique_labels:
    data_frame[u] = 0
    data_frame[u] = pd.to_numeric(data_frame[u])
for i,row in data_frame.iterrows():
    for u in unique_labels:
        if u in row.labels:
            data_frame.at[i,u] = 1
tfidf = TfidfVectorizer()
Xfeatures = tfidf.fit_transform(corpus).toarray()
y = data_frame[unique_labels]
binary_rel_clf = BinaryRelevance(MultinomialNB())
binary_rel_clf.fit(Xfeatures,y)
predict_text = ['SQL Server no PHP?']
X_predict = tfidf.fit_transform(predict_text)
br_prediction = binary_rel_clf.predict(X_predict)
print(br_prediction)

但是,我收到此错误:

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0,with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 56 is different from 4)

我需要更改什么“维度”才能正确运行 predict()?

解决方法

您正在使用 TfidfVectorizer 来转换您的文本特征。您应该在训练数据上只拟合一次转换器,在您的情况下是 corpus。但是,在准备要测试/预测的数据时,您应该使用 transform 方法,而不要 fit_transform 再次使用,因为这会重新安装转换器。

更改以下内容以使其工作:

X_predict = tfidf.transform(predict_text)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?