如何解决自定义Word2vec词汇源
我正在尝试为List2中包含的LOINC Longname创建一个自定义word2vec。但是,当我试图与列表中存在的“放电摘要”匹配时,用相似的单词搜索时找不到它。我使用的代码如下。如何用单词列表训练模型。
import pandas as pd
import gensim
from gensim import corpora
from pprint import pprint
texts = [[text for text in doc.split()] for doc in List2]
# Create dictionary
#dictionary = corpora.Dictionary(texts)
# Get information about the dictionary
#print(dictionary)
df = pd.DataFrame(list(zip(List1,List2)),columns =['LOINC','LONGNAME'] )
print(List2[0:10])
res = [i.strip("[]").split(",") for i in List2]
print(res[0:5])
model = Word2Vec(List2,min_count=1)
print(model)
words = list(model.wv.vocab)
print(words)
model.save('model.bin')
new_model = Word2Vec.load('model.bin')
print(new_model)
model.wv.most_similar(positive=["Discharge summary"])
#print(dictionary.token2id)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。