如何解决doc2vec 模型是否提供非字典词的准确性?
我在语料库中有混合词(字典和非字典词)的句子。非字典词与特定领域一样重要。我没有对非字典词执行任何 nlp。 doc2vec 模型是否将非字典词与匹配条件中的相同词进行比较?
例如。我正在提供输入 ['AMDML','release']。这里 AMDML 是特定领域的词。如果我在训练模型中有句子,例如 ['AMDML','release','process'] 或 ['DML','release'],它会匹配相同的单词吗?还是只有“release”和“process”之类的词在最相似的方法中匹配?
解决方法
我想不会;
根据提到radimrehurek-gensim(Doc2Vec算法的介绍者)的Le and Mikolov paper页面,他们将Paragraph Vector模型称为Doc2Vec;
在 Gensim 中,我们将段落向量模型称为 Doc2Vec。这通常优于 Word2Vec 向量的这种简单平均。 基本思想是:就好像一个文档有另一个浮动的词一样 向量,有助于所有训练预测,并更新 像其他词向量一样,但我们将其称为文档向量。 Gensim的 Doc2Vec 类实现了这个算法。
所以我猜 Doc2Vec 只是遵循 Word2Vec 模型/算法;据我所知,如果 Word2Vec 模型在其训练语料库中有 AMDML
词,它可以为它生成一个向量;否则,它会知道这一点,并向您显示类似 error: missing word
的内容,或者至少返回填充/空向量。
我认为你需要像 fasttext; fasttext 模型总是有任何词的向量,即使它们不存在于其训练语料库中;与 word2vec 不同,fasttext 可以从单词的 n-gram 字符中学习,因此您可以通过测量它们的相似度值来找到相似的单词。之后,对每个句子/文档平均这些相似性并找到相似的句子/文档。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。