如何解决Gensim 中的余弦相似度与 Tensorflow 中的 Embedding Projector 不同
我正在尝试使用所提供的 Shakespeare 数据集来学习 TensorFlow here 上的 Word2Vec 教程,并在获得来自训练模型的 vector.tsv 和 metadata.tsv 文件后,将它们插入嵌入投影仪 {{ 3}}。问题是当我尝试将这两个文件插入 Gensim 时,首先将它们组合成一个 .vectors 文件,然后在我的程序中处理它们。此 .vectors 文件的格式类似于已接受的答案 here。我在创建 KeyedVectors 对象后运行的代码是这样的:
word_vectors = KeyedVectors.load_word2vec_format('vectors.vectors',binary=False)
result = word_vectors.similar_by_word("queen")
(我认为)通过余弦相似度计算的与“queen”最相似的词是“sacred”,得分为 0.389。但是,将向量和元数据放入嵌入投影仪后,最相似的词是“不安”,得分为 0.609。此外,Gensim 中最常用的前 5 个单词与 Embedding Projector 中的前 5 个单词不匹配。我的向量文件在 Gensim 中格式不正确,还是使用不同的度量来计算相似度?还是完全有其他问题?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。