如何解决Gensim Word2Vec是否在上下文中包括相邻句子?
我正在计算材料标签的相似度。每个标签中可能包含1-10个单词。我正在使用gensim word2vec查找余弦相似度。
我的方法只是将每个标签视为“句子”并标记每个单词。
示例:
标签 = ['木制书桌樱桃','长袖衬衫棉',..]
句子 = [['wooden','desk','cherry'],['long','sleeve','shirt','cotton'] ..] >
我的问题是word2vec是否将相邻句子纳入其上下文。例如,如果我使用window = 2,则在查看“长”周围的单词时,将包含“樱桃”或仅包含“袖子”。
如果考虑了相邻句子,则有一种方法只能考虑目标单词句子中的单词。
感谢您的帮助。我已经阅读了Word2Vec文档,找不到有关此的任何信息。
解决方法
Gensim的Word2Vec
可以处理您提供给它的任何文本块。因此,当您在训练语料库中将['wooden','desk','cherry']
和['long','sleeve','shirt','cotton']
作为单独的项目提供时,没有训练窗口会将它们融合在一起。
(另外:在足够大的训练集中,即使发生了这种“溢出”,也不太可能产生很大的变化。这会有点随机干扰,因为源数据并不能真正暗示这些单词会一起出现,但是它抛出的曲线球应该在真实同时出现时被“真实信号”淹没。)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。