如何解决寻找一组文档的最佳相似性度量
作为NLP的新手,我正在尝试寻找一个似乎没有充分记录的问题的解决方案-估计组而不是一对文件的相似度文件。
假设我有两组词db.collection("rooms").where("code","==",this.state.code).get().then(querySnapshot => {
querySnapshot.docs.forEach(snapshot => {
// handle each document individually,if any
})
});
和a
,我希望能够断言一组中的词在整体上彼此更相似 而不是第二组中的。举一个简单的例子:
b
在这里,我使用余弦相似度方法(0 =相同,1 =不相似)应用于组中所有可能的单词对。
对于那些对NLP和字符串距离功能更有经验的人来说,使用所有文档对的平均余弦距离来衡量组内相似度是否有意义?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。