如何解决相似文档的数量,引理 vs 词干
我正在使用引理和词干(分别)进行文档相似性项目。
与我使用的模型相比,lemma 模型似乎找到了更多相似的文档(显然是相同的咨询)。
与我的同事讨论这个问题时,我们发现词干模型上的字典比词干模型更大。这是有道理的,因为“引理词”比“词干词”多。但如果是这种情况,那么引理模型不应该更“严格”,从而显示更少的相似文档,因为要与之比较的单词更多吗?
我的同事有一个理论,即 lemma 可能会显示更多相似的文档,因为由于词袋越大,它们之间的关系或组合的数量就越多。这听起来合乎逻辑。 你怎么认为?与词干相比,对于相同的咨询,引理模型为什么会找到更多相似的文档,这有什么解释?
谢谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。