如何解决Gensim Phrase 模型参数阈值
有人可以向我解释一下参数阈值在 Gensim 的 Phrase 模型中的作用吗?以及在训练包含大量数据的数据集时如何选择它? 我在很多教程中搜索,但仍然没有清楚地了解它 谢谢
解决方法
作为寻找有趣词对的一种相当粗糙的统计方法,最佳参数的选择只是一个更适合您的目的的问题。
尝试比默认值更小或更大的值,并根据您真正的最终目标的一些可重复的质量评估来测试结果短语。选择得分最高的值。
请注意,由于此方法完全忽略了语法等内容,因此创建的短语无法可靠地匹配人类对逻辑词组的理解。在任何一组调整参数下,它都会创建一些不需要的短语,并错过您认为有用的其他短语。
因此,它的标记化文本输出通常不适合向最终用户显示,即使它对于其他分析步骤(如分类器或文档相似性计算)可能是有用的输入。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。