如何解决调整 LDA 主题模型
假设我使用 gensim 或 sklearn 构建了一个 LDA 主题模型,并将热门主题分配给每个文档。但是有些文档与指定的热门主题不匹配。除了尝试不同数量的主题或使用一致性分数来获得最佳主题数量之外,我还可以使用哪些其他技巧来改进我的模型?
解决方法
LDA 也(半秘密地)采用参数 alpha
和 beta
。将 alpha
视为告诉 LDA 每个文档应该从多少个主题生成的参数。 beta
是告诉 LDA 每个 word
应该有多少个主题的参数。你可以玩这些,你可能会得到更好的结果。
然而,LDA 是一种无监督模型,即使是对 k
、alpha
和 beta
的完美设置也会导致一些错误分配的文档。如果你的数据没有得到很好的预处理,你分配的参数几乎没有关系,它总是会产生糟糕的结果。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。