如何解决主题建模-播种特定单词Python
我正在使用gensim包在Python中进行主题建模。我想使用eta参数播出特定单词的先验概率。我不确定单词w的概率是否为:某个主题中w的出现次数/该主题中的令牌总数? 我试图通过检查lda.get_topics和lda.get_term_topics来手动检查此问题。它们都具有numtopics_numwords的形状,就像我打算通过eta传递的字典一样。 但是,当我称第一个术语时,这两个结果会有所不同。
from gensim.models.ldamulticore import LdaMulticore
from gensim.test.utils import datapath
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=id2word,num_topics=3,random_state=100,update_every=1,chunksize=100,passes=5,alpha='asymmetric',eta='auto',per_word_topics=True)
w = lda_model.get_topics()
w[0,0:3]
array([0.00347201,0.00134237,0.00135214],dtype=float32)
w2 = lda_model.get_term_topics('account',minimum_probability=0.00000001)
w2
[(0,0.0031849854),(1,0.006998436),(2,0.0028895985)]
我认为w和w2应该为相同的索引提供相同的值。您能解释一下这些区别吗?
了解后,我将知道如何计算要通过关键字eta传递的值。但是这样的工作示例会很好。
谢谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。