如何解决使用 TF-IDF 过滤字典而不是 Python 中 LDA 的绝对计数
我的问题涉及如何使用 tf-idf 权重执行潜在狄利克雷分配过滤我的数据集。现有的库按绝对频率提供过滤器(sklearn 上的 min_df/max_dif,gensim 上的 filter_extrems())。我执行了以下步骤:
- TF-IDF 用于使用 sklearn 的文档集合中的所有术语。
- 给定上面的 document-term-matrix,我删除了所有不满足 tf-idf 阈值(即 tf-idf: 0.1)的单词
- 转换压缩稀疏行矩阵中的 dtm
- 从 csr 矩阵创建一个语料库 [使用 gensim.corpora.Dictionary.fromcorpus()]
不幸的是,在 1) 上创建的字典包含原始未过滤文档中的所有单词。
如何根据新过滤的dtm过滤词表,保持索引一致?请注意,我已经设法创建了一个仅包含相关单词的自定义词典以提供给 gensim.Lda_MultiCore(),但我无法使用功能 compactify(),因为它不适用于自定义词典
先谢谢你!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。