如何解决如何为doc2vec选择最佳的vector_size?
我正在比较各种技术,并想找出最佳的方法来引导和减少大量文本文档的尺寸。我已经测试了单词袋和TF-IDF,并使用PCA,SVD和NMF缩小了尺寸。使用这些方法,我可以减少数据并根据所解释的方差来了解最佳维数。
但是,考虑到doc2vec本身是降维器,我想对doc2vec做同样的事情,为我的模型找出维数的最佳方法是什么?有没有统计方法可以帮助我找到最佳的vector_size?
谢谢!
解决方法
没有最好的魔法指示;您应该尝试一系列的维度,以根据您的数据和目标在特定的下游评估中查看哪些得分很好。
如果使用doc2vec实现来提供训练过度的集合文档的推断(例如通过Python gensim库中的.infer_vector()
方法),则进行合理的健全性检查,以消除{{{ 1}}(或其他参数)将重新推导训练集文档的向量。
如果对相同文本的重复重推通常彼此“接近”,并且与通过完整模型训练创建的同一文档的矢量相互“接近”,则表明该模型至少表现为自洽的方式。 (如果结果的分布范围很大,则可能表明数据不足,培训纪元太少,模型过大/过拟合或其他基础性问题的潜在问题。)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。