如何解决您可以使用 TaggedLineDocument 为文档提供额外的标签吗?
在使用 TaggedDocument
类中的语料库训练 doc2vec 模型时,您可以提供标签列表。当训练 doc2vec 模型时,它会学习标签的向量表示。例如,您可以有一个标签代表文档,另一个标签代表可以在文档之间共享的某些分类。
在使用 TaggedLineDocument
流式传输语料库时如何提供额外的标签?
解决方法
TaggedLineDocument
类仅将文档视为每行一个,并带有一个标记作为其行号。
如果您想要更多标签,则必须提供自己的可迭代对象。它应该只有几行代码,具体取决于其他标签的来源。您可以使用 TaggedLineDocument
的源代码(它本身只有 9 行 Python 代码)作为构建模型:
注意:虽然为每个文档提供一个以上的标签是原始“段落向量”方法的自然延伸,并且通常可以带来好处,但有时它也会“淡化”每个标签向量的显着性——这将是一个特殊的随着每个文档的平均标签数量增加,或者模型获得的标签比唯一文档多得多。因此,请务必比较评估任何多标签策略在不同模式下是有益还是有害,以及诸如预先已知类别之类的东西是否更适合作为后续步骤的额外标签或已知标签。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。