如何解决摘要任务的 PEGASUS 预训练
我不确定如何对最近推出的用于单个文档摘要的 PEGASUS model 进行大型文档摘要的评估。
作者针对大型文档数据集(如 Big Patent、PubMed 等,文档长度超过 Transformer 模型的输入大小)进行了展示评估。
引用论文中的内容,他们确实谈到了这一点,但并没有进一步详细说明。
CNN/DailyMail、Multi-News、arXiv、PubMed、BIG-PATENT 数据集包含的输入文档长于预训练中的最大输入长度 (L_input = 512 tokens
)。这将给位置嵌入带来一个问题,该问题永远不会因更长的输入长度而更新,但我们确认了正弦位置编码(Vaswani et al.,2017)在微调超出输入长度的 PEGASUSLARGE 时可以很好地泛化的假设在达到 L_input = 1024 tokens
的训练中观察到。由于 BIGPATENT、arXiv、PubMed 和 Multi-News 中的平均输入长度远远超过 1024 个标记,因此进一步扩大 L_input
或应用两阶段方法(Liu 等人,2018 年)可能会进一步提高性能,尽管这超出了这项工作的范围。
他们确实提到输入长度最多可达 1024 个标记。在 Huggingface 上的 PEGASUS Large 模型中,最大输入令牌也是 1024。
我不确定他们是如何设法将文档摘要扩展到超过 1024 个令牌的。
我也想为自己想要尝试的长文档摘要做类似的事情。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。