如何解决Huggingface BART变形器的索引超出范围bart-large-xsum
我在总结具有较大vocab尺寸的长文章时遇到了问题。 许多模型都有最大输入大小的限制。 因此,它不是接受并尝试执行索引超出范围错误的结果。 我特别使用“ BART-large-xsum”。请提出在长文档中使用这些模型的正确方法是什么,我可以进行微调以增加声音或其他操作。
一个带有如何使用“ BART-large-xsum”处理长文档的示例的代码片段将是完美的开始!
预先感谢, Teja
我的代码:
Article_text = "Article of more than 10000 characters"
from transformers import AutoModelWithLMHead,AutoTokenizer
model = AutoModelWithLMHead.from_pretrained("bart-large-xsum")
tokenizer = AutoTokenizer.from_pretrained("bart-large-xsum")
inputs = tokenizer.encode("summarize: " + Article_text,return_tensors="pt",max_length=100000)
outputs = model.generate(inputs,max_length=350,min_length=40,use_first = False)
print(tokenizer.decode(outputs[0],skip_special_tokens=True,clean_up_tokenization_spaces=False))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。