如何解决如何使用BERT训练大量自定义文本中的词嵌入?
我发现了一个很棒的教程,可以在此处为自定义句子生成上下文化词嵌入:http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/
但是,它并没有告诉我如何在较大的段落中进行训练。我有大约1,000个令牌,我希望模型学习。如何修改链接的代码并将其应用于整个段落,以便每个单词都从整个文档中学习上下文?
解决方法
您链接到的教程当前使用Huggingface变形金刚。根据作者的说法,their BERT model is limited to 512 tokens。如果您想处理更长的句子,则需要从头开始训练自己的BERT。
请注意,总的来说,获得长文档的良好嵌入仍然是一个活跃的研究领域,仅更改配置文件中的一些数字就不会获得良好的结果。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。