如何解决了解 gpt-2 如何标记字符串
使用教程 here ,我编写了以下代码:
from transformers import GPT2Tokenizer,GPT2Model
import torch
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')
inputs = tokenizer("Hello,my dog is cute",return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
所以我意识到“输入”由我的句子的标记化项目组成。 但是我怎样才能获得标记化项目的值呢? (参见例如 ["hello",","my","dog","is","cute"])
我之所以这么问是因为有时我认为如果某个词不在它的字典中(即来自另一种语言的词),它会分离该词。所以我想在我的代码中检查一下。
解决方法
您可以在分词器的输出上调用 tokenizer.decode
以从给定索引下的词汇表中获取单词:
>>> inputs = tokenizer("Hello,my dog is cute",return_tensors="pt")
>>> list(map(tokenizer.decode,inputs.input_ids[0]))
['Hello',',' my',' dog',' is',' cute']
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。