如何解决如何为以下标记的pos应用分块? nltk
from nltk import word_tokenize,pos_tag,pos_tag_sents
tagged_pos = pos_tag_sents(map(word_tokenize,data))
tagged_pos
以下是pos标记: [('dpdb','NN'),('engine','NN'),('底部','NN'),('power','NN'),('增益','NN') ,('曲线','NN'), ('every','DT')],[('dpdb','NN'),('engine','NN'),('center','NN'),('power','NN' ),('gain','NN'), ('curve','NN'),('every','DT')]]
我尝试过:
grammar = "NP: {<DT>?<JJ>*<NN>}"
chunk_parse = nltk.RegexpParser(grammar)
chunked=[]
for s in tagged_pos:
chunked.append(chunk_parse.parse(s))
获得以下输出: 警告:解析空文本 警告:解析空文本 警告:解析空文本 警告:解析空文本 警告:解析空文本 警告:解析空文本 警告:解析空文本
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。