如何解决如何训练PunkSentenceTokenizer并存储其模型
我想从维基百科的语料库中准备模型,但不确定在StackOverflow上找到的解释是否正确。
所有示例的核心如下:
text = codecs.open(filename,"r","utf8").read()
tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer()
tokenizer.train(text)
with open(destination,"wb") as out:
pickle.dump(tokenizer,out)
如果以这种方式使用它,则转储长度为408字节。如果相反,我删除了tokenizer.train(text)并用以下命令更改其上方的行:
tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer(text)
我的酱菜堆长1Mb。发生了什么?第一种方法有误吗?即使在punkt nltk_data目录的自述文件中,它也被引用了时间。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。