FoolNLTK 介绍
FoolNLTK
中文处理工具包
特点
可能不是最快的开源中文分词,但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词,词性标注,实体识别, 都有比较高的准确率
用户自定义词典
Install
pip install foolnltk
使用说明
分词
import fool text = 一个傻子在北京 print(fool.cut(text)) # ['一个', '傻子', '在', '北京']
命令行分词
python -m fool [filename]
用户自定义词典
词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1
难受香菇 10 什么鬼 10 分词工具 10 北京 10 北京天安门 10
加载词典
import fool fool.load_userdict(path) text = 我在北京天安门看你难受香菇 print(fool.cut(text)) # ['我', '在', '北京天安门', '看', '你', '难受香菇']
删除词典
fool.delete_userdict();
词性标注
import fool text = 一个傻子在北京 print(fool.pos_cut(text)) #[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]
实体识别
import fool text = 一个傻子在北京 words, ners = fool.analysis(text) print(ners) #[(5, 8, 'location', '北京')]
暂时只在Python3 Linux 平台测试通过
FoolNLTK 官网
https://gitee.com/rockyzheng/FoolNLTK
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。