CWSharp 介绍
CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。
特性
-
支持多种分词器
-
StandardTokenizer
-
BigramTokenizer
-
StopwordTokenizer
-
-
可扩展的自定义分词接口
-
支持自定义词典
-
支持Lucene.Net分词
-
MIT授权协议
安装&编译
-
NuGet
nuget install CWSharp
-
Package Manager Console
PM> install-package CWSharp
算法
TODO
-
HMM算法,识别未登记词语以及人名、地名识别
-
支持跨平台Windows、Linux
FAQ
-
词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。
-
lucene.net插件 - Lucene.Net分词接口
CWSharp 官网
https://github.com/yamool/CWSharp/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。