写在前面
这是官方介绍:盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。
盘古分词组件需要配合其字典文件使用,该组件提供了多重输出解决分词粒度和分词精度权衡的问题,可配合Lucene.net一起使用实现精准的全文检索功能。还支持中文词性的识别,当然也支持英文分割。
可通过NuGet获取组件
代码实现
using PanGu;
public static class SplitWordMgr
{
/// <summary>
/// 分词
/// </summary>
public static List<string> SplitContent(string word)
{
var seg = new Segment();
ICollection<WordInfo> splitWords = seg.DoSegment(word);
var words = new List<string>();
for (int i = 0; i < splitWords.Count; i++)
{
words.Add(splitWords.ElementAt(i).Word);
}
return words;
}
}
资源及说明
链接:https://pan.baidu.com/s/1zTHOX5ioTPxQEO2CEhfXlg
提取码:llos
请将资源压缩包里的Dictionaries文件夹改名为Dict后,复制到项目的bin目录下。
原文地址:https://blog.csdn.net/rjcql/article/details/134656464
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。