编程之家(jb51.cc)编程百科栏目主要推荐程序员常用编程技术介绍,以下是程序开发相关编程语言,主要信息提供给程序员快速了解所需要学习的编程技术语言。
pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。
CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。
elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本,基于 huaban
“结巴”中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov
jieba.NET 是 jieba 中文分词的 .NET 版本(C#实现)。当前版本为 0.37.1,基于 jieba 0.37,目标是提供与 jieba 一致的功能与接口,但以后可能会在 jieba
IKAnalyzer.NET 是 IKAnalyzer 中文分词器在 .NET 平台下的实现
cwsharp-go cwsharp-go是golang的文本分词包,支持中文、英文以及中英混合词组,除此之外,提供自定义分词的扩展(比如日文、韩文或其它语种)。
文本分类器集合 一个强大易用的Java文本分类工具包 特色 功能全面 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。
phpSplit 是一个基于php开发的中文分词库。 居于Unicode编码词典的php分词器 只适用于php5,必要函数 iconv
FoolNLTK 中文处理工具包 特点 可能不是最快的开源中文分词,但很可能是最准的开源中文分词
TextRank4ZH 用于自动从中文文本中提取关键词和摘要,基于 TextRank 算法,使用 Python 编写。
NLPIR (自然语言处理与信息检索共享平台)是一个强大的中文分词库,
博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。
这是一个基于深度学习的分词系统和语料项目。 背景 97.5%准确率的深度学习中文分词(字嵌入+Bi-
快速分析语句的正负面(情感分析) 用于舆情分析、评论分析、语义分析 使用 mmseg4j 进行分词,情感词库丰富中,期待广大用户测试
词典用双数组trie(Double- Array Trie)实现,分词器算法为基于词频的最短路径加动态规划。
GoJieba 是 Jieba 分词 (结巴中文分词)的 Golang 语言版本分词库。 用法 go get github.com/yanyiwu/gojieba
IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-
简介 结巴中文分词的 iOS 版本。 底层使用的依然是 CppJieba 。 用法 启动后在框里面输入待分词的句子,然后按回车键即可。