编程之家(jb51.cc)编程百科栏目主要推荐程序员常用编程技术介绍,以下是程序开发相关编程语言,主要信息提供给程序员快速了解所需要学习的编程技术语言。
jieba “结巴”中文分词:做最好的Python中文分词组件 “Jieba” Feature 支持三种分词模式:
结巴分词插件(forelasticsearch),目前支持0.90.*以上版本 ----------------------------------------------------
中科院ICTCLAS (FreeICTCLAS)最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦
“哑哈”中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 “Yaha” You can custom your Chinese
首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。
scseg中文分词,是基于mmseg的简单分词组件 Feature 支持pinyin分词 支持用户自定义词典
盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别
SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统 。 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在
imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model,
该软件是基于IK analyzer中文分词系统,以及基于知网的词语相似度计算一文,开发的能够将普通话转换为方言的分词翻译系统。软件采用基于词库的中文方言分词,对普通话的句子进行最大分词,从而进行方言的转换。由于
snailseg Chinese Words Segment Library in Python 简单的中文分词库 在线分词效果展示 https://snailsegdemo.appspot.com/
smallseg – 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。
rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是“基于词典的最大匹配算法”
Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万的词
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。
这是一个简单的中文分词程序,可以在没有语料库的情况下通过各个词语的相关度将中文词汇抽取出来 具体的理论可以参看Matrix67的博客文章:http://www.matrix67.com/blog/archives/5044
gse Go 语言高效分词, 支持英文、中文、日文等 词典用双数组trie(Double- Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。
MySQL 结巴中文分词插件 SqlJieba 『关键词』 MySQL, 插件(Plugin), 中文分词, 结巴分词(Jieba), 全文检索(Full-Text), SqlJieba
NChinese 是一套用來處理中文字詞的函式庫,使用 C# 和 C 编写。目前具備的功能,主要是反查一串中文字的注音或拼音。
python-nlpir是NLPIR的一个python封装。NLPIR是目前运用最为广泛的中文分词工具。目前该软件支持Windows和Linux。