text-classifier-collection 介绍
文本分类器集合
一个强大易用的Java文本分类工具包
特色
功能全面
内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等
内置SVM、kNN、朴素贝叶斯等多种分类器
内置支持CSV等格式数据的读取
高度可定制
你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等
可以轻易实现你自己的分类器而与工具包中其它工具一起使用
容易使用
可自动按给定数据集选取最优分类器
与Java8引入的流和函数式API无缝结合
效果
数据集 | 样本数 | 分类数 | 准确率 |
---|---|---|---|
[YouTube Spam Collection](http://archive.ics.uci.edu/ml/datasets/YouTube+Spam+Collection) | 1956 | 2 | 92.1% |
[SMS Spam Collection](http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection) | 5574 | 2 | 98.2% |
[Sentence Classification](http://archive.ics.uci.edu/ml/datasets/Sentence+Classification) | 1510 | 5 | 80.4% |
[Reuters-21578 Text Categorization Collection](http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection) | 21578 | 135 | 59.8% |
[Reuters-21578 Text Categorization Collection](http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection) | 21578 | 175 | 67.8% |
text-classifier-collection 官网
https://github.com/chungkwong/text-classifier-collection
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。