smallseg 介绍
smallseg – 开源的,基于DFA的轻量级的中文分词工具包
特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。
Python 示例代码:
s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from smallseg import SEG seg = SEG() print 'Load dict...' seg.set(words) print "Dict is OK." A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表 for t in A: try: print t.decode('utf-8') except: pass print "============================" for t in B: try: print t.decode('utf-8') except: pass
Java 示例代码:
Seg seg = new Seg(); seg.useDefaultDict(); System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马")); stdout>> r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制] u:[Java, 草泥马, 泥马] (因为“草泥马”并没有在词库中)
smallseg 官网
http://code.google.com/p/smallseg/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。