配置solr的schema.xml加入中文分词器

solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml

1. 首先在<types></types>中加入fieldType。

这里使用mmseg.
在mmseg文件中, 打开readme.txt, 可以看到:

[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFactory。
在 solr的 schema.xml 中定义 field type如:
<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
      </analyzer>
    </fieldType>
dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录),mode 指定分词模式(simple|complex|max-word,默认是max-word)。 [/color] 这里的dicPath是词库位置目录, 相对于solr.home目录。 所以要在solr/home目录中建立一个dic文件夹, 把词库文件放进去。 最后的dicPath是绝对路径。 没有的话就设置为dic即可 2. 将mmseg4j-all-1.8.5.jar放入到d:/lucene/solr/server/solr/WEB-INF/lib里。 3. 打开http://localhost:8080/solr/admin/analysis.jsp 选择type, 输入上面的fieldType name="xx"的xx值。 输入中文就可以进行分词了。 4. 设置field。 找到 <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/> 把type="text_general"修改为textComplex,那么我们建立的名为title的field,就会使用中文分词了。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


php输出xml格式字符串
J2ME Mobile 3D入门教程系列文章之一
XML轻松学习手册
XML入门的常见问题(一)
XML入门的常见问题(三)
XML轻松学习手册(2)XML概念
xml文件介绍及使用
xml编程(一)-xml语法
XML文件结构和基本语法
第2章 包装类
XML入门的常见问题(二)
Java对象的强、软、弱和虚引用
JS解析XML文件和XML字符串详解
java中枚举的详细使用介绍
了解Xml格式
XML入门的常见问题(四)
深入SQLite多线程的使用总结详解
PlayFramework完整实现一个APP(一)
XML和YAML的使用方法
XML轻松学习总节篇