如何解决Lucene 演示中的停用词和词干
我有两个关于 Lucene Demo 的主要问题。 Lucene 演示在任何修改之前是否使用停用词? 词干呢?如果是这样,它使用什么词干分析器?
解决方法
你指的是哪个演示?
如果是 this one,那么答案是:
(a) 停用词:不,不是。它使用 StandardAnalyzer()
,它在创建时不使用停止词,没有参数(但可以,如果您选择提供一些)。
(b) 词干:不,它不使用词干——演示代码中不涉及词干类,因为标准分析器没有使用词干。
查看 StandardAnalyzer
的 javadoc。您将看到以下内容:
使用LowerCaseFilter 和StopFilter 过滤StandardTokenizer,使用可配置的停用词列表。
因此,这会告诉您如何分析您的输入文档:
-
使用
StanadardTokenizer
,您可以阅读有关 here 的规则。 -
使用
LowerCaseFilter
- 就像您期望的那样工作。 -
使用
StopFilter
- 您可能已提供或未提供任何停用词。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。