如何解决在 lucene 中使用空格获取结果
我正在尝试使用 Lucene RegexpQuery
获得带有空格的结果。
尝试尽可能搜索正则表达式文本,如;
[a-z]{4}\s[a-z]{5}
[a-z]{4}( )[a-z]{5}
[a-z]{4}(\s)[a-z]{5}
我使用(现在)基本方法和标准方法,例如;
...
IndexWriter writer = createWriter(storePath);
Document docu1 = indexDoc(writer,catchText,Files.getLastModifiedTime(docDir).toMillis(),value.getUniqueId());
documents.add(docu1);
...
writer.addDocuments(documents);
writer.commit();
...
IndexReader reader = DirectoryReader.open(writer);
IndexSearcher searcher = new IndexSearcher(reader);
...
Query q1 = new RegexpQuery(new Term("contents",var.getRuleText()),RegExp.ALL);
...
Document docX = reader.document(idX);
String textX = docX.get("contents");
TokenStream tokenStream = TokenSources.getTokenStream("contents",reader.getTermVectors(idX),textX,new StandardAnalyzer(),-1);
OffsetAttribute offsetAtt = (OffsetAttribute)tokenStream.addAttribute(OffsetAttribute.class);
如何使用 RegexpQuery
搜索包含空格的正则表达式?如果 RegexpQuery
无法使用,还有其他建议的方法吗?
搜索文本示例:
Lorem ipsum test dolor sit amet.
必须结果:
test dolor
解决方法
您可以使用带有标准分析器的短语查询来选择包含单词“test”且后跟单词“dolor”的文档。
standard analyzer 将标记空格,并将术语转换为小写:
Analyzer analyzer = new StandardAnalyzer();
然后您可以按如下方式构建短语查询:
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.index.Term;
还有:
PhraseQuery.Builder builder = new PhraseQuery.Builder();
builder.add(new Term("phrase","test"),1);
builder.add(new Term("phrase","dolor"),2);
PhraseQuery phraseQuery = builder.build();
提供了更多详细信息here。特别要注意:短语中的所有术语必须匹配...
更新
考虑到我们在空格上标记了我们的数据 - 从而丢失了空格,为什么这会起作用?这是因为 Lucene 构建的索引会跟踪源文档中每个术语的位置。因此,Lucene 知道哪个词紧跟在哪个词之后。它可以使用这些数据来检查文档中是否存在多词短语。
更新。索引要求
索引数据时没有特殊要求,如果您想使用短语查询。您可以使用标准的 TextField
,无需存储索引内容:
doc.add(new TextField("content","Lorem ipsum test dolor sit amet.",Field.Store.NO));
这会构建一个如下所示的字段索引:
field content
term amet
doc 0
freq 1
pos 5
term dolor
doc 0
freq 1
pos 3
term ipsum
doc 0
freq 1
pos 1
term lorem
doc 0
freq 1
pos 0
term sit
doc 0
freq 1
pos 4
term test
doc 0
freq 1
pos 2
术语与其频率和位置一起存储。
之所以会这样,是因为当您使用 TextField
(这是 Lucene 的预构建字段类型之一)时,它会将 IndexOptions.DOCS_AND_FREQS_AND_POSITIONS
作为其定义的一部分。
您确实需要小心 - Lucene 中还有许多其他预定义的字段类型,我希望并非所有这些类型都能自动捕获位置数据。您可以构建自定义字段,以准确捕获您的情况可能需要的内容。
正则表达式更新
鉴于您必须为此使用正则表达式,那么一种方法是使用带状疱疹过滤器。这可以在自定义分析器中进行如下设置:
Analyzer shingleAnalyzer = new Analyzer() {
@Override
protected TokenStreamComponents createComponents(String fieldName) {
Tokenizer source = new StandardTokenizer();
TokenStream tokenStream = source;
tokenStream = new LowerCaseFilter(tokenStream);
tokenStream = new ASCIIFoldingFilter(tokenStream);
tokenStream = new ShingleFilter(tokenStream,2,2);
return new TokenStreamComponents(source,tokenStream);
}
};
这里使用 ShingleFilter
。
使用此分析器进行索引。
它将创建由“带状疱疹”组成的标记 - 即多个连续的单词。在这种情况下,每个木瓦的长度为 2 个字。
因此,对于以下输入文档:
Lorem ipsum test dolor sit amet
以下术语将被编入索引:
lorem ipsum
ipsum test
test dolor
and so on...
除了上述术语外,这还将保留索引中的单字术语 - 因此索引数据也可用于其他查询。
或者,如果您总是希望每个带状疱疹正好有两个单词,则可以使用 FixedShingleFilter
。在这种情况下,索引中将不包含单个词项。这使索引小于 ShingleFilter
,但在运行其他类型的查询时可能灵活性较低。
现在您可以使用标准分析器进行查询,以及您一直尝试使用的正则表达式查询。
Lucene regexp 中没有特殊的空格语法,因此以下表达式将匹配标准空格:
[a-z]{4} [a-z]{5}
要从文档中提取特定的匹配词,您需要使用 Java 正则表达式处理对文档进行后处理,或者直接处理令牌流。
,这取决于您与 IndexWriter
一起使用的分析器以及您搜索的字段是否是标记化的字段。因此,例如,如果该字段是标记化的文本字段,并且与 IndexWriter
一起使用的分析器删除空格作为创建标记流的工作的一部分,那么不,您不能使用 any 查询以匹配空格,因为在写入索引时分析器删除了所有空格。
另一方面,如果您要搜索的字段是未分析的字符串字段,则使用 RegexpQuery
查询该字段的空白应该可以工作。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。