在 lucene 中使用空格获取结果

如何解决在 lucene 中使用空格获取结果

我正在尝试使用 Lucene RegexpQuery 获得带有空格的结果。尝试尽可能搜索正则表达式文本，如;

[a-z]{4}\s[a-z]{5}
[a-z]{4}( )[a-z]{5}
[a-z]{4}(\s)[a-z]{5}

我使用（现在）基本方法和标准方法，例如；

...
IndexWriter writer = createWriter(storePath);
Document docu1 = indexDoc(writer,catchText,Files.getLastModifiedTime(docDir).toMillis(),value.getUniqueId());
documents.add(docu1);
...
writer.addDocuments(documents);
writer.commit();
...
IndexReader reader = DirectoryReader.open(writer);
IndexSearcher searcher = new IndexSearcher(reader);
...
Query q1 = new RegexpQuery(new Term("contents",var.getRuleText()),RegExp.ALL);
...
Document docX = reader.document(idX);
String textX = docX.get("contents");
TokenStream tokenStream = TokenSources.getTokenStream("contents",reader.getTermVectors(idX),textX,new StandardAnalyzer(),-1);
OffsetAttribute offsetAtt = (OffsetAttribute)tokenStream.addAttribute(OffsetAttribute.class);

如何使用 RegexpQuery 搜索包含空格的正则表达式？如果 RegexpQuery 无法使用，还有其他建议的方法吗？

搜索文本示例：

Lorem ipsum test dolor sit amet.

必须结果：

test dolor

解决方法

您可以使用带有标准分析器的短语查询来选择包含单词“test”且后跟单词“dolor”的文档。

standard analyzer 将标记空格，并将术语转换为小写：

Analyzer analyzer = new StandardAnalyzer();

然后您可以按如下方式构建短语查询：

import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.index.Term;

还有：

PhraseQuery.Builder builder = new PhraseQuery.Builder();
builder.add(new Term("phrase","test"),1);
builder.add(new Term("phrase","dolor"),2);
PhraseQuery phraseQuery = builder.build();

提供了更多详细信息here。特别要注意：短语中的所有术语必须匹配...

更新

考虑到我们在空格上标记了我们的数据 - 从而丢失了空格，为什么这会起作用？这是因为 Lucene 构建的索引会跟踪源文档中每个术语的位置。因此，Lucene 知道哪个词紧跟在哪个词之后。它可以使用这些数据来检查文档中是否存在多词短语。

更新。索引要求

索引数据时没有特殊要求，如果您想使用短语查询。您可以使用标准的 TextField，无需存储索引内容：

doc.add(new TextField("content","Lorem ipsum test dolor sit amet.",Field.Store.NO));

这会构建一个如下所示的字段索引：

field content
  term amet
    doc 0
      freq 1
      pos 5
  term dolor
    doc 0
      freq 1
      pos 3
  term ipsum
    doc 0
      freq 1
      pos 1
  term lorem
    doc 0
      freq 1
      pos 0
  term sit
    doc 0
      freq 1
      pos 4
  term test
    doc 0
      freq 1
      pos 2

术语与其频率和位置一起存储。

之所以会这样，是因为当您使用 TextField（这是 Lucene 的预构建字段类型之一）时，它会将 IndexOptions.DOCS_AND_FREQS_AND_POSITIONS 作为其定义的一部分。

您确实需要小心 - Lucene 中还有许多其他预定义的字段类型，我希望并非所有这些类型都能自动捕获位置数据。您可以构建自定义字段，以准确捕获您的情况可能需要的内容。

正则表达式更新

鉴于您必须为此使用正则表达式，那么一种方法是使用带状疱疹过滤器。这可以在自定义分析器中进行如下设置：

Analyzer shingleAnalyzer = new Analyzer() {
    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        Tokenizer source = new StandardTokenizer();
        TokenStream tokenStream = source;
        tokenStream = new LowerCaseFilter(tokenStream);
        tokenStream = new ASCIIFoldingFilter(tokenStream);
        tokenStream = new ShingleFilter(tokenStream,2,2);
        return new TokenStreamComponents(source,tokenStream);
    }
};

这里使用 ShingleFilter。

使用此分析器进行索引。

它将创建由“带状疱疹”组成的标记 - 即多个连续的单词。在这种情况下，每个木瓦的长度为 2 个字。

因此，对于以下输入文档：

Lorem ipsum test dolor sit amet

以下术语将被编入索引：

lorem ipsum
ipsum test
test dolor
and so on...

除了上述术语外，这还将保留索引中的单字术语 - 因此索引数据也可用于其他查询。

或者，如果您总是希望每个带状疱疹正好有两个单词，则可以使用 FixedShingleFilter。在这种情况下，索引中将不包含单个词项。这使索引小于 ShingleFilter，但在运行其他类型的查询时可能灵活性较低。

现在您可以使用标准分析器进行查询，以及您一直尝试使用的正则表达式查询。

Lucene regexp 中没有特殊的空格语法，因此以下表达式将匹配标准空格：

[a-z]{4} [a-z]{5}

要从文档中提取特定的匹配词，您需要使用 Java 正则表达式处理对文档进行后处理，或者直接处理令牌流。

这取决于您与 IndexWriter 一起使用的分析器以及您搜索的字段是否是标记化的字段。因此，例如，如果该字段是标记化的文本字段，并且与 IndexWriter 一起使用的分析器删除空格作为创建标记流的工作的一部分，那么不，您不能使用 any 查询以匹配空格，因为在写入索引时分析器删除了所有空格。

另一方面，如果您要搜索的字段是未分析的字符串字段，则使用 RegexpQuery 查询该字段的空白应该可以工作。

在 lucene 中使用空格获取结果

如何解决在 lucene 中使用空格获取结果

解决方法

相关推荐