在 lucene 中使用空格获取结果

如何解决在 lucene 中使用空格获取结果

我正在尝试使用 Lucene RegexpQuery 获得带有空格的结果。 尝试尽可能搜索正则表达式文本,如;

[a-z]{4}\s[a-z]{5}
[a-z]{4}( )[a-z]{5}
[a-z]{4}(\s)[a-z]{5}

我使用(现在)基本方法和标准方法,例如;

...
IndexWriter writer = createWriter(storePath);
Document docu1 = indexDoc(writer,catchText,Files.getLastModifiedTime(docDir).toMillis(),value.getUniqueId());
documents.add(docu1);
...
writer.addDocuments(documents);
writer.commit();
...
IndexReader reader = DirectoryReader.open(writer);
IndexSearcher searcher = new IndexSearcher(reader);
...
Query q1 = new RegexpQuery(new Term("contents",var.getRuleText()),RegExp.ALL);
...
Document docX = reader.document(idX);
String textX = docX.get("contents");
TokenStream tokenStream = TokenSources.getTokenStream("contents",reader.getTermVectors(idX),textX,new StandardAnalyzer(),-1);
OffsetAttribute offsetAtt = (OffsetAttribute)tokenStream.addAttribute(OffsetAttribute.class);

如何使用 RegexpQuery 搜索包含空格的正则表达式?如果 RegexpQuery 无法使用,还有其他建议的方法吗?

搜索文本示例:

Lorem ipsum test dolor sit amet.

必须结果:

test dolor

解决方法

您可以使用带有标准分析器的短语查询来选择包含单词“test”且后跟单词“dolor”的文档。

standard analyzer 将标记空格,并将术语转换为小写:

Analyzer analyzer = new StandardAnalyzer();

然后您可以按如下方式构建短语查询:

import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.index.Term;

还有:

PhraseQuery.Builder builder = new PhraseQuery.Builder();
builder.add(new Term("phrase","test"),1);
builder.add(new Term("phrase","dolor"),2);
PhraseQuery phraseQuery = builder.build();

提供了更多详细信息here。特别要注意:短语中的所有术语必须匹配...

更新

考虑到我们在空格上标记了我们的数据 - 从而丢失了空格,为什么这会起作用?这是因为 Lucene 构建的索引会跟踪源文档中每个术语的位置。因此,Lucene 知道哪个词紧跟在哪个词之后。它可以使用这些数据来检查文档中是否存在多词短语。

更新。索引要求

索引数据时没有特殊要求,如果您想使用短语查询。您可以使用标准的 TextField,无需存储索引内容:

doc.add(new TextField("content","Lorem ipsum test dolor sit amet.",Field.Store.NO));

这会构建一个如下所示的字段索引:

field content
  term amet
    doc 0
      freq 1
      pos 5
  term dolor
    doc 0
      freq 1
      pos 3
  term ipsum
    doc 0
      freq 1
      pos 1
  term lorem
    doc 0
      freq 1
      pos 0
  term sit
    doc 0
      freq 1
      pos 4
  term test
    doc 0
      freq 1
      pos 2

术语与其频率和位置一起存储。

之所以会这样,是因为当您使用 TextField(这是 Lucene 的预构建字段类型之一)时,它会将 IndexOptions.DOCS_AND_FREQS_AND_POSITIONS 作为其定义的一部分。

您确实需要小心 - Lucene 中还有许多其他预定义的字段类型,我希望并非所有这些类型都能自动捕获位置数据。您可以构建自定义字段,以准确捕获您的情况可能需要的内容。

正则表达式更新

鉴于您必须为此使用正则表达式,那么一种方法是使用带状疱疹过滤器。这可以在自定义分析器中进行如下设置:

Analyzer shingleAnalyzer = new Analyzer() {
    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        Tokenizer source = new StandardTokenizer();
        TokenStream tokenStream = source;
        tokenStream = new LowerCaseFilter(tokenStream);
        tokenStream = new ASCIIFoldingFilter(tokenStream);
        tokenStream = new ShingleFilter(tokenStream,2,2);
        return new TokenStreamComponents(source,tokenStream);
    }
};

这里使用 ShingleFilter

使用此分析器进行索引。

它将创建由“带状疱疹”组成的标记 - 即多个连续的单词。在这种情况下,每个木瓦的长度为 2 个字。

因此,对于以下输入文档:

Lorem ipsum test dolor sit amet

以下术语将被编入索引:

lorem ipsum
ipsum test
test dolor
and so on...

除了上述术语外,这还将保留索引中的单字术语 - 因此索引数据也可用于其他查询。

或者,如果您总是希望每个带状疱疹正好有两个单词,则可以使用 FixedShingleFilter。在这种情况下,索引中将包含单个词项。这使索引小于 ShingleFilter,但在运行其他类型的查询时可能灵活性较低。

现在您可以使用标准分析器进行查询,以及您一直尝试使用的正则表达式查询。

Lucene regexp 中没有特殊的空格语法,因此以下表达式将匹配标准空格:

[a-z]{4} [a-z]{5}

要从文档中提取特定的匹配词,您需要使用 Java 正则表达式处理对文档进行后处理,或者直接处理令牌流。

,

这取决于您与 IndexWriter 一起使用的分析器以及您搜索的字段是否是标记化的字段。因此,例如,如果该字段是标记化的文本字段,并且与 IndexWriter 一起使用的分析器删除空格作为创建标记流的工作的一部分,那么不,您不能使用 any 查询以匹配空格,因为在写入索引时分析器删除了所有空格。

另一方面,如果您要搜索的字段是未分析的字符串字段,则使用 RegexpQuery 查询该字段的空白应该可以工作。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 <select id="xxx"> SELECT di.id, di.name, di.work_type, di.updated... <where> <if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 <property name="dynamic.classpath" value="tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-