如何解决Solr如何支持REGEX条目进行多面搜索?
我已将txt文件编入Open Semantic Search中,并且使用正则表达式来创建许多方面。我正在尝试创建一个方面,以识别何时仅在一行上单独使用一个特定术语。
例如:
“特殊处方
这句话是关于以下特定的说明 特定核中心的协议。这句话是关于 有关特定核中心协议的特定限制。 这句话是关于协议的特殊条件 专门的核中心。”
需要明确的是,我的数据已从word文件转换为txt,因此它们的原始格式已全部消失。 当“特殊处方”一词单独出现在一行上时,表示该词及其下方的所有内容都是一个小节。我想用正则表达式创建一个构面,它可以简单地告诉我哪些文档仅在一行上包含“特殊处方”,而不是如您在示例文本中看到的那样包含在句子中。
用于构面的正则表达式存储在tsv文件中。 简单的regex想法(例如^^^^^^^^)不起作用,因此我进入Solr中索引文件的原始数据... 在这些原始数据中,我索引的文本是这样的:
\ r \ n处方说明\ r \ n这句话是关于特殊的 有关特定核中心协议的规定。\ r \ n此 句子是关于协议的特定说明 特定的核中心,\ r \ n-这句话是关于特定的 有关特定核中心协议的规定。 , \ r \ n-这句话是关于 特定核中心的协议。 \ r \ n这句话是关于 有关特定核武器协议的特定规定 \ r \ n这句话是关于特定的说明 关于特定核中心协议的信息\ r \ n \ r \ n 关于特定协议的特定说明 核中心。 \ r \ n \ r \ n这句话是关于特定的 有关特定核中心协议的规定。\ r \ n此 句子是关于协议的特定说明 特定的核中心。
我在tsv中输入的正确REGEX是:(\ r \ n)+特殊处方
*有时该词用\ r \ n \ r \ n
包围请清楚一点,我尝试了双反斜杠,等等。我尝试使用的正则表达式是[\ r \ n] + Prescriptionparticulière。 我总是在RegExr这样的网站上测试REGEX。
无论如何,它不起作用,并且我的构面也没有出现。我正确地编辑了ETL文件,所有其他REGEX方面均正常工作,因此OSS确实无法读取我的正则表达式,也没有将其链接到在Solr中找到的原始数据。
Solr索引的数据与OSS的可视化方式之间是否存在某种不一致?我注意到的另一件事是OSS完全忽略了区分大小写。我只是简单地测试了“ Prescription”,以便它可以向我显示所有具有“ Prescription”(区分大小写,仅首字母大写)并且也具有“ prescription”的文档!有什么想法可以添加标志或其他东西吗???帮助:)
任何帮助将不胜感激!预先谢谢你。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。