在 Azure 搜索中索引电子邮件

如何解决在 Azure 搜索中索引电子邮件

我正在努力为电子邮件、主题和电子邮件地址的内容编制最佳索引。电子邮件可以包含文本和 HTML 表示。它们可以使用任何语言,因此很遗憾我无法使用特定于语言的分析器。

因为我是新手,所以我有很多问题:

  • 首先我使用了标准 Lucene 分析器,但经过一些测试和 检查我使用“简单”切换到的每个分析器的功能 分析仪。标准版不允许我按域搜索 user@domain.com(它将 userdomain.com 视为令牌)。在我的情况下,“简单”是我能用的最好的吗?
  • 如何处理电子邮件的 HTML 内容?我以为这应该是 可以在 Azure 搜索中完成,但现在我认为我需要 自己剥离 HTML 标签。
  • 我的用户不精通技术,我认为“简单”查询类型是 对他们来说足够了。我希望他们输入一两个字并找到消息 包含这个词/包含以这个词开头的词。从我的测试来看,我需要将 * 附加到他们的查询中才能“开始”工作?

解决方法

如果您包含数据示例、索引和查询方式,我会提供帮助。发生了什么,你期待什么?

标准 lucene 分析器将与您的 user@domain.com 示例一起使用。它产生令牌userdomain.com 是正确的。但是,当您查询时也会发生同样的情况,您将获得带有 userdomain.com 标记的记录。

创建索引

    "fields": [

    {"name": "Id","type": "Edm.String","searchable": false,"filterable": true,"retrievable": true,"sortable": true,"facetable": false,"key": true,"indexAnalyzer": null,"searchAnalyzer": null,"analyzer": null,"synonymMaps": [] },{"name": "Email","searchable": true,"analyzer": "standard"}
]

上传

{
    "value": [
        {
            "@search.action": "mergeOrUpload","Id": "1","Email": "user@domain.com"
        },{
            "@search.action": "mergeOrUpload","Id": "2","Email": "some.user@some-domain.com"
        },"Id": "3","Email": "another@another.com"
        }        
    ]
}

查询

查询,使用 full 和 all。

https://{{SEARCH_SVC}}.{{DNS_SUFFIX}}/indexes/{{INDEX_NAME}}/docs?search=user@domain.com&$count=true&$select=Id,Email&searchMode=all&queryType=full&api-version={{API-VERSION}}

按预期产生结果(包含userdomain.com 的所有记录):

{
"@odata.context": "https://<your-search-env>.search.windows.net/indexes('dg-test-65392234')/$metadata#docs(*)","@odata.count": 2,"value": [
    {
        "@search.score": 0.51623213,"Email": "user@domain.com"
    },{
        "@search.score": 0.25316024,"Email": "some.user@some-domain.com"
    }
]

}

如果您的预期结果是只获得电子邮件完全匹配的上述记录,您可以改用词组搜索。 IE。用 search="user@domain.com" 替换上面的搜索参数,你会得到:

     {
        "@search.score": 0.51623213,"Email": "user@domain.com"
     }

或者,您可以使用关键字分析器。

分析

您可以直接通过 REST 比较不同的分析器。在 Email 属性上使用关键字分析器将生成一个标记。

    {
  "text": "some-user@some-domain.com","analyzer": "keyword"
}

产生以下标记:

    "tokens": [
    {
        "token": "some-user@some-domain.com","startOffset": 0,"endOffset": 25,"position": 0
    }
]

与标准分词器相比,它在大多数类型的非结构化内容方面做得不错。

    {
  "text": "some-user@some-domain.com","analyzer": "standard"
}

对于电子邮件地址是某些通用文本的一部分的情况,这会产生合理的结果。

    "tokens": [
    {
        "token": "some","endOffset": 4,"position": 0
    },{
        "token": "user","startOffset": 5,"endOffset": 9,"position": 1
    },{
        "token": "some","startOffset": 10,"endOffset": 14,"position": 2
    },{
        "token": "domain.com","startOffset": 15,"position": 3
    }
]

总结

这已经是一个很长的答案,所以我不会详细介绍您的另外两个问题。我建议将它们拆分为单独的问题,以便其他人受益。

  • HTML 内容:简而言之,您可以使用内置的 HTML 分析器去除 HTML 标签。或者您可以使用自定义代码自己剥离 HTML。我通常将 Beautiful Soup 用于此类用例,或者将简单的正则表达式用于更简单的情况。

  • 通配符搜索:通常用户不希望自动附加通配符。执行此操作的唯一应用程序是 Outlook 客户端,它会破坏精度。当我搜索“Jan”(一个通用名称)时,我很烦人地收到所有在一月份发送的电子邮件(!)。搜索 Dan(又是一个名字),我也收到了来自 Danmark(丹麦)的所有电子邮件。

搜索中的一切都是精确度和召回率之间的权衡。在您使用电子邮件地址的第一个示例中,您的期望非常注重精度。但是,在您的最后一个通配符问题中,您似乎更喜欢对所有内容使用通配符进行极端回忆。这一切都取决于您的期望。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-