如何解决在 Azure 搜索中索引电子邮件
我正在努力为电子邮件、主题和电子邮件地址的内容编制最佳索引。电子邮件可以包含文本和 HTML 表示。它们可以使用任何语言,因此很遗憾我无法使用特定于语言的分析器。
因为我是新手,所以我有很多问题:
- 首先我使用了标准 Lucene 分析器,但经过一些测试和
检查我使用“简单”切换到的每个分析器的功能
分析仪。标准版不允许我按域搜索
user@domain.com(它将
user
和domain.com
视为令牌)。在我的情况下,“简单”是我能用的最好的吗? - 如何处理电子邮件的 HTML 内容?我以为这应该是 可以在 Azure 搜索中完成,但现在我认为我需要 自己剥离 HTML 标签。
- 我的用户不精通技术,我认为“简单”查询类型是
对他们来说足够了。我希望他们输入一两个字并找到消息
包含这个词/包含以这个词开头的词。从我的测试来看,我需要将
*
附加到他们的查询中才能“开始”工作?
解决方法
如果您包含数据示例、索引和查询方式,我会提供帮助。发生了什么,你期待什么?
标准 lucene 分析器将与您的 user@domain.com 示例一起使用。它产生令牌user 和domain.com 是正确的。但是,当您查询时也会发生同样的情况,您将获得带有 user 和 domain.com 标记的记录。
创建索引
"fields": [
{"name": "Id","type": "Edm.String","searchable": false,"filterable": true,"retrievable": true,"sortable": true,"facetable": false,"key": true,"indexAnalyzer": null,"searchAnalyzer": null,"analyzer": null,"synonymMaps": [] },{"name": "Email","searchable": true,"analyzer": "standard"}
]
上传
{
"value": [
{
"@search.action": "mergeOrUpload","Id": "1","Email": "user@domain.com"
},{
"@search.action": "mergeOrUpload","Id": "2","Email": "some.user@some-domain.com"
},"Id": "3","Email": "another@another.com"
}
]
}
查询
查询,使用 full 和 all。
按预期产生结果(包含user 和domain.com 的所有记录):
{
"@odata.context": "https://<your-search-env>.search.windows.net/indexes('dg-test-65392234')/$metadata#docs(*)","@odata.count": 2,"value": [
{
"@search.score": 0.51623213,"Email": "user@domain.com"
},{
"@search.score": 0.25316024,"Email": "some.user@some-domain.com"
}
]
}
如果您的预期结果是只获得电子邮件完全匹配的上述记录,您可以改用词组搜索。 IE。用 search="user@domain.com" 替换上面的搜索参数,你会得到:
{
"@search.score": 0.51623213,"Email": "user@domain.com"
}
或者,您可以使用关键字分析器。
分析
您可以直接通过 REST 比较不同的分析器。在 Email 属性上使用关键字分析器将生成一个标记。
{
"text": "some-user@some-domain.com","analyzer": "keyword"
}
产生以下标记:
"tokens": [
{
"token": "some-user@some-domain.com","startOffset": 0,"endOffset": 25,"position": 0
}
]
与标准分词器相比,它在大多数类型的非结构化内容方面做得不错。
{
"text": "some-user@some-domain.com","analyzer": "standard"
}
对于电子邮件地址是某些通用文本的一部分的情况,这会产生合理的结果。
"tokens": [
{
"token": "some","endOffset": 4,"position": 0
},{
"token": "user","startOffset": 5,"endOffset": 9,"position": 1
},{
"token": "some","startOffset": 10,"endOffset": 14,"position": 2
},{
"token": "domain.com","startOffset": 15,"position": 3
}
]
总结
这已经是一个很长的答案,所以我不会详细介绍您的另外两个问题。我建议将它们拆分为单独的问题,以便其他人受益。
-
HTML 内容:简而言之,您可以使用内置的 HTML 分析器去除 HTML 标签。或者您可以使用自定义代码自己剥离 HTML。我通常将 Beautiful Soup 用于此类用例,或者将简单的正则表达式用于更简单的情况。
-
通配符搜索:通常用户不希望自动附加通配符。执行此操作的唯一应用程序是 Outlook 客户端,它会破坏精度。当我搜索“Jan”(一个通用名称)时,我很烦人地收到所有在一月份发送的电子邮件(!)。搜索 Dan(又是一个名字),我也收到了来自 Danmark(丹麦)的所有电子邮件。
搜索中的一切都是精确度和召回率之间的权衡。在您使用电子邮件地址的第一个示例中,您的期望非常注重精度。但是,在您的最后一个通配符问题中,您似乎更喜欢对所有内容使用通配符进行极端回忆。这一切都取决于您的期望。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。