如何解决Elasticsearch 7.10 如何赋予文档中较早出现的术语更多权重
假设我们在特定字段上针对术语“cosmopolitan”发出查询(确切类型不相关),并假设结果集包含多个文档,每个文档都包含“k”个实例大都会。”
通过任何适用的机制(提升、加权、排序等),我希望返回的结果集考虑到文档中“世界性”的位置,即如果世界性的平均位置是越低(更接近文档的开头),则其排名/分数越高。
我研究了不同类型的查询和脚本,但似乎无法找到适用于此的内容,这似乎很奇怪,因为对于许多领域而言,术语位置可能非常重要。
解决方法
如果我们谈论的是任意 myfield
的精确子串,我们可以使用 sorting script 从整个字符串长度中减去第一次出现的索引,从而增加较早出现的次数:
{
"query": { ... },"sort": [
{
"_script": {
"script": {
"params": {
"substr_value": "cosmopolitan"
},"source": """
def fieldval = doc['myfield.keyword'].value;
def indexof = fieldval.indexOf(params.substr_value);
return indexof == -1 ? _score : _score + (fieldval.length() - indexof)
"""
},"type": "number","order": "desc"
}
}
]
}
.keyword
映射不是必需的 -- 该字段也可以具有 fielddata: true
设置 -- 无论哪种方式,我们都需要访问 myfield
中的原始值为了让这个脚本工作。
或者,function score query 非常适合此处:
{
"query": {
"function_score": {
"query": {
"match": {
"myfield": "cosmopolitan"
}
},"script_score": {
"script": {
"params": {
"substr_value": "cosmopolitan"
},"source": """
def fieldval = doc['myfield.keyword'].value;
def indexof = fieldval.indexOf(params.substr_value);
return indexof == -1 ? _score : (fieldval.length() - indexof)
"""
}
},"boost_mode": "sum"
}
}
}
您可以调整其参数,例如 boost_mode
、weight
等以满足您的需要。
此外,您可能希望对所有出现的子字符串进行加权平均,并且您可以在这些脚本中执行此操作。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。