ES查询常用语法

目录

1. ElasticSearch之查询返回结果各字段含义

2. match 查询

3. term查询

4. terms 查询

5. range 范围

6. 布尔查询

6.1 filter加快查询效率的原因

7. boosting query(提高查询)

8. dis_max(最佳匹配查询)

9. 分页

10. 聚合查询【内含实际的demo】

1. ElasticSearch之查询返回结果各字段含义

执行命令:索引库名称/_search

空搜索的结果为:

{
  "took": 2,# 该命令请求花费了多长时间,单位:毫秒。
  "timed_out": false,# 搜索是否超时
  "_shards": {		# 搜索分片信息
    "total": 3,# 搜索分片总数
    "successful": 3,# 搜索成功的分片数量
    "skipped": 0,# 没有搜索的分片,跳过的分片
    "failed": 0		# 搜索失败的分片数量
  },"hits": {		# 搜索结果集。需要的一切数据都是从hits中获取
    "total": 21798,# 返回多少条数据
    "max_score": 1,#返回结果中,最大的匹配度分值
    "hits": [		# 默认查询前十条数据,根据分值降序排序,这里为了节省地方,把默认查询的前十条数据删了9条,只剩下一条数据
      {
        "_index": "",# 索引库名称
        "_type": "",# 类型名称
        "_id": "",# 该条数据的id
        "_score": 1,# 关键字与该条数据的匹配度分值
        "_routing": "",# routing参数是一个可选参数,默认使用文档的_id值,用于计算文档所属分片
        "_source": {		# 索引库中类型,返回结果字段,不指定的话,默认全部显示出来
          "id": 1,"orderNo": "","appId": "","componentAppId": "","settleNo": "","outSettleNo": "","settleAmount": 5,"orderAmount": 7,"settleStatus": 3,"paymentChannel": 1,"version": 2,"settleTime":,"createTime":,"updateTime":,"promotionAccountId": "","invoiceStatus": 1,"promotionTypeValue": 0,"commissionRateFeeCentAmount": 0,"commissionChargeFeeCentAmount": 0,"promotionFeeCentAmount": 2,"developerPromotionFeeCentAmount": 0,"promotionType": ""
        }
      }
    ]
  }
}
  • 按照从上到下的顺序,一共四个返回值,took,timed_out,_shards,hits。
  • took
    • 该命令请求花费了多长时间,单位:毫秒。
  • timed_out
    • 搜索是否超时。
  • shards
    • 搜索分片信息。
    • total
      • 搜索分片总数。
    • successful
      • 搜索成功的分片数量。
    • skipped
      • 没有搜索的分片,跳过的分片。
    • failed
      • 搜索失败的分片数量。
  • hits
    • 搜索结果集,需要的一切数据都是从hits中获取。
    • total
      • 返回多少条数据。
    • max_score
      • 返回结果中,最大的匹配度分值。
    • hits
      • 默认查询前十条数据,根据分值降序排序。
    • _index
      • 索引库名称。
    • _type
      • 类型名称。
    • _id
      • 该条数据的id。
    • _score
      • 关键字与该条数据的匹配度分值。
    • _source
      • 索引库中类型,返回结果字段,不指定的话,默认全部显示出来。

2. match 查询

  • 匹配查询 match 是个 核心 查询。无论需要查询什么字段, match 查询都应该会是首选的查询方式。它是一个高级 全文查询 ,这表示它既能处理全文字段(包括支持分词的字段),又能处理精确字段

  • match 查询主要的应用场景就是进行全文搜索

{
  "query": {
    "match": {
      "appId": "xxxx"
    }
  }
}

match本质上是对term组合,所以上面的语句换成term依然能够执行

{
  "query": {
    "term": {
      "appId": "xxxx"
    }
  }
}

3. term查询

  • term 查询, 可以用它处理数字(numbers)、布尔值(Booleans)、日期(dates)以及文本(text)

  • 用 trem 搜索字符串时 要将字段设置成 not_analyzed 无需分析的。不然es会将字符串进行分词,分词结果建立索引,在用trem进行精确查找时找不到任何文档

  • 对应的 QueryBuilder class 是TermQueryBuilder

  • 具体方法是 QueryBuilders.termQuery()

{
  "query": {
    "term": {
      "appId": "xxxx"
    }
  }
}

4. terms 查询

  • terms 查询允许指定多个值进行匹配。如果这个字段包含了指定值中的任何一个值,就表示该文档满足条件。 比如我们想要查找价格字段值为 $20 或 $30 的文档则可以使用trems;

  • 按照读个分词term匹配,它们是or的关系

  • 对应的 QueryBuilder class 是 TermsQueryBuilder

  • 具体方法是 QueryBuilders.termsQuery()
{
  "query": {
    "terms": {
      "appId": ["xxxx","xxxx"]
    }
  }
}

5. range 范围

  • 常常被用在数字或者日期范围的查询

Search Query

QueryBuilder Class

Method in QueryBuilders

Range

RangeQueryBuilder

QueryBuilders.rangeQuery()

{
  "query": {
    "range": {
      "createTime": {
        "gte": 1661409996661,"lte": 1661409996661
      }
    }
  }
}

6. 布尔查询

  • 通过布尔逻辑将较小的查询组合成较大的查询。
  • 概念
    • Bool查询语法有以下特点
      • 子查询可以任意顺序出现
      • 可以嵌套多个查询,包括bool查询
      • 如果bool查询中没有must条件,should中必须至少满足一条才会返回结果。
    • bool查询包含四种操作符,分别是must,should,must_not,filter。他们均是一种数组,数组里面是对应的判断条件。
      • must: 必须匹配。贡献算分
      • must_not:过滤子句,必须不能匹配,但不贡献算分
      • should: 选择性匹配,至少满足一条。贡献算分
      • filter: 过滤子句,必须匹配,但不贡献算分,所以比must会更快!
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },{
          "term": {
            "paymentChannel": 1
          }
        },{
          "term": {
            "settleStatus": 3
          }
        },{
          "term": {
            "promotionAccountId": ""
          }
        },{
          "range": {
            "createTime": {
              "from": 1658741630780,"to": 1661420030780,"include_lower": true,"include_upper": true
            }
          }
        }
      ]
    }
  }
}

6.1 filter加快查询效率的原因

  • query context

    • query context关注的是,文档到底有多匹配查询的条件,这个匹配的程度是由相关性分数决定的,分数越高自然就越匹配。所以这种查询除了关注文档是否满足查询条件,还需要额外的计算相关性分数.

  • filter context

    • filter context关注的是,文档是否匹配查询条件,结果只有两个,是和否。没有其它额外的计算。它常用的一个场景就是过滤时间范围。

    • 并且filter context会自动被ES缓存结果,效率进一步提高。

    • 对于bool查询,must使用的就是query context,而filter使用的就是filter context。

    • 我们可以通过一个示例验证下。继续使用第一节的例子,我们通过kibana自带的search profiler来看看ES的查询的详细过程。

  • 那么 filter 的 cache 是怎么做的呢?

    • ES 会构建一个文档匹配过滤器的位集 bitset(用来标识一个文档对一个 filter 条件是否匹配,如果匹配就是 1,不匹配就是 0),下次再有这个 filter 条件过来的时候就不用重新扫描倒排索引,反复生成 bitset,可以大幅度提升性能,另外当添加或更新文档时,这个 filter 的位集 bitset 也会更新。

{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },{
          "term": {
            "promotionAccountId": ""
          }
        }
      ],"filter": {
        "range": {
          "createTime": {
            "from": 1658741630780,"include_upper": true
          }
        }
      }
    }
  }
}

7. boosting query(提高查询)

  • 用来控制(提高或降低)复合查询中子查询的权重。

  • 不同于bool查询,bool查询中只要一个子查询条件不匹配那么搜索的数据就不会出现。而boosting query则是降低显示的权重/优先级(即score)。

  • 比如搜索逻辑是 name = 'apple' and type ='fruit',对于只满足部分条件的数据,不是不显示,而是降低显示的优先级(即score)

  • ~positive(积极的,加分):

    • 只有匹配上positive的查询的内容,才会被放到返回的结果集中。

  • ~negative(消极的,减分):

    • 如果匹配上positive并且也匹配上了negative,就可以降低这样的文档score。

  • ~negative_boost:

    • 指定系数,必须小于1.0 ,那么匹配到的内容会将分数乘以当前系数;(这是个系数,因为你要控制分数,那要怎么控制呢?就是乘以系数来控制分数大小)

{
  "query": {
    "boosting": {
      "positive": {
        "term": {
          "appId": "xxxx"
        }
      },"negative": {
        "term": {
          "orderNo": "xxxx"
        }
      },"negative_boost": 0.5
    }
  }
}

8. dis_max(最佳匹配查询)

  • dis_max query

    • 叫做分离最大化查询,它会将任何与查询匹配的文档都作为结果返回,但是只是将其中最佳匹配的评分作为最终的评分返回。

  • dis_max 条件的计算分数

    • 分数 = 第一个匹配条件分数 + tie_breaker * 第二个匹配的条件的分数 ...

  "query": {
    "dis_max": {
      "queries": [
        {
          "term": {
            "appId": "xxxx"
          }
        },"include_upper": true
            }
          }
        }
      ],"tie_breaker": 0
    }
  }

9. 分页

  • 通过 from 和 size 就可以执行分页查询。from 指明了分页查询返回的结果的起始位置,而size参数则指明了分页查询的页容量。

{
  "from": 0,"size": 1,"query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },"include_upper": true
            }
          }
        }
      ]
    }
  }
}

10. 聚合查询【内含实际的demo】

根据appId查询昨日结算成功的指定支付渠道的结算总金额

{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "appId": "xxxx"
          }
        },"include_upper": true
            }
          }
        }
      ]
    }
  },"aggs": {
    "total_amount": {
      "sum": {
        "field": "settleAmount"
      }
    }
  },"size": 0
}

原文地址:https://blog.csdn.net/jiayoudangdang/article/details/128520075

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。