如何解决在thread_pool中始终始终搜索特定节点
我有一个6个节点的Elasticsearch集群。堆大小设置为50GB。(我知道建议使用小于32的大小,但是由于某些原因,我已经将其设置为50Gb,我不知道)。现在,我看到了来自搜索thread_pool的很多拒绝。
这是我当前的搜索线程池:
node_name name active rejected completed
1105-IDC.node search 0 19295154 1741362188
1108-IDC.node search 0 3362344 1660241184
1103-IDC.node search 49 28763055 1695435484
1102-IDC.node search 0 7715608 1734602881
1106-IDC.node search 0 14484381 1840694326
1107-IDC.node search 49 22470219 1641504395
我注意到的是两个节点始终具有最大活动线程数(1103-IDC.node&1107-IDC.node)。即使其他节点也有拒绝,这些节点的拒绝率最高。硬件类似于其他节点。这可能是什么原因?难道是因为他们的击打更多而有任何特定的碎片吗?如果是的话,如何找到它们。
此外,在活动线程始终最大的节点上,年轻堆占用的时间超过70ms(有时约为200ms)。在GC日志中找到以下几行:
[2020-10-27T04:32:14.380+0000][53678][gc ] GC(6768757) Pause Young (Allocation Failure) 27884M->26366M(51008M) 196.226ms
[2020-10-27T04:32:26.206+0000][53678][gc,start ] GC(6768758) Pause Young (Allocation Failure)
[2020-10-27T04:32:26.313+0000][53678][gc ] GC(6768758) Pause Young (Allocation Failure) 27897M->26444M(51008M) 107.850ms
[2020-10-27T04:32:35.466+0000][53678][gc,start ] GC(6768759) Pause Young (Allocation Failure)
[2020-10-27T04:32:35.574+0000][53678][gc ] GC(6768759) Pause Young (Allocation Failure) 27975M->26444M(51008M) 108.923ms
[2020-10-27T04:32:40.993+0000][53678][gc,start ] GC(6768760) Pause Young (Allocation Failure)
[2020-10-27T04:32:41.077+0000][53678][gc ] GC(6768760) Pause Young (Allocation Failure) 27975M->26427M(51008M) 84.411ms
[2020-10-27T04:32:45.132+0000][53678][gc,start ] GC(6768761) Pause Young (Allocation Failure)
[2020-10-27T04:32:45.200+0000][53678][gc ] GC(6768761) Pause Young (Allocation Failure) 27958M->26471M(51008M) 68.105ms
[2020-10-27T04:32:46.984+0000][53678][gc,start ] GC(6768762) Pause Young (Allocation Failure)
[2020-10-27T04:32:47.046+0000][53678][gc ] GC(6768762) Pause Young (Allocation Failure) 28001M->26497M(51008M) 62.678ms
[2020-10-27T04:32:56.641+0000][53678][gc,start ] GC(6768763) Pause Young (Allocation Failure)
[2020-10-27T04:32:56.719+0000][53678][gc ] GC(6768763) Pause Young (Allocation Failure) 28027M->26484M(51008M) 77.596ms
[2020-10-27T04:33:29.488+0000][53678][gc,start ] GC(6768764) Pause Young (Allocation Failure)
[2020-10-27T04:33:29.740+0000][53678][gc ] GC(6768764) Pause Young (Allocation Failure) 28015M->26516M(51008M) 251.447ms
解决方法
要注意的一件事是,如果您从elasticsearch threadpool cat API获得了这些统计信息,那么它只会显示时间点数据,而不会显示最近1小时,6小时的历史数据,这样的1天1周。
拒绝和完成是节点上次重新启动以来的统计信息,因此,当我们试图确定某些ES节点是否由于碎片配置不正确/不平衡而成为热点时,这也不是很有用。
所以这里我们要弄清两个非常重要的事情
- 通过按时间范围查看数据节点上的平均活动,被拒绝的请求,可以确定集群中的实际热点节点(您可以仅检查高峰时段),如果您有一些工具,这将非常容易像this
- 已知热点节点后,查看分配给它们的分片,然后将其与其他节点分片进行比较,要检查的指标很少,分片数,分片接收更多流量,分片接收最慢的查询等,,大多数情况下,您必须查看ES的各种指标和API,这很耗时,并且需要大量的内部ES知识。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。