在thread_pool中始终始终搜索特定节点

如何解决在thread_pool中始终始终搜索特定节点

我有一个6个节点的Elasticsearch集群。堆大小设置为50GB。（我知道建议使用小于32的大小，但是由于某些原因，我已经将其设置为50Gb，我不知道）。现在，我看到了来自搜索thread_pool的很多拒绝。

这是我当前的搜索线程池：

node_name               name   active rejected  completed
1105-IDC.node          search      0 19295154 1741362188
1108-IDC.node          search      0  3362344 1660241184
1103-IDC.node          search     49 28763055 1695435484
1102-IDC.node          search      0  7715608 1734602881
1106-IDC.node          search      0 14484381 1840694326
1107-IDC.node          search     49 22470219 1641504395

我注意到的是两个节点始终具有最大活动线程数（1103-IDC.node＆1107-IDC.node）。即使其他节点也有拒绝，这些节点的拒绝率最高。硬件类似于其他节点。这可能是什么原因？难道是因为他们的击打更多而有任何特定的碎片吗？如果是的话，如何找到它们。

此外，在活动线程始终最大的节点上，年轻堆占用的时间超过70ms（有时约为200ms）。在GC日志中找到以下几行：

[2020-10-27T04:32:14.380+0000][53678][gc             ] GC(6768757) Pause Young (Allocation Failure) 27884M->26366M(51008M) 196.226ms
[2020-10-27T04:32:26.206+0000][53678][gc,start       ] GC(6768758) Pause Young (Allocation Failure)
[2020-10-27T04:32:26.313+0000][53678][gc             ] GC(6768758) Pause Young (Allocation Failure) 27897M->26444M(51008M) 107.850ms
[2020-10-27T04:32:35.466+0000][53678][gc,start       ] GC(6768759) Pause Young (Allocation Failure)
[2020-10-27T04:32:35.574+0000][53678][gc             ] GC(6768759) Pause Young (Allocation Failure) 27975M->26444M(51008M) 108.923ms
[2020-10-27T04:32:40.993+0000][53678][gc,start       ] GC(6768760) Pause Young (Allocation Failure)
[2020-10-27T04:32:41.077+0000][53678][gc             ] GC(6768760) Pause Young (Allocation Failure) 27975M->26427M(51008M) 84.411ms
[2020-10-27T04:32:45.132+0000][53678][gc,start       ] GC(6768761) Pause Young (Allocation Failure)
[2020-10-27T04:32:45.200+0000][53678][gc             ] GC(6768761) Pause Young (Allocation Failure) 27958M->26471M(51008M) 68.105ms
[2020-10-27T04:32:46.984+0000][53678][gc,start       ] GC(6768762) Pause Young (Allocation Failure)
[2020-10-27T04:32:47.046+0000][53678][gc             ] GC(6768762) Pause Young (Allocation Failure) 28001M->26497M(51008M) 62.678ms
[2020-10-27T04:32:56.641+0000][53678][gc,start       ] GC(6768763) Pause Young (Allocation Failure)
[2020-10-27T04:32:56.719+0000][53678][gc             ] GC(6768763) Pause Young (Allocation Failure) 28027M->26484M(51008M) 77.596ms
[2020-10-27T04:33:29.488+0000][53678][gc,start       ] GC(6768764) Pause Young (Allocation Failure)
[2020-10-27T04:33:29.740+0000][53678][gc             ] GC(6768764) Pause Young (Allocation Failure) 28015M->26516M(51008M) 251.447ms

解决方法

要注意的一件事是，如果您从elasticsearch threadpool cat API获得了这些统计信息，那么它只会显示时间点数据，而不会显示最近1小时，6小时的历史数据，这样的1天1周。

拒绝和完成是节点上次重新启动以来的统计信息，因此，当我们试图确定某些ES节点是否由于碎片配置不正确/不平衡而成为热点时，这也不是很有用。

所以这里我们要弄清两个非常重要的事情

通过按时间范围查看数据节点上的平均活动，被拒绝的请求，可以确定集群中的实际热点节点（您可以仅检查高峰时段），如果您有一些工具，这将非常容易像this
已知热点节点后，查看分配给它们的分片，然后将其与其他节点分片进行比较，要检查的指标很少，分片数，分片接收更多流量，分片接收最慢的查询等，，大多数情况下，您必须查看ES的各种指标和API，这很耗时，并且需要大量的内部ES知识。

在thread_pool中始终始终搜索特定节点

如何解决在thread_pool中始终始终搜索特定节点

解决方法

相关推荐