如何解决如何解释卡夫卡经纪人报告的延迟指标
我正在查看kafka经纪人报告的各种延迟指标,以将它们包括在grafana仪表板上,但是我很难理解所报告的指标。我已经通过JMX导出器将指标导出到了Prometheus。 例如,让我们采用“产生请求的总时间”指标。 (kafka.network:type=RequestMetrics,name=TotalTimeMs,request=Produce)
- 当我用以下方法查询普罗米修斯时
"kafka_network_requestmetrics_totaltimems_count{request="Produce"}"
,我得到一些大数字。例如56459366。 大数字是什么意思?
- 当我用
"kafka_network_requestmetrics_totaltimems{request="Produce"}"
查询普罗米修斯时,我得到6行。例如正在关注
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",job="kubernetes-pods",pod="kafka-0",quantile="0.50",request="Produce"} 2
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.75",quantile="0.95",request="Produce"} 3
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.98",request="Produce"} 12.42
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.99",request="Produce"} 21
kafka_network_requestmetrics_totaltimems{instance="10.130.12.24:8020",quantile="0.999",request="Produce"} 54
这些不同的分位数度量是什么意思,我又如何从中计算出平均值?
- 经纪人多久更新一次这些指标?
解决方法
该计数只是自代理上升以来所衡量的“生产”请求的数量。经纪人收到的每一份农产品请求,都会计算处理时间。因此,它是一个单调递增的计数器。
不同的6行是百分位。在您的情况下,这意味着对于产品请求的50%(中位数),处理它们的时间最多需要2毫秒。对于75%的请求也是如此。但是,对于您的99%的请求,处理时间最多需要21毫秒。因此,您可以推断出对于中间的24%请求,处理时间在2毫秒至21毫秒之间。 您不能也不应该计算平均值,因为它很容易引起误解,尤其是在测量SLA时(如著名的笑话所言-如果统计学家的头在炉子里,而腿在冰柜里,那么他平均感觉精细...) 您可以找到许多说明差异的信息,例如:https://www.dynatrace.com/news/blog/why-averages-suck-and-percentiles-are-great/
关于这些指标的更新频率-随着请求的到来它们会不断更新。直方图正在使用存储库,以便为最近的样本提供更多的权重(毫无意义地将一周前发生的样本考虑在内)在当前请求时间百分比)。有不同类型的水库,我不知道在这里使用哪种水库,但是为了理解这一概念,您可以阅读这篇文章https://medium.com/expedia-group-tech/your-latency-metrics-could-be-misleading-you-how-hdrhistogram-can-help-9d545b598374
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。