PromQL:rate() 函数是什么意思?

如何解决PromQL:rate() 函数是什么意思?

我有一个关于 PromQL 及其查询函数 rate() 以及如何正确使用它的问题。在我的应用程序中,我有一个线程正在运行,我使用 Micrometer 的计时器来监视线程的运行时间。使用 Timer 会为您提供一个后缀为 _count 的计数器和另一个后缀为 _sum 所花费的秒数总和的计数器。例如。 my_metric_sum 和 my_metric_count。

我的原始数据如下所示(抓取间隔 30 秒,距离向量 5m):

enter image description here

现在根据文档, 计算范围向量中时间序列的每秒平均增长率(此处为 5m)。

现在我的问题是:我为什么要那样?我的执行运行时的相对变化对我来说似乎毫无用处。事实上,仅使用 sum/count 看起来更有用,因为它为我提供了每个时刻的平均绝对持续时间。同时,这让我感到困惑,在我找到的文档中

要从名为 http_request_duration_seconds 的直方图或摘要计算过去 5 分钟内的平均请求持续时间,请使用以下表达式:



但据我了解文档,这个表达式似乎会计算请求持续时间的每秒平均增加率,即不是请求平均需要多长时间,而是请求持续时间改变了多少过去 5 分钟的平均值。


虽然我不熟悉 Micrometer Timer,但您描述的指标属于摘要类型。它计算 _count 中的“事件”,并对 _sum 中的事件大小求和,例如持续时间、经过时间等。 如果您现在执行 rate(metric_count[5m]),您将获得每秒 500 万次事件的平均速率。如果你想知道 5m 窗口内这些事件的平均持续时间,你可以 rate(metric_sum[5m]) / rate(metric_count[5m])。如果您尝试除以 metric_sum/metric_count,您将获得所有时间(自计数器重置以来)的平均值,而不是某个时间点的 5m 平均值。 在某种程度上,为此使用 rate() 看起来有点有趣。使用 increase() 对我来说似乎更直观,但在数学上它与 rate() 完全相同,只是一个 increase()/range,因此这些范围在 rate(metric_sum[5m]) / rate(metric_count[5m]) 中相互抵消。


首先 - 使用与您的用例匹配的工具。

第二 - 无论您选择什么,验证数据。与其在停电期间或与愤怒的客户/用户发生冲突时,不如现在就做。

-173 -472 -358 -65 -97 -100 -178 -127 -290 -37 -154 -25 -237 46 -316 26 -29 44 -58 42 -68 -2 -10 -37 -36 -78 -58 -95 -53 -129 -95 -136 -166 -14 -146 92 -208 445 -259 805 -116 2540 -100 3129 29 214 47 282 98 282 211 0 83 -41 135 -150 190 -49 25 -70 45 -70 66 0 2 18 24 40 48 53 58 70 102 70 183 0 321 -278 690 -586 778 -128 37 -166 72 -185 167 -13 66 -7 59 -208 219 -181 144 -292 299 -360 504 -47 144 -62 256 -68 503 -10 422 37 637 182 830 63 84 138 148 313 267 131 89 148 104 161 141 13 37 12 44 -5 80 -16 33 -32 46 -113 85 -51 26 -150 66 -220 89 -194 66 -234 92 -234 150 0 38 26 66 124 135 218 153 340 398 340 680 0 161 -45 287 -152 428 -181 239 -398 365 -702 406 -103 14 -142 13 -267 -9z"/> </g> </svg></div> </div> </body> </html> _count直方图摘要的特征。采样频率在这里并不重要,只要它小于 _bucket 函数的 [5m] 分组即可。

该比率只是为您提供“在这五分钟 (rate()) 内发生了多少次事件”的数据点。

一般说明 - Prometheus 中的 [5m] 概念引起了很多混淆。它在太多人之间争论不休。他们可能应该叫它别的东西。

