Kubernetes 组件 SLI 指标

用于衡量 Kubernetes 组件可靠性和性能的高级别指标。
特性状态: Kubernetes v1.27 [beta] (默认启用:true)

默认情况下,Kubernetes 1.34 会为每个 Kubernetes 组件二进制文件发布服务级别指标 (SLI)。此指标端点通过每个组件的服务 HTTPS 端口暴露,路径为 /metrics/slis。自 v1.27 起,ComponentSLIs 特性门默认启用,适用于所有 Kubernetes 组件。

SLI 指标

启用 SLI 指标后,每个 Kubernetes 组件会针对每个健康检查暴露两个指标,并附带标签:

  • 一个 Gauge(表示健康检查的当前状态)
  • 一个 Counter(记录每个健康检查状态的累计计数)

您可以使用这些指标信息来计算每个组件的可用性统计数据。例如,API 服务器会检查 etcd 的健康状况。您可以计算并报告 etcd 的可用或不可用情况——由其客户端(API 服务器)报告。

Prometheus Gauge 数据看起来如下:

# HELP kubernetes_healthcheck [ALPHA] This metric records the result of a single healthcheck.
# TYPE kubernetes_healthcheck gauge
kubernetes_healthcheck{name="autoregister-completion",type="healthz"} 1
kubernetes_healthcheck{name="autoregister-completion",type="readyz"} 1
kubernetes_healthcheck{name="etcd",type="healthz"} 1
kubernetes_healthcheck{name="etcd",type="readyz"} 1
kubernetes_healthcheck{name="etcd-readiness",type="readyz"} 1
kubernetes_healthcheck{name="informer-sync",type="readyz"} 1
kubernetes_healthcheck{name="log",type="healthz"} 1
kubernetes_healthcheck{name="log",type="readyz"} 1
kubernetes_healthcheck{name="ping",type="healthz"} 1
kubernetes_healthcheck{name="ping",type="readyz"} 1

而 Counter 数据看起来如下:

# HELP kubernetes_healthchecks_total [ALPHA] This metric records the results of all healthcheck.
# TYPE kubernetes_healthchecks_total counter
kubernetes_healthchecks_total{name="autoregister-completion",status="error",type="readyz"} 1
kubernetes_healthchecks_total{name="autoregister-completion",status="success",type="healthz"} 15
kubernetes_healthchecks_total{name="autoregister-completion",status="success",type="readyz"} 14
kubernetes_healthchecks_total{name="etcd",status="success",type="healthz"} 15
kubernetes_healthchecks_total{name="etcd",status="success",type="readyz"} 15
kubernetes_healthchecks_total{name="etcd-readiness",status="success",type="readyz"} 15
kubernetes_healthchecks_total{name="informer-sync",status="error",type="readyz"} 1
kubernetes_healthchecks_total{name="informer-sync",status="success",type="readyz"} 14
kubernetes_healthchecks_total{name="log",status="success",type="healthz"} 15
kubernetes_healthchecks_total{name="log",status="success",type="readyz"} 15
kubernetes_healthchecks_total{name="ping",status="success",type="healthz"} 15
kubernetes_healthchecks_total{name="ping",status="success",type="readyz"} 15

使用这些数据

组件 SLI 指标端点旨在高频率地被抓取。高频率抓取意味着您将获得更精细的 Gauge 信号粒度,可用于计算 SLO。/metrics/slis 端点提供计算相应 Kubernetes 组件可用性 SLO 所需的原始数据。

最后修改时间 2025 年 1 月 7 日 下午 8:06 PST:为 Kubernetes 组件 SLI 指标添加描述 (6c83f61fa5)