使用 Pod 失败策略处理可重试和不可重试的 Pod 失败

特性状态: Kubernetes v1.31 [稳定] (默认启用:true)

本文档向您展示如何使用Pod 失败策略,结合默认的Pod 回退失败策略,来更好地控制Job中容器或 Pod 级别的失败处理。

Pod 失败策略的定义可以帮助您

  • 通过避免不必要的 Pod 重试来更好地利用计算资源。
  • 避免由于 Pod 中断而导致的 Job 失败(例如抢占API 发起的驱逐或基于污点的驱逐)。

开始之前

您应该已经熟悉Job的基本用法。

您需要有一个 Kubernetes 集群,并且必须配置 kubectl 命令行工具以与您的集群通信。建议在至少有两个不充当控制平面主机的节点的集群上运行本教程。如果您还没有集群,可以使用 minikube 创建一个,或者您可以使用以下 Kubernetes 游乐场之一

您的 Kubernetes 服务器必须是 v1.25 或更高版本。要检查版本,请输入 kubectl version

使用 Pod 失败策略避免不必要的 Pod 重试

通过以下示例,您可以学习如何使用 Pod 失败策略来避免 Pod 失败时(表示存在不可重试的软件错误)不必要的 Pod 重启。

首先,基于配置创建一个 Job

apiVersion: batch/v1
kind: Job
metadata:
  name: job-pod-failure-policy-failjob
spec:
  completions: 8
  parallelism: 2
  template:
    spec:
      restartPolicy: Never
      containers:
      - name: main
        image: docker.io/library/bash:5
        command: ["bash"]
        args:
        - -c
        - echo "Hello world! I'm going to exit with 42 to simulate a software bug." && sleep 30 && exit 42
  backoffLimit: 6
  podFailurePolicy:
    rules:
    - action: FailJob
      onExitCodes:
        containerName: main
        operator: In
        values: [42]

通过运行

kubectl create -f job-pod-failure-policy-failjob.yaml

大约 30 秒后,整个 Job 应该被终止。通过运行检查 Job 的状态

kubectl get jobs -l job-name=job-pod-failure-policy-failjob -o yaml

在 Job 状态中,将显示以下条件

  • FailureTarget 条件:其 reason 字段设置为 PodFailurePolicy,并且 message 字段包含有关终止的更多信息,例如 Container main for pod default/job-pod-failure-policy-failjob-8ckj8 failed with exit code 42 matching FailJob rule at index 0。一旦 Job 被视为失败,Job 控制器就会添加此条件。有关详细信息,请参见Job Pod 的终止
  • Failed 条件:与 FailureTarget 条件相同的 reasonmessage。Job 控制器会在 Job 的所有 Pod 都终止后添加此条件。

相比之下,如果禁用 Pod 失败策略,则 Pod 将重试 6 次,至少需要 2 分钟。

清理

删除您创建的 Job

kubectl delete jobs/job-pod-failure-policy-failjob

集群会自动清理 Pod。

使用 Pod 失败策略忽略 Pod 中断

通过以下示例,您可以学习如何使用 Pod 失败策略来忽略 Pod 中断,而不会使 Pod 重试计数器朝 .spec.backoffLimit 限制增加。

  1. 基于配置创建一个 Job

    apiVersion: batch/v1
    kind: Job
    metadata:
      name: job-pod-failure-policy-ignore
    spec:
      completions: 4
      parallelism: 2
      template:
        spec:
          restartPolicy: Never
          containers:
          - name: main
            image: docker.io/library/bash:5
            command: ["bash"]
            args:
            - -c
            - echo "Hello world! I'm going to exit with 0 (success)." && sleep 90 && exit 0
      backoffLimit: 0
      podFailurePolicy:
        rules:
        - action: Ignore
          onPodConditions:
          - type: DisruptionTarget
    

    通过运行

    kubectl create -f job-pod-failure-policy-ignore.yaml
    
  2. 运行此命令以检查 Pod 调度到的 nodeName

    nodeName=$(kubectl get pods -l job-name=job-pod-failure-policy-ignore -o jsonpath='{.items[0].spec.nodeName}')
    
  3. 排空节点以在 Pod 完成之前驱逐它(在 90 秒内)

    kubectl drain nodes/$nodeName --ignore-daemonsets --grace-period=0
    
  4. 检查 .status.failed 以查看 Job 的计数器是否未增加

    kubectl get jobs -l job-name=job-pod-failure-policy-ignore -o yaml
    
  5. 取消隔离节点

    kubectl uncordon nodes/$nodeName
    

Job 恢复并成功。

相比之下,如果禁用 Pod 失败策略,Pod 中断将导致整个 Job 终止(因为 .spec.backoffLimit 设置为 0)。

清理

删除您创建的 Job

kubectl delete jobs/job-pod-failure-policy-ignore

集群会自动清理 Pod。

使用 Pod 失败策略避免基于自定义 Pod 条件的不必要 Pod 重试

通过以下示例,您可以学习如何使用 Pod 失败策略来避免基于自定义 Pod 条件的不必要的 Pod 重启。

  1. 首先,基于配置创建一个 Job

    apiVersion: batch/v1
    kind: Job
    metadata:
      name: job-pod-failure-policy-config-issue
    spec:
      completions: 8
      parallelism: 2
      template:
        spec:
          restartPolicy: Never
          containers:
          - name: main
            image: "non-existing-repo/non-existing-image:example"
      backoffLimit: 6
      podFailurePolicy:
        rules:
        - action: FailJob
          onPodConditions:
          - type: ConfigIssue
    

    通过运行

    kubectl create -f job-pod-failure-policy-config-issue.yaml
    

    请注意,该镜像配置错误,因为它不存在。

  2. 通过运行以下命令检查 Job 的 Pod 的状态

    kubectl get pods -l job-name=job-pod-failure-policy-config-issue -o yaml
    

    您将看到类似于以下的输出

    containerStatuses:
    - image: non-existing-repo/non-existing-image:example
       ...
       state:
       waiting:
          message: Back-off pulling image "non-existing-repo/non-existing-image:example"
          reason: ImagePullBackOff
          ...
    phase: Pending
    

    请注意,由于无法拉取配置错误的镜像,Pod 仍然处于 Pending 阶段。原则上,这可能是一个瞬时问题,并且可能会拉取该镜像。但是,在这种情况下,镜像不存在,因此我们通过自定义条件来指示此事实。

  3. 添加自定义条件。首先,通过运行以下命令准备补丁

    cat <<EOF > patch.yaml
    status:
      conditions:
      - type: ConfigIssue
        status: "True"
        reason: "NonExistingImage"
        lastTransitionTime: "$(date -u +"%Y-%m-%dT%H:%M:%SZ")"
    EOF
    

    其次,通过运行以下命令选择由 Job 创建的一个 Pod

    podName=$(kubectl get pods -l job-name=job-pod-failure-policy-config-issue -o jsonpath='{.items[0].metadata.name}')
    

    然后,通过运行以下命令将补丁应用到其中一个 Pod

    kubectl patch pod $podName --subresource=status --patch-file=patch.yaml
    

    如果应用成功,您将收到如下通知

    pod/job-pod-failure-policy-config-issue-k6pvp patched
    
  4. 通过运行以下命令删除 Pod,将其转换为 Failed 阶段

    kubectl delete pods/$podName
    
  5. 通过运行以下命令检查 Job 的状态

    kubectl get jobs -l job-name=job-pod-failure-policy-config-issue -o yaml
    

    在 Job 状态中,查看具有 reason 字段等于 PodFailurePolicy 的 Job Failed 条件。此外,message 字段包含有关 Job 终止的更多详细信息,例如:Pod default/job-pod-failure-policy-config-issue-k6pvp has condition ConfigIssue matching FailJob rule at index 0

清理

删除您创建的 Job

kubectl delete jobs/job-pod-failure-policy-config-issue

集群会自动清理 Pod。

备选方案

你可以仅依赖 Pod 回退失败策略,通过指定 Job 的 .spec.backoffLimit 字段来实现。然而,在许多情况下,要在为避免不必要的 Pod 重试而设置较低的 .spec.backoffLimit 值,和为了确保 Job 不会因 Pod 中断而终止而设置较高值之间找到平衡是很困难的。

上次修改时间:2024年7月29日晚上8:56 PST:将 Job Pod 失败策略升级为稳定版 (#46807) (45a47d170f)