调试运行中的 Pod

本页解释了如何调试在节点上运行(或崩溃)的 Pod。

准备工作

  • 你的 Pod 应该已经调度并运行了。如果你的 Pod 尚未运行,请从 调试 Pod 开始。
  • 对于某些高级调试步骤,你需要知道 Pod 在哪个节点上运行,并且需要 shell 访问权限才能在该节点上运行命令。你不需要该权限即可运行使用 kubectl 的标准调试步骤。

使用 kubectl describe pod 获取 Pod 的详细信息

此示例中,我们将使用 Deployment 来创建两个 Pod,类似于前面的示例。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  selector:
    matchLabels:
      app: nginx
  replicas: 2
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx
        resources:
          limits:
            memory: "128Mi"
            cpu: "500m"
        ports:
        - containerPort: 80

通过运行以下命令创建 Deployment

kubectl apply -f https://k8s.io/examples/application/nginx-with-request.yaml
deployment.apps/nginx-deployment created

通过以下命令检查 Pod 状态

kubectl get pods
NAME                                READY   STATUS    RESTARTS   AGE
nginx-deployment-67d4bdd6f5-cx2nz   1/1     Running   0          13s
nginx-deployment-67d4bdd6f5-w6kd7   1/1     Running   0          13s

我们可以使用 kubectl describe pod 检索每个 Pod 的更多信息。例如:

kubectl describe pod nginx-deployment-67d4bdd6f5-w6kd7
Name:         nginx-deployment-67d4bdd6f5-w6kd7
Namespace:    default
Priority:     0
Node:         kube-worker-1/192.168.0.113
Start Time:   Thu, 17 Feb 2022 16:51:01 -0500
Labels:       app=nginx
              pod-template-hash=67d4bdd6f5
Annotations:  <none>
Status:       Running
IP:           10.88.0.3
IPs:
  IP:           10.88.0.3
  IP:           2001:db8::1
Controlled By:  ReplicaSet/nginx-deployment-67d4bdd6f5
Containers:
  nginx:
    Container ID:   containerd://5403af59a2b46ee5a23fb0ae4b1e077f7ca5c5fb7af16e1ab21c00e0e616462a
    Image:          nginx
    Image ID:       docker.io/library/nginx@sha256:2834dc507516af02784808c5f48b7cbe38b8ed5d0f4837f16e78d00deb7e7767
    Port:           80/TCP
    Host Port:      0/TCP
    State:          Running
      Started:      Thu, 17 Feb 2022 16:51:05 -0500
    Ready:          True
    Restart Count:  0
    Limits:
      cpu:     500m
      memory:  128Mi
    Requests:
      cpu:        500m
      memory:     128Mi
    Environment:  <none>
    Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-bgsgp (ro)
Conditions:
  Type              Status
  Initialized       True 
  Ready             True 
  ContainersReady   True 
  PodScheduled      True 
Volumes:
  kube-api-access-bgsgp:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  3607
    ConfigMapName:           kube-root-ca.crt
    ConfigMapOptional:       <nil>
    DownwardAPI:             true
QoS Class:                   Guaranteed
Node-Selectors:              <none>
Tolerations:                 node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
                             node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  34s   default-scheduler  Successfully assigned default/nginx-deployment-67d4bdd6f5-w6kd7 to kube-worker-1
  Normal  Pulling    31s   kubelet            Pulling image "nginx"
  Normal  Pulled     30s   kubelet            Successfully pulled image "nginx" in 1.146417389s
  Normal  Created    30s   kubelet            Created container nginx
  Normal  Started    30s   kubelet            Started container nginx

在这里你可以看到关于容器和 Pod 的配置信息(标签、资源要求等),以及关于容器和 Pod 的状态信息(状态、就绪性、重启计数、事件等)。

容器状态是 Waiting、Running 或 Terminated 之一。根据状态,将提供额外的信息——在这里你可以看到,对于处于 Running 状态的容器,系统会告诉你容器何时启动。

Ready 告诉你容器是否通过了上次的就绪探针。(在此例中,容器未配置就绪探针;如果未配置就绪探针,则假定容器已就绪。)

重启计数告诉你容器已重启了多少次;此信息可用于检测重启策略为“always”的容器中的崩溃循环。

目前与 Pod 相关联的唯一 Condition 是二进制的 Ready condition,它表示 Pod 能够提供请求服务,并且应该添加到所有匹配服务的负载平衡池中。

最后,你将看到与 Pod 相关的最新事件日志。“From”表示记录事件的组件。“Reason”和“Message”告诉你发生了什么。

示例:调试 Pending Pod

使用事件可以检测到一个常见场景,即你创建了一个无法适应任何节点的 Pod。例如,Pod 可能请求的资源多于任何节点上的空闲资源,或者它可能指定了一个与任何节点都不匹配的标签选择器。假设我们创建了前一个 Deployment,有 5 个副本(而不是 2 个),并且在每个(虚拟)机器都有 1 个 CPU 的四节点集群上请求 600 毫核而不是 500 毫核。在这种情况下,其中一个 Pod 将无法调度。(请注意,由于每个节点上运行的集群附加 Pod,例如 fluentd、skydns 等,如果请求 1000 毫核,那么所有 Pod 都将无法调度。)

kubectl get pods
NAME                                READY     STATUS    RESTARTS   AGE
nginx-deployment-1006230814-6winp   1/1       Running   0          7m
nginx-deployment-1006230814-fmgu3   1/1       Running   0          7m
nginx-deployment-1370807587-6ekbw   1/1       Running   0          1m
nginx-deployment-1370807587-fg172   0/1       Pending   0          1m
nginx-deployment-1370807587-fz9sd   0/1       Pending   0          1m

要找出 nginx-deployment-1370807587-fz9sd Pod 未运行的原因,我们可以在 pending Pod 上使用 kubectl describe pod 并查看其事件。

kubectl describe pod nginx-deployment-1370807587-fz9sd
  Name:		nginx-deployment-1370807587-fz9sd
  Namespace:	default
  Node:		/
  Labels:		app=nginx,pod-template-hash=1370807587
  Status:		Pending
  IP:
  Controllers:	ReplicaSet/nginx-deployment-1370807587
  Containers:
    nginx:
      Image:	nginx
      Port:	80/TCP
      QoS Tier:
        memory:	Guaranteed
        cpu:	Guaranteed
      Limits:
        cpu:	1
        memory:	128Mi
      Requests:
        cpu:	1
        memory:	128Mi
      Environment Variables:
  Volumes:
    default-token-4bcbi:
      Type:	Secret (a volume populated by a Secret)
      SecretName:	default-token-4bcbi
  Events:
    FirstSeen	LastSeen	Count	From			        SubobjectPath	Type		Reason			    Message
    ---------	--------	-----	----			        -------------	--------	------			    -------
    1m		    48s		    7	    {default-scheduler }			        Warning		FailedScheduling	pod (nginx-deployment-1370807587-fz9sd) failed to fit in any node
  fit failure on node (kubernetes-node-6ta5): Node didn't have enough resource: CPU, requested: 1000, used: 1420, capacity: 2000
  fit failure on node (kubernetes-node-wul5): Node didn't have enough resource: CPU, requested: 1000, used: 1100, capacity: 2000

在这里,你可以看到调度器生成的事件,说明 Pod 因 FailedScheduling (可能还有其他原因) 而未能调度。消息告诉我们任何节点上都没有足够的资源来运行该 Pod。

要纠正此情况,你可以使用 kubectl scale 更新你的 Deployment,以指定四个或更少的副本。(或者你可以让一个 Pod 处于 Pending 状态,这是无害的。)

你在 kubectl describe pod 末尾看到的事件会持久保存在 etcd 中,并提供关于集群中发生情况的高级信息。要列出所有事件,你可以使用

kubectl get events

但你必须记住事件是带命名空间的。这意味着如果你对某个命名空间对象(例如,my-namespace 命名空间中的 Pod 发生了什么)的事件感兴趣,你需要明确地向命令提供一个命名空间。

kubectl get events --namespace=my-namespace

要查看所有命名空间中的事件,你可以使用 --all-namespaces 参数。

除了 kubectl describe pod,获取 Pod 额外信息(除了 kubectl get pod 提供的信息之外)的另一种方法是向 kubectl get pod 传递 -o yaml 输出格式标志。这将以 YAML 格式提供比 kubectl describe pod 更多的信息——基本上是系统拥有的关于 Pod 的所有信息。在这里,你将看到诸如注解(没有标签限制的键值元数据,由 Kubernetes 系统组件内部使用)、重启策略、端口和卷等内容。

kubectl get pod nginx-deployment-1006230814-6winp -o yaml
apiVersion: v1
kind: Pod
metadata:
  creationTimestamp: "2022-02-17T21:51:01Z"
  generateName: nginx-deployment-67d4bdd6f5-
  labels:
    app: nginx
    pod-template-hash: 67d4bdd6f5
  name: nginx-deployment-67d4bdd6f5-w6kd7
  namespace: default
  ownerReferences:
  - apiVersion: apps/v1
    blockOwnerDeletion: true
    controller: true
    kind: ReplicaSet
    name: nginx-deployment-67d4bdd6f5
    uid: 7d41dfd4-84c0-4be4-88ab-cedbe626ad82
  resourceVersion: "1364"
  uid: a6501da1-0447-4262-98eb-c03d4002222e
spec:
  containers:
  - image: nginx
    imagePullPolicy: Always
    name: nginx
    ports:
    - containerPort: 80
      protocol: TCP
    resources:
      limits:
        cpu: 500m
        memory: 128Mi
      requests:
        cpu: 500m
        memory: 128Mi
    terminationMessagePath: /dev/termination-log
    terminationMessagePolicy: File
    volumeMounts:
    - mountPath: /var/run/secrets/kubernetes.io/serviceaccount
      name: kube-api-access-bgsgp
      readOnly: true
  dnsPolicy: ClusterFirst
  enableServiceLinks: true
  nodeName: kube-worker-1
  preemptionPolicy: PreemptLowerPriority
  priority: 0
  restartPolicy: Always
  schedulerName: default-scheduler
  securityContext: {}
  serviceAccount: default
  serviceAccountName: default
  terminationGracePeriodSeconds: 30
  tolerations:
  - effect: NoExecute
    key: node.kubernetes.io/not-ready
    operator: Exists
    tolerationSeconds: 300
  - effect: NoExecute
    key: node.kubernetes.io/unreachable
    operator: Exists
    tolerationSeconds: 300
  volumes:
  - name: kube-api-access-bgsgp
    projected:
      defaultMode: 420
      sources:
      - serviceAccountToken:
          expirationSeconds: 3607
          path: token
      - configMap:
          items:
          - key: ca.crt
            path: ca.crt
          name: kube-root-ca.crt
      - downwardAPI:
          items:
          - fieldRef:
              apiVersion: v1
              fieldPath: metadata.namespace
            path: namespace
status:
  conditions:
  - lastProbeTime: null
    lastTransitionTime: "2022-02-17T21:51:01Z"
    status: "True"
    type: Initialized
  - lastProbeTime: null
    lastTransitionTime: "2022-02-17T21:51:06Z"
    status: "True"
    type: Ready
  - lastProbeTime: null
    lastTransitionTime: "2022-02-17T21:51:06Z"
    status: "True"
    type: ContainersReady
  - lastProbeTime: null
    lastTransitionTime: "2022-02-17T21:51:01Z"
    status: "True"
    type: PodScheduled
  containerStatuses:
  - containerID: containerd://5403af59a2b46ee5a23fb0ae4b1e077f7ca5c5fb7af16e1ab21c00e0e616462a
    image: docker.io/library/nginx:latest
    imageID: docker.io/library/nginx@sha256:2834dc507516af02784808c5f48b7cbe38b8ed5d0f4837f16e78d00deb7e7767
    lastState: {}
    name: nginx
    ready: true
    restartCount: 0
    started: true
    state:
      running:
        startedAt: "2022-02-17T21:51:05Z"
  hostIP: 192.168.0.113
  phase: Running
  podIP: 10.88.0.3
  podIPs:
  - ip: 10.88.0.3
  - ip: 2001:db8::1
  qosClass: Guaranteed
  startTime: "2022-02-17T21:51:01Z"

检查 Pod 日志

首先,查看受影响容器的日志

kubectl logs ${POD_NAME} ${CONTAINER_NAME}

如果你的容器之前崩溃过,你可以使用以下命令访问上一个容器的崩溃日志

kubectl logs --previous ${POD_NAME} ${CONTAINER_NAME}

使用容器 exec 进行调试

如果 容器镜像 包含调试工具(例如基于 Linux 和 Windows OS 基础镜像构建的镜像),你可以使用 kubectl exec 在特定容器内运行命令。

kubectl exec ${POD_NAME} -c ${CONTAINER_NAME} -- ${CMD} ${ARG1} ${ARG2} ... ${ARGN}

举个例子,要查看正在运行的 Cassandra Pod 的日志,你可以运行

kubectl exec cassandra -- cat /var/log/cassandra/system.log

你可以使用 kubectl exec-i-t 参数运行一个连接到你终端的 shell,例如

kubectl exec -it cassandra -- sh

有关更多详细信息,请参阅 获取运行中容器的 Shell

使用临时调试容器进行调试

特性状态: Kubernetes v1.25 [稳定]

临时容器 对于交互式故障排除很有用,尤其是在 kubectl exec 不足以解决问题(因为容器崩溃或容器镜像不包含调试工具,例如 distroless 镜像)时。

临时容器调试示例

你可以使用 kubectl debug 命令将临时容器添加到正在运行的 Pod 中。首先,为示例创建一个 Pod。

kubectl run ephemeral-demo --image=registry.k8s.io/pause:3.1 --restart=Never

本节中的示例使用 pause 容器镜像,因为它不包含调试工具,但此方法适用于所有容器镜像。

如果你尝试使用 kubectl exec 创建 shell,你将看到一个错误,因为此容器镜像中没有 shell。

kubectl exec -it ephemeral-demo -- sh
OCI runtime exec failed: exec failed: container_linux.go:346: starting container process caused "exec: \"sh\": executable file not found in $PATH": unknown

你可以改为使用 kubectl debug 添加一个调试容器。如果你指定 -i/--interactive 参数,kubectl 将自动附加到临时容器的控制台。

kubectl debug -it ephemeral-demo --image=busybox:1.28 --target=ephemeral-demo
Defaulting debug container name to debugger-8xzrl.
If you don't see a command prompt, try pressing enter.
/ #

此命令添加了一个新的 busybox 容器并连接到它。--target 参数指定另一个容器的进程命名空间。此处有必要这样做,因为 kubectl run 在其创建的 Pod 中不会启用进程命名空间共享

你可以使用 kubectl describe 查看新创建的临时容器的状态。

kubectl describe pod ephemeral-demo
...
Ephemeral Containers:
  debugger-8xzrl:
    Container ID:   docker://b888f9adfd15bd5739fefaa39e1df4dd3c617b9902082b1cfdc29c4028ffb2eb
    Image:          busybox
    Image ID:       docker-pullable://busybox@sha256:1828edd60c5efd34b2bf5dd3282ec0cc04d47b2ff9caa0b6d4f07a21d1c08084
    Port:           <none>
    Host Port:      <none>
    State:          Running
      Started:      Wed, 12 Feb 2020 14:25:42 +0100
    Ready:          False
    Restart Count:  0
    Environment:    <none>
    Mounts:         <none>
...

完成后使用 kubectl delete 删除 Pod。

kubectl delete pod ephemeral-demo

使用 Pod 副本进行调试

有时,Pod 配置选项会使在某些情况下难以进行故障排除。例如,如果你的容器镜像不包含 shell 或者你的应用程序在启动时崩溃,你就无法运行 kubectl exec 来排除容器故障。在这种情况下,你可以使用 kubectl debug 创建 Pod 的副本,并更改配置值以帮助调试。

复制 Pod 并添加新容器

当你的应用程序正在运行但行为不符合预期,并且你想为 Pod 添加额外的故障排除实用程序时,添加新容器会很有用。

例如,你的应用程序的容器镜像可能基于 busybox 构建,但你需要 busybox 中不包含的调试工具。你可以使用 kubectl run 模拟此场景。

kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d

运行此命令以创建 myapp 的副本,名为 myapp-debug,并添加一个新的 Ubuntu 容器用于调试。

kubectl debug myapp -it --image=ubuntu --share-processes --copy-to=myapp-debug
Defaulting debug container name to debugger-w7xmf.
If you don't see a command prompt, try pressing enter.
root@myapp-debug:/#

完成调试后,不要忘记清理调试 Pod。

kubectl delete pod myapp myapp-debug

复制 Pod 并更改其命令

有时更改容器的命令会很有用,例如添加调试标志或因为应用程序正在崩溃。

为了模拟一个崩溃的应用程序,使用 kubectl run 创建一个立即退出的容器。

kubectl run --image=busybox:1.28 myapp -- false

你可以使用 kubectl describe pod myapp 看到这个容器正在崩溃。

Containers:
  myapp:
    Image:         busybox
    ...
    Args:
      false
    State:          Waiting
      Reason:       CrashLoopBackOff
    Last State:     Terminated
      Reason:       Error
      Exit Code:    1

你可以使用 kubectl debug 创建此 Pod 的副本,并将其命令更改为交互式 shell。

kubectl debug myapp -it --copy-to=myapp-debug --container=myapp -- sh
If you don't see a command prompt, try pressing enter.
/ #

现在你拥有一个交互式 shell,可以用来执行检查文件系统路径或手动运行容器命令等任务。

完成调试后,不要忘记清理调试 Pod。

kubectl delete pod myapp myapp-debug

复制 Pod 并更改容器镜像

在某些情况下,你可能希望将出现问题的 Pod 从其常规生产容器镜像更改为包含调试版本或附加实用程序的镜像。

例如,使用 kubectl run 创建一个 Pod。

kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d

现在使用 kubectl debug 制作一个副本并将其容器镜像更改为 ubuntu

kubectl debug myapp --copy-to=myapp-debug --set-image=*=ubuntu

--set-image 的语法与 kubectl set image 使用相同的 container_name=image 语法。*=ubuntu 表示将所有容器的镜像更改为 ubuntu

完成调试后,不要忘记清理调试 Pod。

kubectl delete pod myapp myapp-debug

通过节点上的 shell 进行调试

如果这些方法都不奏效,你可以找到 Pod 正在运行的节点,并在该节点上创建一个 Pod。要使用 kubectl debug 在节点上创建交互式 shell,请运行:

kubectl debug node/mynode -it --image=ubuntu
Creating debugging pod node-debugger-mynode-pdx84 with container debugger on node mynode.
If you don't see a command prompt, try pressing enter.
root@ek8s:/#

在节点上创建调试会话时,请记住:

  • kubectl debug 会根据节点名称自动生成新 Pod 的名称。
  • 节点的根文件系统将挂载到 /host
  • 容器在宿主 IPC、网络和 PID 命名空间中运行,尽管 Pod 没有特权,因此读取某些进程信息可能会失败,并且 chroot /host 也可能失败。
  • 如果你需要特权 Pod,请手动创建或使用 --profile=sysadmin 标志。

完成调试后,不要忘记清理调试 Pod。

kubectl delete pod node-debugger-mynode-pdx84

应用配置文件调试 Pod 或节点

当使用 kubectl debug 通过调试 Pod 调试节点、通过临时容器调试 Pod 或调试复制的 Pod 时,你可以对它们应用配置文件。通过应用配置文件,可以设置特定的属性,例如 securityContext,从而适应各种场景。配置文件有两种类型:静态配置文件和自定义配置文件。

应用静态配置文件

静态配置文件是一组预定义属性,你可以使用 --profile 标志应用它们。可用的配置文件如下:

配置文件描述
legacy一组与 1.22 行为向后兼容的属性
general为每个调试过程提供一组合理的通用属性
baseline一组与 PodSecurityStandard 基线策略 兼容的属性
restricted一组与 PodSecurityStandard 受限策略 兼容的属性
netadmin一组包含网络管理员权限的属性
sysadmin一组包含系统管理员(root)权限的属性

假设你创建一个 Pod 并对其进行调试。首先,创建一个名为 myapp 的 Pod 作为示例。

kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d

然后,使用临时容器调试 Pod。如果临时容器需要特权,你可以使用 sysadmin 配置文件。

kubectl debug -it myapp --image=busybox:1.28 --target=myapp --profile=sysadmin
Targeting container "myapp". If you don't see processes from this container it may be because the container runtime doesn't support this feature.
Defaulting debug container name to debugger-6kg4x.
If you don't see a command prompt, try pressing enter.
/ #

通过在容器内部运行以下命令来检查临时容器进程的能力。

/ # grep Cap /proc/$$/status
...
CapPrm:	000001ffffffffff
CapEff:	000001ffffffffff
...

这意味着通过应用 sysadmin 配置文件,容器进程被授予了作为特权容器的全部能力。有关 能力的更多详细信息

你还可以检查临时容器是否作为特权容器创建。

kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].securityContext}'
{"privileged":true}

完成后清理 Pod。

kubectl delete pod myapp

应用自定义配置文件

特性状态: Kubernetes v1.32 [stable]

你可以将部分容器规约定义为 YAML 或 JSON 格式的自定义配置文件,并使用 --custom 标志应用它。

创建一个名为 myapp 的 Pod 作为示例。

kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d

创建 YAML 或 JSON 格式的自定义配置文件。这里,创建一个名为 custom-profile.yaml 的 YAML 格式文件。

env:
- name: ENV_VAR_1
  value: value_1
- name: ENV_VAR_2
  value: value_2
securityContext:
  capabilities:
    add:
    - NET_ADMIN
    - SYS_TIME

运行此命令,使用带有自定义配置文件的临时容器调试 Pod。

kubectl debug -it myapp --image=busybox:1.28 --target=myapp --profile=general --custom=custom-profile.yaml

你可以检查临时容器是否已添加到目标 Pod 并应用了自定义配置文件。

kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].env}'
[{"name":"ENV_VAR_1","value":"value_1"},{"name":"ENV_VAR_2","value":"value_2"}]
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].securityContext}'
{"capabilities":{"add":["NET_ADMIN","SYS_TIME"]}}

完成后清理 Pod。

kubectl delete pod myapp
最后修改于 2024 年 12 月 27 日 太平洋标准时间上午 2:12:修复自定义配置文件稳定版 (79da44942a)