调试正在运行的 Pod
本页介绍如何调试在节点上运行(或崩溃)的 Pod。
开始之前
- 你的 Pod 应该已经被调度并运行。如果你的 Pod 尚未运行,请先从调试 Pod 开始。
- 对于一些高级调试步骤,你需要知道 Pod 在哪个节点上运行,并具有在该节点上运行命令的 Shell 访问权限。对于使用
kubectl
的标准调试步骤,你不需要这种访问权限。
使用 kubectl describe pod
获取 Pod 详细信息
对于本例,我们将使用 Deployment 来创建两个 Pod,类似于前面的示例。
apiVersion: apps/v1
kind: Deployment
metadata:
name: nginx-deployment
spec:
selector:
matchLabels:
app: nginx
replicas: 2
template:
metadata:
labels:
app: nginx
spec:
containers:
- name: nginx
image: nginx
resources:
limits:
memory: "128Mi"
cpu: "500m"
ports:
- containerPort: 80
通过运行以下命令创建 Deployment
kubectl apply -f https://k8s.io/examples/application/nginx-with-request.yaml
deployment.apps/nginx-deployment created
通过运行以下命令检查 Pod 状态
kubectl get pods
NAME READY STATUS RESTARTS AGE
nginx-deployment-67d4bdd6f5-cx2nz 1/1 Running 0 13s
nginx-deployment-67d4bdd6f5-w6kd7 1/1 Running 0 13s
我们可以使用 kubectl describe pod
来检索关于这些 Pod 的更多信息。例如:
kubectl describe pod nginx-deployment-67d4bdd6f5-w6kd7
Name: nginx-deployment-67d4bdd6f5-w6kd7
Namespace: default
Priority: 0
Node: kube-worker-1/192.168.0.113
Start Time: Thu, 17 Feb 2022 16:51:01 -0500
Labels: app=nginx
pod-template-hash=67d4bdd6f5
Annotations: <none>
Status: Running
IP: 10.88.0.3
IPs:
IP: 10.88.0.3
IP: 2001:db8::1
Controlled By: ReplicaSet/nginx-deployment-67d4bdd6f5
Containers:
nginx:
Container ID: containerd://5403af59a2b46ee5a23fb0ae4b1e077f7ca5c5fb7af16e1ab21c00e0e616462a
Image: nginx
Image ID: docker.io/library/nginx@sha256:2834dc507516af02784808c5f48b7cbe38b8ed5d0f4837f16e78d00deb7e7767
Port: 80/TCP
Host Port: 0/TCP
State: Running
Started: Thu, 17 Feb 2022 16:51:05 -0500
Ready: True
Restart Count: 0
Limits:
cpu: 500m
memory: 128Mi
Requests:
cpu: 500m
memory: 128Mi
Environment: <none>
Mounts:
/var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-bgsgp (ro)
Conditions:
Type Status
Initialized True
Ready True
ContainersReady True
PodScheduled True
Volumes:
kube-api-access-bgsgp:
Type: Projected (a volume that contains injected data from multiple sources)
TokenExpirationSeconds: 3607
ConfigMapName: kube-root-ca.crt
ConfigMapOptional: <nil>
DownwardAPI: true
QoS Class: Guaranteed
Node-Selectors: <none>
Tolerations: node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 34s default-scheduler Successfully assigned default/nginx-deployment-67d4bdd6f5-w6kd7 to kube-worker-1
Normal Pulling 31s kubelet Pulling image "nginx"
Normal Pulled 30s kubelet Successfully pulled image "nginx" in 1.146417389s
Normal Created 30s kubelet Created container nginx
Normal Started 30s kubelet Started container nginx
在这里,你可以看到关于容器和 Pod 的配置信息(标签、资源需求等),以及关于容器和 Pod 的状态信息(状态、就绪性、重启次数、事件等)。
容器状态是 Waiting(等待中)、Running(运行中)或 Terminated(已终止)之一。根据状态,会提供额外的信息——例如,对于处于 Running 状态的容器,系统会告诉你容器何时启动。
Ready 会告诉你容器是否通过了上一次的就绪性探针检查。(在本例中,容器未配置就绪性探针;如果未配置就绪性探针,则假定容器已就绪。)
Restart Count 会告诉你容器已重启了多少次;这些信息对于检测重启策略设置为 'always' 的容器中的崩溃循环非常有用。
当前,与 Pod 相关的唯一 Condition 是二值的 Ready 状态,它表明 Pod 能够处理请求,并应该被添加到所有匹配服务的负载均衡池中。
最后,你会看到与你的 Pod 相关的最新事件日志。“From” 指示记录事件的组件。“Reason” 和 “Message” 告诉你发生了什么。
示例:调试 Pending 状态的 Pod
使用事件可以检测到一个常见的场景:当你创建的 Pod 无法在任何节点上调度时。例如,Pod 可能请求的资源超出了任何节点的可用资源,或者它可能指定了一个与任何节点都不匹配的标签选择器。假设我们创建了具有 5 个副本(而不是 2 个)的 Deployment,并且在每台(虚拟)机器有 1 个 CPU 的四节点集群中,请求 600 毫核而不是 500 毫核。在这种情况下,其中一个 Pod 将无法被调度。(注意,由于在每个节点上运行的集群插件 Pod,例如 fluentd、skydns 等,如果我们请求 1000 毫核,那么所有的 Pod 都将无法被调度。)
kubectl get pods
NAME READY STATUS RESTARTS AGE
nginx-deployment-1006230814-6winp 1/1 Running 0 7m
nginx-deployment-1006230814-fmgu3 1/1 Running 0 7m
nginx-deployment-1370807587-6ekbw 1/1 Running 0 1m
nginx-deployment-1370807587-fg172 0/1 Pending 0 1m
nginx-deployment-1370807587-fz9sd 0/1 Pending 0 1m
要找出 nginx-deployment-1370807587-fz9sd Pod 未运行的原因,我们可以对 pending 状态的 Pod 使用 kubectl describe pod
并查看其事件
kubectl describe pod nginx-deployment-1370807587-fz9sd
Name: nginx-deployment-1370807587-fz9sd
Namespace: default
Node: /
Labels: app=nginx,pod-template-hash=1370807587
Status: Pending
IP:
Controllers: ReplicaSet/nginx-deployment-1370807587
Containers:
nginx:
Image: nginx
Port: 80/TCP
QoS Tier:
memory: Guaranteed
cpu: Guaranteed
Limits:
cpu: 1
memory: 128Mi
Requests:
cpu: 1
memory: 128Mi
Environment Variables:
Volumes:
default-token-4bcbi:
Type: Secret (a volume populated by a Secret)
SecretName: default-token-4bcbi
Events:
FirstSeen LastSeen Count From SubobjectPath Type Reason Message
--------- -------- ----- ---- ------------- -------- ------ -------
1m 48s 7 {default-scheduler } Warning FailedScheduling pod (nginx-deployment-1370807587-fz9sd) failed to fit in any node
fit failure on node (kubernetes-node-6ta5): Node didn't have enough resource: CPU, requested: 1000, used: 1420, capacity: 2000
fit failure on node (kubernetes-node-wul5): Node didn't have enough resource: CPU, requested: 1000, used: 1100, capacity: 2000
在这里,你可以看到调度器生成的事件,说明 Pod 因 FailedScheduling
(可能还有其他原因)而调度失败。消息告诉我们,在任何节点上都没有足够的资源供该 Pod 使用。
要纠正这种情况,你可以使用 kubectl scale
更新你的 Deployment,指定四个或更少的副本。(或者你也可以让那个 Pod 处于 pending 状态,这是无害的。)
你在 kubectl describe pod
末尾看到的事件等信息都持久化在 etcd 中,并提供了集群中发生事情的高级信息。要列出所有事件,你可以使用
kubectl get events
但你必须记住事件是分命名空间的。这意味着如果你对某个命名空间对象(例如,命名空间 my-namespace
中的 Pod 发生了什么)的事件感兴趣,你需要明确地向命令提供命名空间
kubectl get events --namespace=my-namespace
要查看所有命名空间中的事件,你可以使用 --all-namespaces
参数。
除了 kubectl describe pod
,另一种获取 Pod 额外信息(超出 kubectl get pod
提供的信息)的方法是向 kubectl get pod
传递 -o yaml
输出格式标志。这将以 YAML 格式为你提供比 kubectl describe pod
更多的信息——基本上是系统关于该 Pod 的所有信息。在这里你会看到注解(它们是键值元数据,没有标签限制,由 Kubernetes 系统组件内部使用)、重启策略、端口和数据卷等信息。
kubectl get pod nginx-deployment-1006230814-6winp -o yaml
apiVersion: v1
kind: Pod
metadata:
creationTimestamp: "2022-02-17T21:51:01Z"
generateName: nginx-deployment-67d4bdd6f5-
labels:
app: nginx
pod-template-hash: 67d4bdd6f5
name: nginx-deployment-67d4bdd6f5-w6kd7
namespace: default
ownerReferences:
- apiVersion: apps/v1
blockOwnerDeletion: true
controller: true
kind: ReplicaSet
name: nginx-deployment-67d4bdd6f5
uid: 7d41dfd4-84c0-4be4-88ab-cedbe626ad82
resourceVersion: "1364"
uid: a6501da1-0447-4262-98eb-c03d4002222e
spec:
containers:
- image: nginx
imagePullPolicy: Always
name: nginx
ports:
- containerPort: 80
protocol: TCP
resources:
limits:
cpu: 500m
memory: 128Mi
requests:
cpu: 500m
memory: 128Mi
terminationMessagePath: /dev/termination-log
terminationMessagePolicy: File
volumeMounts:
- mountPath: /var/run/secrets/kubernetes.io/serviceaccount
name: kube-api-access-bgsgp
readOnly: true
dnsPolicy: ClusterFirst
enableServiceLinks: true
nodeName: kube-worker-1
preemptionPolicy: PreemptLowerPriority
priority: 0
restartPolicy: Always
schedulerName: default-scheduler
securityContext: {}
serviceAccount: default
serviceAccountName: default
terminationGracePeriodSeconds: 30
tolerations:
- effect: NoExecute
key: node.kubernetes.io/not-ready
operator: Exists
tolerationSeconds: 300
- effect: NoExecute
key: node.kubernetes.io/unreachable
operator: Exists
tolerationSeconds: 300
volumes:
- name: kube-api-access-bgsgp
projected:
defaultMode: 420
sources:
- serviceAccountToken:
expirationSeconds: 3607
path: token
- configMap:
items:
- key: ca.crt
path: ca.crt
name: kube-root-ca.crt
- downwardAPI:
items:
- fieldRef:
apiVersion: v1
fieldPath: metadata.namespace
path: namespace
status:
conditions:
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:01Z"
status: "True"
type: Initialized
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:06Z"
status: "True"
type: Ready
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:06Z"
status: "True"
type: ContainersReady
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:01Z"
status: "True"
type: PodScheduled
containerStatuses:
- containerID: containerd://5403af59a2b46ee5a23fb0ae4b1e077f7ca5c5fb7af16e1ab21c00e0e616462a
image: docker.io/library/nginx:latest
imageID: docker.io/library/nginx@sha256:2834dc507516af02784808c5f48b7cbe38b8ed5d0f4837f16e78d00deb7e7767
lastState: {}
name: nginx
ready: true
restartCount: 0
started: true
state:
running:
startedAt: "2022-02-17T21:51:05Z"
hostIP: 192.168.0.113
phase: Running
podIP: 10.88.0.3
podIPs:
- ip: 10.88.0.3
- ip: 2001:db8::1
qosClass: Guaranteed
startTime: "2022-02-17T21:51:01Z"
查看 Pod 日志
首先,查看受影响容器的日志
kubectl logs ${POD_NAME} ${CONTAINER_NAME}
如果你的容器之前崩溃过,你可以使用以下命令访问前一个容器的崩溃日志
kubectl logs --previous ${POD_NAME} ${CONTAINER_NAME}
使用容器 exec 进行调试
如果容器镜像包含调试工具(例如基于 Linux 和 Windows OS 基础镜像构建的镜像),你可以使用 kubectl exec
在特定容器内部运行命令
kubectl exec ${POD_NAME} -c ${CONTAINER_NAME} -- ${CMD} ${ARG1} ${ARG2} ... ${ARGN}
注意
-c ${CONTAINER_NAME}
是可选的。对于只包含单个容器的 Pod,你可以省略它。例如,要查看正在运行的 Cassandra Pod 的日志,你可以运行
kubectl exec cassandra -- cat /var/log/cassandra/system.log
你可以使用 kubectl exec
的 -i
和 -t
参数运行连接到你的终端的 Shell,例如
kubectl exec -it cassandra -- sh
更多详情请参见获取运行中容器的 Shell。
使用临时调试容器进行调试
Kubernetes v1.25 [stable]
当 kubectl exec
不足时(例如容器崩溃或容器镜像不包含调试工具,如 distroless 镜像),临时容器对于交互式故障排除非常有用。
使用临时容器进行调试的示例
你可以使用 kubectl debug
命令向运行中的 Pod 添加临时容器。首先,为示例创建一个 Pod
kubectl run ephemeral-demo --image=registry.k8s.io/pause:3.1 --restart=Never
本节中的示例使用 pause
容器镜像,因为它不包含调试工具,但此方法适用于所有容器镜像。
如果你尝试使用 kubectl exec
创建 Shell,你将看到错误,因为此容器镜像中没有 Shell。
kubectl exec -it ephemeral-demo -- sh
OCI runtime exec failed: exec failed: container_linux.go:346: starting container process caused "exec: \"sh\": executable file not found in $PATH": unknown
你可以改用 kubectl debug
添加调试容器。如果指定 -i
/--interactive
参数,kubectl
将自动连接到临时容器的控制台。
kubectl debug -it ephemeral-demo --image=busybox:1.28 --target=ephemeral-demo
Defaulting debug container name to debugger-8xzrl.
If you don't see a command prompt, try pressing enter.
/ #
此命令会添加一个新的 busybox 容器并连接到它。--target
参数指定另一个容器的进程命名空间。在此处这是必要的,因为 kubectl run
在其创建的 Pod 中未启用进程命名空间共享。
你可以使用 kubectl describe
查看新创建的临时容器的状态
kubectl describe pod ephemeral-demo
...
Ephemeral Containers:
debugger-8xzrl:
Container ID: docker://b888f9adfd15bd5739fefaa39e1df4dd3c617b9902082b1cfdc29c4028ffb2eb
Image: busybox
Image ID: docker-pullable://busybox@sha256:1828edd60c5efd34b2bf5dd3282ec0cc04d47b2ff9caa0b6d4f07a21d1c08084
Port: <none>
Host Port: <none>
State: Running
Started: Wed, 12 Feb 2020 14:25:42 +0100
Ready: False
Restart Count: 0
Environment: <none>
Mounts: <none>
...
完成后使用 kubectl delete
移除 Pod
kubectl delete pod ephemeral-demo
使用 Pod 副本进行调试
有时 Pod 的配置选项会使得在某些情况下难以进行故障排除。例如,如果你的容器镜像不包含 Shell 或者你的应用在启动时崩溃,你就无法运行 kubectl exec
来调试你的容器。在这些情况下,你可以使用 kubectl debug
创建 Pod 的副本,并更改配置值以辅助调试。
复制 Pod 并同时添加新容器
当你的应用正在运行但行为与你预期不符,并且你想向 Pod 添加额外的故障排除工具时,添加新容器会很有用。
例如,你的应用的容器镜像可能基于 busybox
构建,但你需要 busybox
中不包含的调试工具。你可以使用 kubectl run
模拟这种情况
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
运行此命令创建 myapp
的副本,命名为 myapp-debug
,并添加一个新的 Ubuntu 容器用于调试
kubectl debug myapp -it --image=ubuntu --share-processes --copy-to=myapp-debug
Defaulting debug container name to debugger-w7xmf.
If you don't see a command prompt, try pressing enter.
root@myapp-debug:/#
注意
- 如果你没有使用
--container
标志选择容器名称,kubectl debug
会自动生成一个。 -i
标志会导致kubectl debug
默认连接到新容器。你可以通过指定--attach=false
来阻止此行为。如果你的会话断开连接,你可以使用kubectl attach
重新连接。--share-processes
允许此 Pod 中的容器查看 Pod 中其他容器的进程。有关其工作原理的更多信息,请参见在 Pod 中的容器之间共享进程命名空间。
完成后,不要忘记清理调试 Pod
kubectl delete pod myapp myapp-debug
复制 Pod 并同时更改其命令
有时更改容器的命令很有用,例如添加调试标志或因为应用程序正在崩溃。
为了模拟一个崩溃的应用程序,使用 kubectl run
创建一个会立即退出的容器
kubectl run --image=busybox:1.28 myapp -- false
使用 kubectl describe pod myapp
,你可以看到此容器正在崩溃
Containers:
myapp:
Image: busybox
...
Args:
false
State: Waiting
Reason: CrashLoopBackOff
Last State: Terminated
Reason: Error
Exit Code: 1
你可以使用 kubectl debug
创建此 Pod 的副本,并将命令更改为交互式 Shell
kubectl debug myapp -it --copy-to=myapp-debug --container=myapp -- sh
If you don't see a command prompt, try pressing enter.
/ #
现在你拥有一个交互式 Shell,你可以用它来执行检查文件系统路径或手动运行容器命令等任务。
注意
- 要更改特定容器的命令,你必须使用
--container
指定其名称,否则kubectl debug
将会创建一个新容器来运行你指定的命令。 -i
标志会导致kubectl debug
默认连接到容器。你可以通过指定--attach=false
来阻止此行为。如果你的会话断开连接,你可以使用kubectl attach
重新连接。
完成后,不要忘记清理调试 Pod
kubectl delete pod myapp myapp-debug
复制 Pod 并同时更改容器镜像
在某些情况下,你可能想将一个行为异常的 Pod 的普通生产容器镜像更改为包含调试构建或额外工具的镜像。
作为示例,使用 kubectl run
创建一个 Pod
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
现在使用 kubectl debug
创建一个副本并将其容器镜像更改为 ubuntu
kubectl debug myapp --copy-to=myapp-debug --set-image=*=ubuntu
--set-image
的语法与 kubectl set image
使用相同的 container_name=image
语法。*=ubuntu
表示将所有容器的镜像更改为 ubuntu
。
完成后,不要忘记清理调试 Pod
kubectl delete pod myapp myapp-debug
通过节点上的 Shell 进行调试
如果这些方法都不起作用,你可以找到 Pod 正在运行的节点,并在该节点上创建一个运行中的 Pod。要使用 kubectl debug
在节点上创建交互式 Shell,运行
kubectl debug node/mynode -it --image=ubuntu
Creating debugging pod node-debugger-mynode-pdx84 with container debugger on node mynode.
If you don't see a command prompt, try pressing enter.
root@ek8s:/#
在节点上创建调试会话时,请记住
kubectl debug
会根据节点名称自动生成新 Pod 的名称。- 节点的根文件系统将挂载到
/host
。 - 容器在主机的 IPC、网络和 PID 命名空间中运行,但 Pod 没有特权,因此读取某些进程信息可能会失败,并且
chroot /host
也可能失败。 - 如果你需要一个特权 Pod,请手动创建它或使用
--profile=sysadmin
标志。
完成后,不要忘记清理调试 Pod
kubectl delete pod node-debugger-mynode-pdx84
调试 Pod 或节点时应用配置文件
使用 kubectl debug
通过调试 Pod 调试节点、通过临时容器调试 Pod 或调试复制的 Pod 时,你可以为它们应用配置文件(profile)。通过应用配置文件,可以设置特定的属性,例如 securityContext,以适应各种场景。配置文件有两种类型:静态配置文件和自定义配置文件。
应用静态配置文件
静态配置文件是一组预定义的属性,你可以使用 --profile
标志应用它们。可用配置文件如下
配置文件 | 描述 |
---|---|
legacy | 与 1.22 版本行为向后兼容的一组属性 |
general | 适用于各种调试场景的一组合理的通用属性 |
baseline | 与 PodSecurityStandard baseline 策略兼容的一组属性 |
restricted | 与 PodSecurityStandard restricted 策略兼容的一组属性 |
netadmin | 包含网络管理员权限的一组属性 |
sysadmin | 包含系统管理员 (root) 权限的一组属性 |
注意
如果你不指定--profile
,默认使用 legacy
配置文件,但计划在近期弃用它。因此建议使用其他配置文件,例如 general
。假设你创建了一个 Pod 并对其进行调试。首先,创建一个名为 myapp
的 Pod 作为示例
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
然后,使用临时容器调试 Pod。如果临时容器需要具有特权,你可以使用 sysadmin
配置文件
kubectl debug -it myapp --image=busybox:1.28 --target=myapp --profile=sysadmin
Targeting container "myapp". If you don't see processes from this container it may be because the container runtime doesn't support this feature.
Defaulting debug container name to debugger-6kg4x.
If you don't see a command prompt, try pressing enter.
/ #
通过在容器内部运行以下命令来检查临时容器进程的能力
/ # grep Cap /proc/$$/status
...
CapPrm: 000001ffffffffff
CapEff: 000001ffffffffff
...
这意味着通过应用 sysadmin
配置文件,容器进程获得了作为特权容器的全部能力。有关能力的更多详细信息,请参阅。
你还可以检查临时容器是否作为特权容器创建
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].securityContext}'
{"privileged":true}
完成后清理 Pod
kubectl delete pod myapp
应用自定义配置文件
Kubernetes v1.32 [stable]
你可以将用于调试的部分容器 Spec 定义为 YAML 或 JSON 格式的自定义配置文件,并使用 --custom
标志应用它。
注意
自定义配置文件仅支持修改容器 Spec,但容器 Spec 的name
、image
、command
、lifecycle
和 volumeDevices
字段不允许修改。它不支持修改 Pod Spec。创建一个名为 myapp 的 Pod 作为示例
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
创建 YAML 或 JSON 格式的自定义配置文件。这里,创建一个名为 custom-profile.yaml
的 YAML 格式文件
env:
- name: ENV_VAR_1
value: value_1
- name: ENV_VAR_2
value: value_2
securityContext:
capabilities:
add:
- NET_ADMIN
- SYS_TIME
运行此命令,使用带有自定义配置文件的临时容器调试 Pod
kubectl debug -it myapp --image=busybox:1.28 --target=myapp --profile=general --custom=custom-profile.yaml
你可以检查临时容器是否已添加到目标 Pod 并应用了自定义配置文件
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].env}'
[{"name":"ENV_VAR_1","value":"value_1"},{"name":"ENV_VAR_2","value":"value_2"}]
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].securityContext}'
{"capabilities":{"add":["NET_ADMIN","SYS_TIME"]}}
完成后清理 Pod
kubectl delete pod myapp