本页面介绍了如何调试在节点上运行(或崩溃)的 Pod。
kubectl 的标准调试步骤则不需要该权限。kubectl describe pod 获取 Pod 详情在本示例中,我们将使用 Deployment 创建两个 Pod,类似于之前的示例。
apiVersion: apps/v1
kind: Deployment
metadata:
name: nginx-deployment
spec:
selector:
matchLabels:
app: nginx
replicas: 2
template:
metadata:
labels:
app: nginx
spec:
containers:
- name: nginx
image: nginx
resources:
limits:
memory: "128Mi"
cpu: "500m"
ports:
- containerPort: 80
通过运行以下命令创建 Deployment
kubectl apply -f https://k8s.io/examples/application/nginx-with-request.yaml
deployment.apps/nginx-deployment created
通过以下命令检查 Pod 状态
kubectl get pods
NAME READY STATUS RESTARTS AGE
nginx-deployment-67d4bdd6f5-cx2nz 1/1 Running 0 13s
nginx-deployment-67d4bdd6f5-w6kd7 1/1 Running 0 13s
我们可以使用 kubectl describe pod 获取关于这些 Pod 的更多信息。例如:
kubectl describe pod nginx-deployment-67d4bdd6f5-w6kd7
Name: nginx-deployment-67d4bdd6f5-w6kd7
Namespace: default
Priority: 0
Node: kube-worker-1/192.168.0.113
Start Time: Thu, 17 Feb 2022 16:51:01 -0500
Labels: app=nginx
pod-template-hash=67d4bdd6f5
Annotations: <none>
Status: Running
IP: 10.88.0.3
IPs:
IP: 10.88.0.3
IP: 2001:db8::1
Controlled By: ReplicaSet/nginx-deployment-67d4bdd6f5
Containers:
nginx:
Container ID: containerd://5403af59a2b46ee5a23fb0ae4b1e077f7ca5c5fb7af16e1ab21c00e0e616462a
Image: nginx
Image ID: docker.io/library/nginx@sha256:2834dc507516af02784808c5f48b7cbe38b8ed5d0f4837f16e78d00deb7e7767
Port: 80/TCP
Host Port: 0/TCP
State: Running
Started: Thu, 17 Feb 2022 16:51:05 -0500
Ready: True
Restart Count: 0
Limits:
cpu: 500m
memory: 128Mi
Requests:
cpu: 500m
memory: 128Mi
Environment: <none>
Mounts:
/var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-bgsgp (ro)
Conditions:
Type Status
Initialized True
Ready True
ContainersReady True
PodScheduled True
Volumes:
kube-api-access-bgsgp:
Type: Projected (a volume that contains injected data from multiple sources)
TokenExpirationSeconds: 3607
ConfigMapName: kube-root-ca.crt
ConfigMapOptional: <nil>
DownwardAPI: true
QoS Class: Guaranteed
Node-Selectors: <none>
Tolerations: node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 34s default-scheduler Successfully assigned default/nginx-deployment-67d4bdd6f5-w6kd7 to kube-worker-1
Normal Pulling 31s kubelet Pulling image "nginx"
Normal Pulled 30s kubelet Successfully pulled image "nginx" in 1.146417389s
Normal Created 30s kubelet Created container nginx
Normal Started 30s kubelet Started container nginx
在这里,你可以看到有关容器和 Pod 的配置信息(标签、资源需求等),以及关于容器和 Pod 的状态信息(状态、就绪情况、重启次数、事件等)。
容器状态为 Waiting(等待中)、Running(运行中)或 Terminated(已终止)。根据状态的不同,会提供额外的信息——在这里你可以看到,对于处于 Running 状态的容器,系统会告诉你容器何时启动。
Ready(就绪)告诉你容器是否通过了最近一次就绪探针检查。(在此示例中,未配置就绪探针;如果未配置就绪探针,则默认容器为就绪状态。)
Restart Count(重启次数)告诉你容器被重启了多少次;此信息对于检测重启策略设置为 Always 的容器中的崩溃循环非常有用。
目前与 Pod 关联的唯一条件是二元的 Ready 条件,它表示 Pod 能够处理请求,并应被添加到所有匹配的 Service 的负载均衡池中。
最后,你会看到与你的 Pod 相关的近期事件日志。“From”表示记录该事件的组件。“Reason”和“Message”告诉你发生了什么。
一个常见的可以通过事件检测到的场景是,你创建了一个无法适配到任何节点上的 Pod。例如,Pod 请求的资源可能超过了任何节点上的空闲资源,或者它指定的标签选择器无法匹配任何节点。假设我们在一个四节点集群中,每个(虚拟)机有 1 个 CPU,使用 5 个副本(而不是 2 个)创建了之前的 Deployment,并请求 600 毫核(而不是 500)。在这种情况下,其中一个 Pod 将无法调度。(注意:由于每个节点上运行的集群插件 Pod,如 fluentd、skydns 等,如果我们请求 1000 毫核,那么所有 Pod 都将无法调度。)
kubectl get pods
NAME READY STATUS RESTARTS AGE
nginx-deployment-1006230814-6winp 1/1 Running 0 7m
nginx-deployment-1006230814-fmgu3 1/1 Running 0 7m
nginx-deployment-1370807587-6ekbw 1/1 Running 0 1m
nginx-deployment-1370807587-fg172 0/1 Pending 0 1m
nginx-deployment-1370807587-fz9sd 0/1 Pending 0 1m
为了找出 nginx-deployment-1370807587-fz9sd pod 为何没有运行,我们可以在该 Pending 的 Pod 上使用 kubectl describe pod 并查看其事件:
kubectl describe pod nginx-deployment-1370807587-fz9sd
Name: nginx-deployment-1370807587-fz9sd
Namespace: default
Node: /
Labels: app=nginx,pod-template-hash=1370807587
Status: Pending
IP:
Controllers: ReplicaSet/nginx-deployment-1370807587
Containers:
nginx:
Image: nginx
Port: 80/TCP
QoS Tier:
memory: Guaranteed
cpu: Guaranteed
Limits:
cpu: 1
memory: 128Mi
Requests:
cpu: 1
memory: 128Mi
Environment Variables:
Volumes:
default-token-4bcbi:
Type: Secret (a volume populated by a Secret)
SecretName: default-token-4bcbi
Events:
FirstSeen LastSeen Count From SubobjectPath Type Reason Message
--------- -------- ----- ---- ------------- -------- ------ -------
1m 48s 7 {default-scheduler } Warning FailedScheduling pod (nginx-deployment-1370807587-fz9sd) failed to fit in any node
fit failure on node (kubernetes-node-6ta5): Node didn't have enough resource: CPU, requested: 1000, used: 1420, capacity: 2000
fit failure on node (kubernetes-node-wul5): Node didn't have enough resource: CPU, requested: 1000, used: 1100, capacity: 2000
在这里你可以看到调度器生成的事件,称该 Pod 因 FailedScheduling(以及可能的其他原因)未能调度。消息告诉我们,没有任何节点上有足够的资源满足该 Pod。
要纠正这种情况,你可以使用 kubectl scale 更新你的 Deployment,指定四个或更少的副本。(或者你可以让那个 Pod 保持 Pending 状态,这通常是无害的。)
诸如在 kubectl describe pod 末尾看到的事件是持久化存储在 etcd 中的,并提供了集群中正在发生事情的高级信息。要列出所有事件,你可以使用:
kubectl get events
但请记住,事件是命名空间隔离的。这意味着如果你对某个命名空间对象感兴趣(例如,my-namespace 命名空间中 Pod 的情况),你需要明确地向命令提供命名空间:
kubectl get events --namespace=my-namespace
要查看所有命名空间的事件,你可以使用 --all-namespaces 参数。
除了 kubectl describe pod,获取 Pod 额外信息(超出 kubectl get pod 所提供信息)的另一种方法是向 kubectl get pod 传递 -o yaml 输出格式标志。这将以 YAML 格式为你提供比 kubectl describe pod 更多的信息——基本上是系统拥有的关于该 Pod 的所有信息。在这里,你会看到诸如注解(这是没有标签限制的键值元数据,被 Kubernetes 系统组件内部使用)、重启策略、端口和卷等内容。
kubectl get pod nginx-deployment-1006230814-6winp -o yaml
apiVersion: v1
kind: Pod
metadata:
creationTimestamp: "2022-02-17T21:51:01Z"
generateName: nginx-deployment-67d4bdd6f5-
labels:
app: nginx
pod-template-hash: 67d4bdd6f5
name: nginx-deployment-67d4bdd6f5-w6kd7
namespace: default
ownerReferences:
- apiVersion: apps/v1
blockOwnerDeletion: true
controller: true
kind: ReplicaSet
name: nginx-deployment-67d4bdd6f5
uid: 7d41dfd4-84c0-4be4-88ab-cedbe626ad82
resourceVersion: "1364"
uid: a6501da1-0447-4262-98eb-c03d4002222e
spec:
containers:
- image: nginx
imagePullPolicy: Always
name: nginx
ports:
- containerPort: 80
protocol: TCP
resources:
limits:
cpu: 500m
memory: 128Mi
requests:
cpu: 500m
memory: 128Mi
terminationMessagePath: /dev/termination-log
terminationMessagePolicy: File
volumeMounts:
- mountPath: /var/run/secrets/kubernetes.io/serviceaccount
name: kube-api-access-bgsgp
readOnly: true
dnsPolicy: ClusterFirst
enableServiceLinks: true
nodeName: kube-worker-1
preemptionPolicy: PreemptLowerPriority
priority: 0
restartPolicy: Always
schedulerName: default-scheduler
securityContext: {}
serviceAccount: default
serviceAccountName: default
terminationGracePeriodSeconds: 30
tolerations:
- effect: NoExecute
key: node.kubernetes.io/not-ready
operator: Exists
tolerationSeconds: 300
- effect: NoExecute
key: node.kubernetes.io/unreachable
operator: Exists
tolerationSeconds: 300
volumes:
- name: kube-api-access-bgsgp
projected:
defaultMode: 420
sources:
- serviceAccountToken:
expirationSeconds: 3607
path: token
- configMap:
items:
- key: ca.crt
path: ca.crt
name: kube-root-ca.crt
- downwardAPI:
items:
- fieldRef:
apiVersion: v1
fieldPath: metadata.namespace
path: namespace
status:
conditions:
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:01Z"
status: "True"
type: Initialized
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:06Z"
status: "True"
type: Ready
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:06Z"
status: "True"
type: ContainersReady
- lastProbeTime: null
lastTransitionTime: "2022-02-17T21:51:01Z"
status: "True"
type: PodScheduled
containerStatuses:
- containerID: containerd://5403af59a2b46ee5a23fb0ae4b1e077f7ca5c5fb7af16e1ab21c00e0e616462a
image: docker.io/library/nginx:latest
imageID: docker.io/library/nginx@sha256:2834dc507516af02784808c5f48b7cbe38b8ed5d0f4837f16e78d00deb7e7767
lastState: {}
name: nginx
ready: true
restartCount: 0
started: true
state:
running:
startedAt: "2022-02-17T21:51:05Z"
hostIP: 192.168.0.113
phase: Running
podIP: 10.88.0.3
podIPs:
- ip: 10.88.0.3
- ip: 2001:db8::1
qosClass: Guaranteed
startTime: "2022-02-17T21:51:01Z"
首先,查看受影响容器的日志:
kubectl logs ${POD_NAME} -c ${CONTAINER_NAME}
如果你的容器之前崩溃过,你可以使用以下命令访问先前容器的崩溃日志:
kubectl logs ${POD_NAME} -c ${CONTAINER_NAME} --previous
如果容器镜像包含调试工具(如基于 Linux 和 Windows OS 基础镜像构建的镜像),你可以使用 kubectl exec 在特定容器内运行命令:
kubectl exec ${POD_NAME} -c ${CONTAINER_NAME} -- ${CMD} ${ARG1} ${ARG2} ... ${ARGN}
-c ${CONTAINER_NAME} 是可选的。对于仅包含单个容器的 Pod,你可以省略它。例如,要查看正在运行的 Cassandra Pod 的日志,你可以运行:
kubectl exec cassandra -- cat /var/log/cassandra/system.log
你可以使用 kubectl exec 的 -i 和 -t 参数运行连接到终端的 Shell,例如:
kubectl exec -it cassandra -- sh
有关更多详细信息,请参阅 获取正在运行的容器的 Shell。
Kubernetes v1.25 [稳定]临时容器(Ephemeral containers)对于交互式故障排查非常有用,尤其是在 kubectl exec 不够用时,例如当容器已崩溃或容器镜像中不包含调试工具时(如 distroless 镜像)。
你可以使用 kubectl debug 命令将临时容器添加到正在运行的 Pod 中。首先,创建一个示例 Pod:
kubectl run ephemeral-demo --image=registry.k8s.io/pause:3.1 --restart=Never
本节中的示例使用 pause 容器镜像,因为它不包含调试工具,但此方法适用于所有容器镜像。
如果你尝试使用 kubectl exec 创建 Shell,由于该容器镜像中没有 Shell,你将会看到错误。
kubectl exec -it ephemeral-demo -- sh
OCI runtime exec failed: exec failed: container_linux.go:346: starting container process caused "exec: \"sh\": executable file not found in $PATH": unknown
你可以改用 kubectl debug 添加一个调试容器。如果指定 -i/--interactive 参数,kubectl 将自动附加到临时容器的控制台。
kubectl debug -it ephemeral-demo --image=busybox:1.28 --target=ephemeral-demo
Defaulting debug container name to debugger-8xzrl.
If you don't see a command prompt, try pressing enter.
/ #
此命令添加一个新的 busybox 容器并附加到它。--target 参数指定了另一个容器的进程命名空间。在这里这样做是必要的,因为 kubectl run 在其创建的 Pod 中并未启用进程命名空间共享。
你可以使用 kubectl describe 查看新创建的临时容器的状态:
kubectl describe pod ephemeral-demo
...
Ephemeral Containers:
debugger-8xzrl:
Container ID: docker://b888f9adfd15bd5739fefaa39e1df4dd3c617b9902082b1cfdc29c4028ffb2eb
Image: busybox
Image ID: docker-pullable://busybox@sha256:1828edd60c5efd34b2bf5dd3282ec0cc04d47b2ff9caa0b6d4f07a21d1c08084
Port: <none>
Host Port: <none>
State: Running
Started: Wed, 12 Feb 2020 14:25:42 +0100
Ready: False
Restart Count: 0
Environment: <none>
Mounts: <none>
...
完成工作后,使用 kubectl delete 删除该 Pod:
kubectl delete pod ephemeral-demo
有时,Pod 的配置选项使得在某些情况下难以进行故障排查。例如,如果你的容器镜像不包含 Shell,或者你的应用程序在启动时崩溃,你就无法运行 kubectl exec 来调试容器。在这些情况下,你可以使用 kubectl debug 创建一个 Pod 的副本,并修改其中的配置值以辅助调试。
当应用程序正在运行但表现不符合预期,且你希望向 Pod 添加额外的故障排查工具时,添加新容器非常有用。
例如,也许你的应用程序容器镜像基于 busybox,但你需要 busybox 中未包含的调试工具。你可以使用 kubectl run 模拟此场景:
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
运行此命令,创建一个名为 myapp-debug 的 myapp 副本,并添加一个用于调试的 Ubuntu 容器:
kubectl debug myapp -it --image=ubuntu --share-processes --copy-to=myapp-debug
Defaulting debug container name to debugger-w7xmf.
If you don't see a command prompt, try pressing enter.
root@myapp-debug:/#
--container 标志选择容器名称,kubectl debug 会自动生成一个容器名称。-i 标志使 kubectl debug 默认附加到新容器。你可以通过指定 --attach=false 来防止此行为。如果你的会话断开了,你可以使用 kubectl attach 重新连接。--share-processes 允许此 Pod 中的容器查看 Pod 中其他容器的进程。有关其工作原理的更多信息,请参阅 在 Pod 中的容器之间共享进程命名空间。完成调试 Pod 后,别忘了清理它:
kubectl delete pod myapp myapp-debug
有时,更改容器的命令很有用,例如添加调试标志,或者因为应用程序正在崩溃。
要模拟一个正在崩溃的应用程序,请使用 kubectl run 创建一个立即退出的容器:
kubectl run --image=busybox:1.28 myapp -- false
你可以通过 kubectl describe pod myapp 看到此容器正在崩溃:
Containers:
myapp:
Image: busybox
...
Args:
false
State: Waiting
Reason: CrashLoopBackOff
Last State: Terminated
Reason: Error
Exit Code: 1
你可以使用 kubectl debug 创建该 Pod 的副本,并将命令更改为交互式 Shell:
kubectl debug myapp -it --copy-to=myapp-debug --container=myapp -- sh
If you don't see a command prompt, try pressing enter.
/ #
现在你拥有一个交互式 Shell,可以用来执行检查文件系统路径或手动运行容器命令等任务。
--container 指定其名称,否则 kubectl debug 将创建一个新容器来运行你指定的命令。-i 标志使 kubectl debug 默认附加到容器。你可以通过指定 --attach=false 来防止此行为。如果你的会话断开了,你可以使用 kubectl attach 重新连接。完成调试 Pod 后,别忘了清理它:
kubectl delete pod myapp myapp-debug
在某些情况下,你可能希望将运行异常的 Pod 从其正常的生产容器镜像切换为包含调试构建或额外工具的镜像。
作为示例,使用 kubectl run 创建一个 Pod:
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
现在使用 kubectl debug 创建一个副本,并将其容器镜像更改为 ubuntu:
kubectl debug myapp --copy-to=myapp-debug --set-image=*=ubuntu
--set-image 的语法与 kubectl set image 使用相同的 container_name=image 语法。*=ubuntu 表示将所有容器的镜像更改为 ubuntu。
完成调试 Pod 后,别忘了清理它:
kubectl delete pod myapp myapp-debug
如果这些方法都不起作用,你可以找到运行 Pod 的节点,并在该节点上创建一个运行中的 Pod。要使用 kubectl debug 在节点上创建交互式 Shell,请运行:
kubectl debug node/mynode -it --image=ubuntu
Creating debugging pod node-debugger-mynode-pdx84 with container debugger on node mynode.
If you don't see a command prompt, try pressing enter.
root@ek8s:/#
在节点上创建调试会话时,请注意:
kubectl debug 会根据节点名称自动生成新 Pod 的名称。/host 处。chroot /host 也可能会失败。--profile=sysadmin 标志。完成调试 Pod 后,别忘了清理它:
kubectl delete pod node-debugger-mynode-pdx84
在调试网络问题时,捕获并分析来自节点/Pod 的网络流量可以提供对连接问题、DNS 解析失败或意外网络行为的宝贵见解。
你可以使用带有 --profile=sysadmin 标志的 kubectl debug 在节点上运行网络捕获工具。首先,在运行 Pod 的节点上创建调试会话:
kubectl debug --profile=sysadmin node/${NODE_NAME} -it --image=ubuntu:latest
进入调试容器后,安装 tcpdump 并在节点的网络接口上捕获流量:
apt-get update && apt-get install -y tcpdump
tcpdump -i any -n
完成调试 Pod 后,别忘了清理它:
kubectl delete pod node-debugger-mynode-pdx84
你也可以捕获来自特定 Pod 的流量:
kubectl debug --profile=sysadmin pod/${POD_NAME} -n ${NAMESPACE} -it --image=ubuntu:latest
然后在调试容器内执行相同的 tcpdump 命令,以捕获来自 Pod 网络命名空间的流量。
当使用 kubectl debug 通过调试 Pod 调试节点、通过临时容器调试 Pod 或通过复制的 Pod 进行调试时,你可以应用方案(Profile)。通过应用方案,可以设置特定的属性(例如 securityContext),从而适应各种场景。方案有两种类型:静态方案和自定义方案。
静态方案是一组预定义的属性,你可以使用 --profile 标志应用它们。可用的方案如下:
| 方案 | 描述 |
|---|---|
| legacy | 一组与 1.22 版本行为向后兼容的属性 |
| general | 针对每种调试旅程的一组合理的通用属性 |
| baseline | 一组与 Pod 安全标准基准策略兼容的属性 |
| restricted | 一组与 Pod 安全标准限制策略兼容的属性 |
| netadmin | 一组包含网络管理员权限的属性 |
| sysadmin | 一组包含系统管理员(root)权限的属性 |
--profile,默认使用 legacy 方案,但计划在不久的将来废弃它。因此,建议使用 general 等其他方案。假设你创建了一个 Pod 并对其进行调试。首先,创建一个名为 myapp 的 Pod 作为示例:
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
然后,使用临时容器调试该 Pod。如果临时容器需要权限,你可以使用 sysadmin 方案:
kubectl debug -it myapp --image=busybox:1.28 --target=myapp --profile=sysadmin
Targeting container "myapp". If you don't see processes from this container it may be because the container runtime doesn't support this feature.
Defaulting debug container name to debugger-6kg4x.
If you don't see a command prompt, try pressing enter.
/ #
通过在容器内运行以下命令,检查临时容器进程的能力(Capabilities):
/ # grep Cap /proc/$$/status
...
CapPrm: 000001ffffffffff
CapEff: 000001ffffffffff
...
这意味着通过应用 sysadmin 方案,容器进程被授予了作为特权容器的全部能力。查看关于能力的更多详细信息。
你还可以检查临时容器是否作为特权容器被创建:
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].securityContext}'
{"privileged":true}
完成工作后,清理该 Pod:
kubectl delete pod myapp
Kubernetes v1.32 [稳定]你可以将部分容器规格定义为自定义方案(以 YAML 或 JSON 格式),并使用 --custom 标志应用它。
name、image、command、lifecycle 和 volumeDevices 字段。它不支持修改 Pod 规格。创建名为 myapp 的 Pod 作为示例:
kubectl run myapp --image=busybox:1.28 --restart=Never -- sleep 1d
以 YAML 或 JSON 格式创建自定义方案。这里,创建一个名为 custom-profile.yaml 的 YAML 格式文件:
env:
- name: ENV_VAR_1
value: value_1
- name: ENV_VAR_2
value: value_2
securityContext:
capabilities:
add:
- NET_ADMIN
- SYS_TIME
运行此命令,使用应用了自定义方案的临时容器来调试 Pod:
kubectl debug -it myapp --image=busybox:1.28 --target=myapp --profile=general --custom=custom-profile.yaml
你可以检查临时容器是否已添加到目标 Pod 中,且已应用自定义方案:
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].env}'
[{"name":"ENV_VAR_1","value":"value_1"},{"name":"ENV_VAR_2","value":"value_2"}]
kubectl get pod myapp -o jsonpath='{.spec.ephemeralContainers[0].securityContext}'
{"capabilities":{"add":["NET_ADMIN","SYS_TIME"]}}
完成工作后,清理该 Pod:
kubectl delete pod myapp