在 Kubernetes 集群中使用 NodeLocal DNSCache

功能状态: Kubernetes v1.18 [稳定]

此页面提供了 Kubernetes 中 NodeLocal DNSCache 功能的概述。

开始之前

您需要一个 Kubernetes 集群,并且 kubectl 命令行工具必须配置为与您的集群通信。建议在至少有两个节点(不充当控制平面主机)的集群上运行此教程。如果您还没有集群,可以使用 minikube 或使用以下 Kubernetes 游乐场之一创建集群

要检查版本,请输入 kubectl version

引言

NodeLocal DNSCache 通过在集群节点上以 DaemonSet 运行 DNS 缓存代理来提高集群 DNS 性能。在今天的架构中,处于“ClusterFirst”DNS 模式的 Pod 会访问 kube-dns serviceIP 以进行 DNS 查询。这通过 kube-proxy 添加的 iptables 规则转换为 kube-dns/CoreDNS 端点。使用这种新的架构,Pod 将访问与同一节点上运行的 DNS 缓存代理,从而避免 iptables DNAT 规则和连接跟踪。本地缓存代理将为集群主机名(默认后缀为“cluster.local”)的缓存缺失查询 kube-dns 服务。

动机

  • 使用当前的 DNS 架构,如果本地 kube-dns/CoreDNS 实例不存在,则具有最高 DNS QPS 的 Pod 可能会访问不同的节点。拥有本地缓存将有助于提高这种情况下延迟。

  • 跳过 iptables DNAT 和连接跟踪将有助于减少 conntrack 竞争 并避免 UDP DNS 条目填满 conntrack 表。

  • 从本地缓存代理到 kube-dns 服务的连接可以升级到 TCP。TCP conntrack 条目将在连接关闭时删除,与必须超时的 UDP 条目相反(默认 nf_conntrack_udp_timeout 为 30 秒)

  • 将 DNS 查询从 UDP 升级到 TCP 将减少归因于丢弃的 UDP 数据包和 DNS 超时的尾部延迟,通常长达 30 秒(3 次重试 + 10 秒超时)。由于 nodelocal 缓存侦听 UDP DNS 查询,因此应用程序无需更改。

  • 节点级别 DNS 请求的指标和可见性。

  • 可以重新启用负缓存,从而减少对 kube-dns 服务的查询次数。

架构图

启用 NodeLocal DNSCache 后 DNS 查询遵循的路径

NodeLocal DNSCache flow

Nodelocal DNSCache 流程

此图像显示了 NodeLocal DNSCache 如何处理 DNS 查询。

配置

可以使用以下步骤启用此功能

  • 准备类似于示例 nodelocaldns.yaml 的清单并将其保存为 nodelocaldns.yaml

  • 如果使用 IPv6,CoreDNS 配置文件需要将所有 IPv6 地址括在方括号中,如果以“IP:Port”格式使用。如果您使用的是上一点中的示例清单,这将需要您修改 配置行 L70,如下所示:“health [__PILLAR__LOCAL__DNS__]:8080

  • 用正确的值替换清单中的变量

    kubedns=`kubectl get svc kube-dns -n kube-system -o jsonpath={.spec.clusterIP}`
    domain=<cluster-domain>
    localdns=<node-local-address>
    

    <cluster-domain> 默认情况下为“cluster.local”。 <node-local-address> 是为 NodeLocal DNSCache 选择的本地侦听 IP 地址。

    • 如果 kube-proxy 正在 IPTABLES 模式下运行

      sed -i "s/__PILLAR__LOCAL__DNS__/$localdns/g; s/__PILLAR__DNS__DOMAIN__/$domain/g; s/__PILLAR__DNS__SERVER__/$kubedns/g" nodelocaldns.yaml
      

      __PILLAR__CLUSTER__DNS____PILLAR__UPSTREAM__SERVERS__ 将由 node-local-dns Pod 填充。在这种模式下,node-local-dns Pod 侦听 kube-dns 服务 IP 以及 <node-local-address>,因此 Pod 可以使用任一 IP 地址查找 DNS 记录。

    • 如果 kube-proxy 正在 IPVS 模式下运行

      sed -i "s/__PILLAR__LOCAL__DNS__/$localdns/g; s/__PILLAR__DNS__DOMAIN__/$domain/g; s/,__PILLAR__DNS__SERVER__//g; s/__PILLAR__CLUSTER__DNS__/$kubedns/g" nodelocaldns.yaml
      

      在这种模式下,node-local-dns Pod 仅侦听 <node-local-address>node-local-dns 接口无法绑定 kube-dns 集群 IP,因为用于 IPVS 负载均衡的接口已经使用此地址。 __PILLAR__UPSTREAM__SERVERS__ 将由 node-local-dns Pod 填充。

  • 运行 kubectl create -f nodelocaldns.yaml

  • 如果使用 IPVS 模式下的 kube-proxy,需要修改传递给 kubelet 的 --cluster-dns 标志以使用 NodeLocal DNSCache 正在侦听的 <node-local-address>。否则,无需修改 --cluster-dns 标志的值,因为 NodeLocal DNSCache 侦听 kube-dns 服务 IP 以及 <node-local-address>

启用后,node-local-dns Pod 将在集群的每个节点上的 kube-system 命名空间中运行。此 Pod 以缓存模式运行 CoreDNS,因此 CoreDNS 通过不同插件暴露的所有指标都将在每个节点的基础上可用。

可以通过删除 DaemonSet(使用 kubectl delete -f <manifest>)来禁用此功能。您还应还原对 kubelet 配置所做的任何更改。

StubDomains 和上游服务器配置

node-local-dns Pod 会自动获取 kube-system 命名空间中 kube-dns ConfigMap 中指定的 StubDomains 和上游服务器。ConfigMap 内容需要遵循 示例 中所示的格式。 node-local-dns ConfigMap 也可以直接使用 Corefile 格式中的 stubDomain 配置进行修改。一些云提供商可能不允许直接修改 node-local-dns ConfigMap。在这种情况下,可以更新 kube-dns ConfigMap。

设置内存限制

node-local-dns Pod 使用内存来存储缓存条目和处理查询。由于它们不监视 Kubernetes 对象,因此集群大小或 Service / EndpointSlices 的数量不会直接影响内存使用量。内存使用量受 DNS 查询模式的影响。来自 CoreDNS 文档

默认缓存大小为 10000 个条目,完全填充时使用约 30 MB。

这将是每个服务器块的内存使用量(如果缓存完全填充)。可以通过指定较小的缓存大小来减少内存使用量。

并发查询的数量与内存需求相关联,因为用于处理每个查询的每个额外的 goroutine 都需要一定量的内存。可以使用 forward 插件中的 max_concurrent 选项设置上限。

如果 node-local-dns Pod 尝试使用超过可用内存(由于总系统资源或配置的 资源限制),则操作系统可能会关闭该 Pod 的容器。如果发生这种情况,被终止的容器(“OOMKilled”)不会清理其在启动期间之前添加的自定义数据包过滤规则。 node-local-dns 容器应作为 DaemonSet 的一部分重新启动,但这会导致每次容器失败时出现短暂的 DNS 中断:数据包过滤规则将 DNS 查询定向到不健康的本地 Pod。

可以通过在没有限制的情况下运行 node-local-dns Pod 并测量峰值使用量来确定合适的内存限制。您还可以设置并使用 VerticalPodAutoscaler推荐模式下,然后检查其建议。

最后修改时间为太平洋标准时间 2025 年 1 月 16 日下午 4:14:修复 nodelocaldns.md 中的 md 格式 (2cb6686fc4)