运行 ZooKeeper,一个分布式系统协调器

本教程演示了如何在 Kubernetes 上使用 Apache Zookeeper,并使用 StatefulSetPodDisruptionBudgetPod 反亲和性

开始之前

在开始本教程之前,你应该熟悉以下 Kubernetes 概念:

你的集群必须至少有四个节点,每个节点需要至少 2 个 CPU 和 4 GiB 内存。在本教程中,你将对集群的节点执行封锁(cordon)和排空(drain)操作。这意味着集群将终止并逐出其节点上的所有 Pod,且这些节点将暂时无法调度 Pod。你应该使用一个专用集群来进行本教程,或者确保你造成的中断不会干扰到其他租户。

本教程假设你已配置你的集群以动态供应 PersistentVolume。如果你的集群未作此配置,你必须在开始本教程之前手动供应三个 20 GiB 的卷。

目标

完成本教程后,你将了解以下内容:

  • 如何使用 StatefulSet 部署 ZooKeeper 集群。
  • 如何对集群进行一致性配置。
  • 如何分散部署集群中的 ZooKeeper 服务器。
  • 如何使用 PodDisruptionBudget 确保计划内维护期间的服务可用性。

ZooKeeper

通过 Apache ZooKeeper,可以为分布式应用提供分布式的、开源的协调服务。ZooKeeper 允许你读、写和观察数据的更新。数据以文件系统一样的层级结构组织,并复制到集群(一组 ZooKeeper 服务器)中的所有 ZooKeeper 服务器。所有数据操作都是原子性的且满足顺序一致性。ZooKeeper 使用 Zab 一致性协议将状态机复制到集群中的所有服务器来确保这一点。

该集群使用 Zab 协议选举一个领导者,并且在选举完成之前集群无法写入数据。一旦选举完成,集群会使用 Zab 确保在确认所有写入并使其对客户端可见之前,将这些写入复制到一个多数派(quorum)。不考虑加权多数派,一个多数派是集群中包含当前领导者的多数成员组成的组件。例如,如果集群有三个服务器,包含领导者和另一台服务器的组件就构成一个多数派。如果集群无法达到多数派,则无法写入数据。

ZooKeeper 服务器将其整个状态机保存在内存中,并将所有变更写入存储介质上的持久性 WAL(预写日志)。当服务器崩溃时,可以通过重放 WAL 来恢复其之前的状态。为了防止 WAL 无限制增长,ZooKeeper 服务器会定期将其内存状态快照保存到存储介质。这些快照可以直接加载到内存中,并且快照之前的 WAL 条目都可以被丢弃。

创建 ZooKeeper 集群

下面的清单文件包含一个 Headless Service、一个 Service、一个 PodDisruptionBudget 和一个 StatefulSet

apiVersion: v1
kind: Service
metadata:
  name: zk-hs
  labels:
    app: zk
spec:
  ports:
  - port: 2888
    name: server
  - port: 3888
    name: leader-election
  clusterIP: None
  selector:
    app: zk
---
apiVersion: v1
kind: Service
metadata:
  name: zk-cs
  labels:
    app: zk
spec:
  ports:
  - port: 2181
    name: client
  selector:
    app: zk
---
apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:
  name: zk-pdb
spec:
  selector:
    matchLabels:
      app: zk
  maxUnavailable: 1
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: zk
spec:
  selector:
    matchLabels:
      app: zk
  serviceName: zk-hs
  replicas: 3
  updateStrategy:
    type: RollingUpdate
  podManagementPolicy: OrderedReady
  template:
    metadata:
      labels:
        app: zk
    spec:
      affinity:
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            - labelSelector:
                matchExpressions:
                  - key: "app"
                    operator: In
                    values:
                    - zk
              topologyKey: "kubernetes.io/hostname"
      containers:
      - name: kubernetes-zookeeper
        imagePullPolicy: Always
        image: "registry.k8s.io/kubernetes-zookeeper:1.0-3.4.10"
        resources:
          requests:
            memory: "1Gi"
            cpu: "0.5"
        ports:
        - containerPort: 2181
          name: client
        - containerPort: 2888
          name: server
        - containerPort: 3888
          name: leader-election
        command:
        - sh
        - -c
        - "start-zookeeper \
          --servers=3 \
          --data_dir=/var/lib/zookeeper/data \
          --data_log_dir=/var/lib/zookeeper/data/log \
          --conf_dir=/opt/zookeeper/conf \
          --client_port=2181 \
          --election_port=3888 \
          --server_port=2888 \
          --tick_time=2000 \
          --init_limit=10 \
          --sync_limit=5 \
          --heap=512M \
          --max_client_cnxns=60 \
          --snap_retain_count=3 \
          --purge_interval=12 \
          --max_session_timeout=40000 \
          --min_session_timeout=4000 \
          --log_level=INFO"
        readinessProbe:
          exec:
            command:
            - sh
            - -c
            - "zookeeper-ready 2181"
          initialDelaySeconds: 10
          timeoutSeconds: 5
        livenessProbe:
          exec:
            command:
            - sh
            - -c
            - "zookeeper-ready 2181"
          initialDelaySeconds: 10
          timeoutSeconds: 5
        volumeMounts:
        - name: datadir
          mountPath: /var/lib/zookeeper
      securityContext:
        runAsUser: 1000
        fsGroup: 1000
  volumeClaimTemplates:
  - metadata:
      name: datadir
    spec:
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 10Gi

打开终端,使用 kubectl apply 命令创建清单文件。

kubectl apply -f https://k8s.io/examples/application/zookeeper/zookeeper.yaml

这将创建 zk-hs Headless Service、zk-cs Service、zk-pdb PodDisruptionBudget 和 zk StatefulSet。

service/zk-hs created
service/zk-cs created
poddisruptionbudget.policy/zk-pdb created
statefulset.apps/zk created

使用 kubectl get 来监视 StatefulSet 控制器创建 StatefulSet 的 Pod。

kubectl get pods -w -l app=zk

一旦 zk-2 Pod 处于 Running 且 Ready 状态,使用 CTRL-C 终止 kubectl 命令。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Pending   0          0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         19s
zk-0      1/1       Running   0         40s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       ContainerCreating   0         0s
zk-1      0/1       Running   0         18s
zk-1      1/1       Running   0         40s
zk-2      0/1       Pending   0         0s
zk-2      0/1       Pending   0         0s
zk-2      0/1       ContainerCreating   0         0s
zk-2      0/1       Running   0         19s
zk-2      1/1       Running   0         40s

StatefulSet 控制器创建了三个 Pod,每个 Pod 都有一个包含 ZooKeeper 服务器的容器。

促进领导者选举

由于在匿名网络中没有终止领导者选举的算法,Zab 需要显式的成员配置来执行领导者选举。集群中的每个服务器都需要有一个唯一标识符,所有服务器都需要知道全局标识符集合,并且每个标识符需要与网络地址相关联。

使用 kubectl exec 命令获取 zk StatefulSet 中 Pod 的主机名。

for i in 0 1 2; do kubectl exec zk-$i -- hostname; done

StatefulSet 控制器基于 Pod 的序号索引为其提供唯一主机名。主机名的形式为 <statefulset name>-<ordinal index>。因为 zk StatefulSet 的 replicas 字段设置为 3,所以该 StatefulSet 的控制器创建了三个 Pod,它们的主机名分别设置为 zk-0zk-1zk-2

zk-0
zk-1
zk-2

ZooKeeper 集群中的服务器使用自然数作为唯一标识符,并将每个服务器的标识符存储在服务器数据目录中名为 myid 的文件中。

要检查每个服务器的 myid 文件内容,请使用以下命令。

for i in 0 1 2; do echo "myid zk-$i";kubectl exec zk-$i -- cat /var/lib/zookeeper/data/myid; done

因为标识符是自然数,而序号索引是非负整数,所以可以通过在序号上加 1 来生成标识符。

myid zk-0
1
myid zk-1
2
myid zk-2
3

要获取 zk StatefulSet 中每个 Pod 的完全限定域名 (FQDN),请使用以下命令。

for i in 0 1 2; do kubectl exec zk-$i -- hostname -f; done

zk-hs Service 为所有 Pod 创建了一个域:zk-hs.default.svc.cluster.local

zk-0.zk-hs.default.svc.cluster.local
zk-1.zk-hs.default.svc.cluster.local
zk-2.zk-hs.default.svc.cluster.local

Kubernetes DNS 中的 A 记录将 FQDN 解析为 Pod 的 IP 地址。如果 Kubernetes 重新调度 Pod,它将使用 Pod 的新 IP 地址更新 A 记录,但 A 记录的名称不会改变。

ZooKeeper 将其应用程序配置存储在名为 zoo.cfg 的文件中。使用 kubectl exec 命令查看 zk-0 Pod 中 zoo.cfg 文件的内容。

kubectl exec zk-0 -- cat /opt/zookeeper/conf/zoo.cfg

在文件底部的 server.1server.2server.3 属性中,123 对应于 ZooKeeper 服务器 myid 文件中的标识符。它们被设置为 zk StatefulSet 中 Pod 的 FQDN。

clientPort=2181
dataDir=/var/lib/zookeeper/data
dataLogDir=/var/lib/zookeeper/log
tickTime=2000
initLimit=10
syncLimit=2000
maxClientCnxns=60
minSessionTimeout= 4000
maxSessionTimeout= 40000
autopurge.snapRetainCount=3
autopurge.purgeInterval=0
server.1=zk-0.zk-hs.default.svc.cluster.local:2888:3888
server.2=zk-1.zk-hs.default.svc.cluster.local:2888:3888
server.3=zk-2.zk-hs.default.svc.cluster.local:2888:3888

达成一致性

一致性协议要求每个参与者的标识符必须是唯一的。在 Zab 协议中,没有两个参与者应该声称拥有相同的唯一标识符。这是必要的,以便系统中的进程能够就哪些进程提交了哪些数据达成一致。如果启动两个具有相同序号的 Pod,两个 ZooKeeper 服务器都将自己标识为同一台服务器。

kubectl get pods -w -l app=zk
NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Pending   0          0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         19s
zk-0      1/1       Running   0         40s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       ContainerCreating   0         0s
zk-1      0/1       Running   0         18s
zk-1      1/1       Running   0         40s
zk-2      0/1       Pending   0         0s
zk-2      0/1       Pending   0         0s
zk-2      0/1       ContainerCreating   0         0s
zk-2      0/1       Running   0         19s
zk-2      1/1       Running   0         40s

每个 Pod 的 A 记录在 Pod 变为 Ready 时被添加。因此,ZooKeeper 服务器的 FQDN 将解析到单个端点,而该端点将是声明其 myid 文件中配置身份的唯一 ZooKeeper 服务器。

zk-0.zk-hs.default.svc.cluster.local
zk-1.zk-hs.default.svc.cluster.local
zk-2.zk-hs.default.svc.cluster.local

这确保了 ZooKeeper 的 zoo.cfg 文件中的 servers 属性代表了一个正确配置的集群。

server.1=zk-0.zk-hs.default.svc.cluster.local:2888:3888
server.2=zk-1.zk-hs.default.svc.cluster.local:2888:3888
server.3=zk-2.zk-hs.default.svc.cluster.local:2888:3888

当服务器使用 Zab 协议尝试提交一个值时,它们要么达成一致并提交该值(如果领导者选举成功并且至少有两个 Pod 处于 Running 和 Ready 状态),要么失败(如果其中任一条件未满足)。不会出现一个服务器代表另一个服务器确认写入的状态。

健全性测试集群

最基本的健全性测试是将数据写入一个 ZooKeeper 服务器,然后从另一个服务器读取数据。

以下命令执行 zkCli.sh 脚本,将 world 写入集群中 zk-0 Pod 上的路径 /hello

kubectl exec zk-0 -- zkCli.sh create /hello world
WATCHER::

WatchedEvent state:SyncConnected type:None path:null
Created /hello

要从 zk-1 Pod 获取数据,请使用以下命令。

kubectl exec zk-1 -- zkCli.sh get /hello

你在 zk-0 上创建的数据在集群中的所有服务器上都可用。

WATCHER::

WatchedEvent state:SyncConnected type:None path:null
world
cZxid = 0x100000002
ctime = Thu Dec 08 15:13:30 UTC 2016
mZxid = 0x100000002
mtime = Thu Dec 08 15:13:30 UTC 2016
pZxid = 0x100000002
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 5
numChildren = 0

提供持久存储

ZooKeeper 基础章节所述,ZooKeeper 将所有条目提交到持久性 WAL,并定期将内存状态的快照写入存储介质。使用 WAL 提供持久性是使用一致性协议实现复制状态机的应用程序的常见技术。

使用 kubectl delete 命令删除 zk StatefulSet。

kubectl delete statefulset zk
statefulset.apps "zk" deleted

监视 StatefulSet 中 Pod 的终止过程。

kubectl get pods -w -l app=zk

zk-0 完全终止后,使用 CTRL-C 终止 kubectl。

zk-2      1/1       Terminating   0         9m
zk-0      1/1       Terminating   0         11m
zk-1      1/1       Terminating   0         10m
zk-2      0/1       Terminating   0         9m
zk-2      0/1       Terminating   0         9m
zk-2      0/1       Terminating   0         9m
zk-1      0/1       Terminating   0         10m
zk-1      0/1       Terminating   0         10m
zk-1      0/1       Terminating   0         10m
zk-0      0/1       Terminating   0         11m
zk-0      0/1       Terminating   0         11m
zk-0      0/1       Terminating   0         11m

重新应用 zookeeper.yaml 中的清单文件。

kubectl apply -f https://k8s.io/examples/application/zookeeper/zookeeper.yaml

这将创建 zk StatefulSet 对象,但清单文件中的其他 API 对象不会被修改,因为它们已经存在。

监视 StatefulSet 控制器重新创建 StatefulSet 的 Pod。

kubectl get pods -w -l app=zk

一旦 zk-2 Pod 处于 Running 且 Ready 状态,使用 CTRL-C 终止 kubectl 命令。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Pending   0          0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         19s
zk-0      1/1       Running   0         40s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       ContainerCreating   0         0s
zk-1      0/1       Running   0         18s
zk-1      1/1       Running   0         40s
zk-2      0/1       Pending   0         0s
zk-2      0/1       Pending   0         0s
zk-2      0/1       ContainerCreating   0         0s
zk-2      0/1       Running   0         19s
zk-2      1/1       Running   0         40s

使用以下命令从 zk-2 Pod 获取你在健全性测试期间输入的值。

kubectl exec zk-2 zkCli.sh get /hello

即使你终止并重新创建了 zk StatefulSet 中的所有 Pod,该集群仍然提供原始值。

WATCHER::

WatchedEvent state:SyncConnected type:None path:null
world
cZxid = 0x100000002
ctime = Thu Dec 08 15:13:30 UTC 2016
mZxid = 0x100000002
mtime = Thu Dec 08 15:13:30 UTC 2016
pZxid = 0x100000002
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 5
numChildren = 0

zk StatefulSet 的 spec 字段中的 volumeClaimTemplates 字段指定为每个 Pod 供应一个 PersistentVolume。

volumeClaimTemplates:
  - metadata:
      name: datadir
      annotations:
        volume.alpha.kubernetes.io/storage-class: anything
    spec:
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 20Gi

StatefulSet 控制器为 StatefulSet 中的每个 Pod 生成一个 PersistentVolumeClaim

使用以下命令获取 StatefulSetPersistentVolumeClaim

kubectl get pvc -l app=zk

StatefulSet 重新创建其 Pod 时,它会重新挂载这些 Pod 的 PersistentVolume。

NAME           STATUS    VOLUME                                     CAPACITY   ACCESSMODES   AGE
datadir-zk-0   Bound     pvc-bed742cd-bcb1-11e6-994f-42010a800002   20Gi       RWO           1h
datadir-zk-1   Bound     pvc-bedd27d2-bcb1-11e6-994f-42010a800002   20Gi       RWO           1h
datadir-zk-2   Bound     pvc-bee0817e-bcb1-11e6-994f-42010a800002   20Gi       RWO           1h

StatefulSet 容器 templatevolumeMounts 部分将 PersistentVolume 挂载到 ZooKeeper 服务器的数据目录中。

volumeMounts:
- name: datadir
  mountPath: /var/lib/zookeeper

zk StatefulSet 中的 Pod 被(重新)调度时,它总是会挂载到 ZooKeeper 服务器数据目录的同一个 PersistentVolume。即使 Pod 被重新调度,所有写入 ZooKeeper 服务器 WAL 的数据以及它们的快照都会保持持久。

确保配置一致性

正如促进领导者选举达成一致性章节所述,ZooKeeper 集群中的服务器需要一致的配置才能选举领导者并形成多数派。它们还需要对 Zab 协议进行一致的配置,以便该协议能够在网络上正确工作。在我们的示例中,我们通过将配置直接嵌入到清单文件中来实现一致的配置。

获取 zk StatefulSet。

kubectl get sts zk -o yaml
…
command:
      - sh
      - -c
      - "start-zookeeper \
        --servers=3 \
        --data_dir=/var/lib/zookeeper/data \
        --data_log_dir=/var/lib/zookeeper/data/log \
        --conf_dir=/opt/zookeeper/conf \
        --client_port=2181 \
        --election_port=3888 \
        --server_port=2888 \
        --tick_time=2000 \
        --init_limit=10 \
        --sync_limit=5 \
        --heap=512M \
        --max_client_cnxns=60 \
        --snap_retain_count=3 \
        --purge_interval=12 \
        --max_session_timeout=40000 \
        --min_session_timeout=4000 \
        --log_level=INFO"
…

用于启动 ZooKeeper 服务器的命令将配置作为命令行参数传递。你也可以使用环境变量将配置传递给集群。

配置日志

zkGenConfig.sh 脚本生成的文件之一控制 ZooKeeper 的日志记录。ZooKeeper 使用 Log4j,并且默认情况下,它使用基于时间和大小的循环文件附加器(rolling file appender)进行日志配置。

使用以下命令从 zk StatefulSet 中的一个 Pod 获取日志配置。

kubectl exec zk-0 cat /usr/etc/zookeeper/log4j.properties

下面的日志配置将导致 ZooKeeper 进程将其所有日志写入标准输出文件流。

zookeeper.root.logger=CONSOLE
zookeeper.console.threshold=INFO
log4j.rootLogger=${zookeeper.root.logger}
log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender
log4j.appender.CONSOLE.Threshold=${zookeeper.console.threshold}
log4j.appender.CONSOLE.layout=org.apache.log4j.PatternLayout
log4j.appender.CONSOLE.layout.ConversionPattern=%d{ISO8601} [myid:%X{myid}] - %-5p [%t:%C{1}@%L] - %m%n

这是在容器内安全记录日志的最简单方法。由于应用程序将日志写入标准输出,Kubernetes 将为你处理日志轮转。Kubernetes 还实现了合理的保留策略,确保写入标准输出和标准错误的应用程序日志不会耗尽本地存储介质。

使用 kubectl logs 命令从其中一个 Pod 检索最后 20 行日志。

kubectl logs zk-0 --tail 20

你可以使用 kubectl logs 命令和 Kubernetes Dashboard 查看写入标准输出或标准错误的应用程序日志。

2016-12-06 19:34:16,236 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52740
2016-12-06 19:34:16,237 [myid:1] - INFO  [Thread-1136:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52740 (no session established for client)
2016-12-06 19:34:26,155 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52749
2016-12-06 19:34:26,155 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52749
2016-12-06 19:34:26,156 [myid:1] - INFO  [Thread-1137:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52749 (no session established for client)
2016-12-06 19:34:26,222 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52750
2016-12-06 19:34:26,222 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52750
2016-12-06 19:34:26,226 [myid:1] - INFO  [Thread-1138:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52750 (no session established for client)
2016-12-06 19:34:36,151 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52760
2016-12-06 19:34:36,152 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52760
2016-12-06 19:34:36,152 [myid:1] - INFO  [Thread-1139:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52760 (no session established for client)
2016-12-06 19:34:36,230 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52761
2016-12-06 19:34:36,231 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52761
2016-12-06 19:34:36,231 [myid:1] - INFO  [Thread-1140:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52761 (no session established for client)
2016-12-06 19:34:46,149 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52767
2016-12-06 19:34:46,149 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52767
2016-12-06 19:34:46,149 [myid:1] - INFO  [Thread-1141:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52767 (no session established for client)
2016-12-06 19:34:46,230 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52768
2016-12-06 19:34:46,230 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52768
2016-12-06 19:34:46,230 [myid:1] - INFO  [Thread-1142:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52768 (no session established for client)

Kubernetes 集成了许多日志解决方案。你可以选择最适合你的集群和应用程序的日志解决方案。对于集群级别的日志记录和聚合,考虑部署一个sidecar 容器来轮转和发送你的日志。

配置非特权用户

关于应用程序是否应在容器内以特权用户身份运行的最佳实践尚有争议。如果你的组织要求应用程序以非特权用户身份运行,你可以使用 SecurityContext 来控制入口点运行的用户。

zk StatefulSet 的 Pod template 包含一个 SecurityContext

securityContext:
  runAsUser: 1000
  fsGroup: 1000

在 Pod 的容器中,UID 1000 对应 zookeeper 用户,GID 1000 对应 zookeeper 组。

zk-0 Pod 获取 ZooKeeper 进程信息。

kubectl exec zk-0 -- ps -elf

由于 securityContext 对象的 runAsUser 字段设置为 1000,ZooKeeper 进程以 zookeeper 用户身份运行,而不是以 root 用户身份运行。

F S UID        PID  PPID  C PRI  NI ADDR SZ WCHAN  STIME TTY          TIME CMD
4 S zookeep+     1     0  0  80   0 -  1127 -      20:46 ?        00:00:00 sh -c zkGenConfig.sh && zkServer.sh start-foreground
0 S zookeep+    27     1  0  80   0 - 1155556 -    20:46 ?        00:00:19 /usr/lib/jvm/java-8-openjdk-amd64/bin/java -Dzookeeper.log.dir=/var/log/zookeeper -Dzookeeper.root.logger=INFO,CONSOLE -cp /usr/bin/../build/classes:/usr/bin/../build/lib/*.jar:/usr/bin/../share/zookeeper/zookeeper-3.4.9.jar:/usr/bin/../share/zookeeper/slf4j-log4j12-1.6.1.jar:/usr/bin/../share/zookeeper/slf4j-api-1.6.1.jar:/usr/bin/../share/zookeeper/netty-3.10.5.Final.jar:/usr/bin/../share/zookeeper/log4j-1.2.16.jar:/usr/bin/../share/zookeeper/jline-0.9.94.jar:/usr/bin/../src/java/lib/*.jar:/usr/bin/../etc/zookeeper: -Xmx2G -Xms2G -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain /usr/bin/../etc/zookeeper/zoo.cfg

默认情况下,当 Pod 的 PersistentVolume 挂载到 ZooKeeper 服务器的数据目录时,只有 root 用户可以访问。此配置会阻止 ZooKeeper 进程写入其 WAL 并存储其快照。

使用以下命令获取 zk-0 Pod 上 ZooKeeper 数据目录的文件权限。

kubectl exec -ti zk-0 -- ls -ld /var/lib/zookeeper/data

由于 securityContext 对象的 fsGroup 字段设置为 1000,Pod 的 PersistentVolume 的所有权被设置为 zookeeper 组,并且 ZooKeeper 进程能够读写其数据。

drwxr-sr-x 3 zookeeper zookeeper 4096 Dec  5 20:45 /var/lib/zookeeper/data

管理 ZooKeeper 进程

ZooKeeper 文档 提到,“你可能希望有一个监督进程来管理每个 ZooKeeper 服务器进程(JVM)”。利用看门狗(监督进程)在分布式系统中重启失败的进程是一种常见模式。在 Kubernetes 中部署应用程序时,不应使用外部工具作为监督进程,而应使用 Kubernetes 作为你的应用程序的看门狗。

更新集群

zk StatefulSet 配置为使用 RollingUpdate 更新策略。

你可以使用 kubectl patch 命令更新分配给服务器的 cpus 数量。

kubectl patch sts zk --type='json' -p='[{"op": "replace", "path": "/spec/template/spec/containers/0/resources/requests/cpu", "value":"0.3"}]'
statefulset.apps/zk patched

使用 kubectl rollout status 命令监视更新的状态。

kubectl rollout status sts/zk
waiting for statefulset rolling update to complete 0 pods at revision zk-5db4499664...
Waiting for 1 pods to be ready...
Waiting for 1 pods to be ready...
waiting for statefulset rolling update to complete 1 pods at revision zk-5db4499664...
Waiting for 1 pods to be ready...
Waiting for 1 pods to be ready...
waiting for statefulset rolling update to complete 2 pods at revision zk-5db4499664...
Waiting for 1 pods to be ready...
Waiting for 1 pods to be ready...
statefulset rolling update complete 3 pods at revision zk-5db4499664...

这会按序号逆序逐一终止 Pod,并使用新配置重新创建它们。这确保了在滚动更新期间多数派得以维持。

使用 kubectl rollout history 命令查看历史或之前的配置。

kubectl rollout history sts/zk

输出类似于:

statefulsets "zk"
REVISION
1
2

使用 kubectl rollout undo 命令回滚修改。

kubectl rollout undo sts/zk

输出类似于:

statefulset.apps/zk rolled back

处理进程失败

重启策略 控制 Kubernetes 如何处理 Pod 中容器入口点的进程失败。对于 StatefulSet 中的 Pod,唯一合适的 RestartPolicy 是 Always,这也是默认值。对于有状态应用程序,你绝不应该覆盖默认策略。

使用以下命令检查在 zk-0 Pod 中运行的 ZooKeeper 服务器的进程树。

kubectl exec zk-0 -- ps -ef

用作容器入口点的命令 PID 为 1,而 ZooKeeper 进程(入口点的子进程)PID 为 27。

UID        PID  PPID  C STIME TTY          TIME CMD
zookeep+     1     0  0 15:03 ?        00:00:00 sh -c zkGenConfig.sh && zkServer.sh start-foreground
zookeep+    27     1  0 15:03 ?        00:00:03 /usr/lib/jvm/java-8-openjdk-amd64/bin/java -Dzookeeper.log.dir=/var/log/zookeeper -Dzookeeper.root.logger=INFO,CONSOLE -cp /usr/bin/../build/classes:/usr/bin/../build/lib/*.jar:/usr/bin/../share/zookeeper/zookeeper-3.4.9.jar:/usr/bin/../share/zookeeper/slf4j-log4j12-1.6.1.jar:/usr/bin/../share/zookeeper/slf4j-api-1.6.1.jar:/usr/bin/../share/zookeeper/netty-3.10.5.Final.jar:/usr/bin/../share/zookeeper/log4j-1.2.16.jar:/usr/bin/../share/zookeeper/jline-0.9.94.jar:/usr/bin/../src/java/lib/*.jar:/usr/bin/../etc/zookeeper: -Xmx2G -Xms2G -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain /usr/bin/../etc/zookeeper/zoo.cfg

在另一个终端中,使用以下命令监视 zk StatefulSet 中的 Pod。

kubectl get pod -w -l app=zk

在另一个终端中,使用以下命令终止 Pod zk-0 中的 ZooKeeper 进程。

kubectl exec zk-0 -- pkill java

ZooKeeper 进程的终止导致其父进程终止。由于容器的 RestartPolicy 设置为 Always,Kubernetes 重启了父进程。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   0          21m
zk-1      1/1       Running   0          20m
zk-2      1/1       Running   0          19m
NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Error     0          29m
zk-0      0/1       Running   1         29m
zk-0      1/1       Running   1         29m

如果你的应用程序使用脚本(例如 zkServer.sh)来启动实现应用程序业务逻辑的进程,则该脚本必须与子进程一起终止。这确保了当实现应用程序业务逻辑的进程失败时,Kubernetes 会重启应用程序的容器。

测试活性

配置应用程序以重启失败的进程不足以保持分布式系统的健康。在某些情况下,系统的进程可能既存活(alive)又无响应,或者处于其他不健康状态。你应该使用活性探针(liveness probe)通知 Kubernetes 你的应用程序进程不健康,然后它应该重启它们。

zk StatefulSet 的 Pod template 指定了活性探针。

  livenessProbe:
    exec:
      command:
      - sh
      - -c
      - "zookeeper-ready 2181"
    initialDelaySeconds: 15
    timeoutSeconds: 5

该探针调用一个 bash 脚本,该脚本使用 ZooKeeper ruok 四字命令测试服务器的健康状态。

OK=$(echo ruok | nc 127.0.0.1 $1)
if [ "$OK" == "imok" ]; then
    exit 0
else
    exit 1
fi

在一个终端窗口中,使用以下命令监视 zk StatefulSet 中的 Pod。

kubectl get pod -w -l app=zk

在另一个窗口中,使用以下命令从 Pod zk-0 的文件系统中删除 zookeeper-ready 脚本。

kubectl exec zk-0 -- rm /opt/zookeeper/bin/zookeeper-ready

当 ZooKeeper 进程的活性探针失败时,Kubernetes 将自动为你重启进程,确保集群中的不健康进程被重启。

kubectl get pod -w -l app=zk
NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   0          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Running   0          1h
zk-0      0/1       Running   1         1h
zk-0      1/1       Running   1         1h

测试就绪性

就绪性与活性不同。如果一个进程是活的(alive),它就被调度并且是健康的。如果一个进程是就绪的(ready),它就能够处理输入。活性是就绪性的必要但不充分条件。在某些情况下,尤其是在初始化和终止期间,进程可能是活的但不就绪。

如果你指定了就绪性探针(readiness probe),Kubernetes 会确保你的应用程序进程在就绪性检查通过之前不会接收网络流量。

对于 ZooKeeper 服务器,活性意味着就绪性。因此,zookeeper.yaml 清单文件中的就绪性探针与活性探针是相同的。

  readinessProbe:
    exec:
      command:
      - sh
      - -c
      - "zookeeper-ready 2181"
    initialDelaySeconds: 15
    timeoutSeconds: 5

即使活性探针和就绪性探针是相同的,指定两者也很重要。这确保了 ZooKeeper 集群中只有健康的服务器接收网络流量。

容忍节点故障

ZooKeeper 需要一个多数派的服务器才能成功提交数据变更。对于三服务器集群,必须有两个服务器保持健康才能成功写入。在基于多数派的系统中,成员被部署在不同的故障域中以确保可用性。为了避免由于单个机器丢失而导致的停机,最佳实践建议不要在同一台机器上共置应用程序的多个实例。

默认情况下,Kubernetes 可能会在同一节点上共置 StatefulSet 中的 Pod。对于你创建的三服务器集群,如果两台服务器位于同一节点上并且该节点发生故障,你的 ZooKeeper Service 的客户端将经历中断,直到至少一个 Pod 可以被重新调度。

你应该始终预留额外容量,以便在节点发生故障时关键系统的进程能够被重新调度。如果这样做,中断只会持续到 Kubernetes 调度器重新调度其中一台 ZooKeeper 服务器。但是,如果你希望你的服务在节点故障时实现零停机,你应该设置 podAntiAffinity

使用以下命令获取 zk StatefulSet 中 Pod 所在的节点。

for i in 0 1 2; do kubectl get pod zk-$i --template {{.spec.nodeName}}; echo ""; done

zk StatefulSet 中的所有 Pod 都部署在不同的节点上。

kubernetes-node-cxpk
kubernetes-node-a5aq
kubernetes-node-2g2d

这是因为 zk StatefulSet 中的 Pod 指定了 Pod 反亲和性

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
            - key: "app"
              operator: In
              values:
                - zk
        topologyKey: "kubernetes.io/hostname"

requiredDuringSchedulingIgnoredDuringExecution 字段告诉 Kubernetes 调度器,它不应该在由 topologyKey 定义的域中共置两个带有 app 标签为 zk 的 Pod。topologyKey kubernetes.io/hostname 表示该域是单个节点。通过使用不同的规则、标签和选择器,你可以将此技术扩展到将集群分散部署到物理、网络和电源故障域。

应对维护

在本节中,你将对节点执行封锁(cordon)和排空(drain)操作。如果你在共享集群上使用本教程,请确保这不会对其他租户产生不利影响。

上一节向你展示了如何将 Pod 分散部署到不同节点以应对计划外的节点故障,但你还需要为计划内维护导致的临时节点故障做好准备。

使用此命令获取集群中的节点。

kubectl get nodes

本教程假设集群至少有四个节点。如果集群节点多于四个,使用 kubectl cordon 命令封锁除四个节点以外的所有节点。限制为四个节点可确保在后续维护模拟中调度 zookeeper Pod 时,Kubernetes 会遇到亲和性和 PodDisruptionBudget 约束。

kubectl cordon <node-name>

使用此命令获取 zk-pdb PodDisruptionBudget

kubectl get pdb zk-pdb

max-unavailable 字段向 Kubernetes 表明,在任何时候,来自 zk StatefulSet 的 Pod 最多只有一个不可用。

NAME      MIN-AVAILABLE   MAX-UNAVAILABLE   ALLOWED-DISRUPTIONS   AGE
zk-pdb    N/A             1                 1

在一个终端中,使用此命令监视 zk StatefulSet 中的 Pod。

kubectl get pods -w -l app=zk

在另一个终端中,使用此命令获取 Pod 当前调度到的节点。

for i in 0 1 2; do kubectl get pod zk-$i --template {{.spec.nodeName}}; echo ""; done

输出类似于:

kubernetes-node-pb41
kubernetes-node-ixsl
kubernetes-node-i4c4

使用 kubectl drain 命令封锁并排空调度了 zk-0 Pod 的节点。

kubectl drain $(kubectl get pod zk-0 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于:

node "kubernetes-node-pb41" cordoned

WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-pb41, kube-proxy-kubernetes-node-pb41; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-o5elz
pod "zk-0" deleted
node "kubernetes-node-pb41" drained

由于你的集群有四个节点,kubectl drain 命令成功执行,zk-0 被重新调度到另一个节点。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   2          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS        RESTARTS   AGE
zk-0      1/1       Terminating   2          2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Pending   0         0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         51s
zk-0      1/1       Running   0         1m

继续在第一个终端中监视 StatefulSet 的 Pod,并排空调度了 zk-1 的节点。

kubectl drain $(kubectl get pod zk-1 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于:

"kubernetes-node-ixsl" cordoned
WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-ixsl, kube-proxy-kubernetes-node-ixsl; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-voc74
pod "zk-1" deleted
node "kubernetes-node-ixsl" drained

zk-1 Pod 无法被调度,因为 zk StatefulSet 包含一个阻止 Pod 共置的 Pod 反亲和性规则,并且由于只有两个节点可调度,该 Pod 将保持 Pending 状态。

kubectl get pods -w -l app=zk

输出类似于:

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   2          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS        RESTARTS   AGE
zk-0      1/1       Terminating   2          2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Pending   0         0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         51s
zk-0      1/1       Running   0         1m
zk-1      1/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s

继续监视 StatefulSet 的 Pod,并排空调度了 zk-2 的节点。

kubectl drain $(kubectl get pod zk-2 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于:

node "kubernetes-node-i4c4" cordoned

WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-i4c4, kube-proxy-kubernetes-node-i4c4; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-dyrog
WARNING: Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-dyrog; Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-i4c4, kube-proxy-kubernetes-node-i4c4
There are pending pods when an error occurred: Cannot evict pod as it would violate the pod's disruption budget.
pod/zk-2

使用 CTRL-C 终止 kubectl。

你无法排空第三个节点,因为逐出 zk-2 将违反 zk-budget。但是,该节点将保持封锁状态。

使用 zkCli.sh 命令从 zk-0 检索你在健全性测试期间输入的值。

kubectl exec zk-0 zkCli.sh get /hello

该服务仍然可用,因为其 PodDisruptionBudget 得到了遵守。

WatchedEvent state:SyncConnected type:None path:null
world
cZxid = 0x200000002
ctime = Wed Dec 07 00:08:59 UTC 2016
mZxid = 0x200000002
mtime = Wed Dec 07 00:08:59 UTC 2016
pZxid = 0x200000002
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 5
numChildren = 0

使用 kubectl uncordon 命令取消封锁第一个节点。

kubectl uncordon kubernetes-node-pb41

输出类似于:

node "kubernetes-node-pb41" uncordoned

zk-1 被重新调度到该节点上。等待 zk-1 变为 Running 且 Ready 状态。

kubectl get pods -w -l app=zk

输出类似于:

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   2          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS        RESTARTS   AGE
zk-0      1/1       Terminating   2          2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Pending   0         0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         51s
zk-0      1/1       Running   0         1m
zk-1      1/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         12m
zk-1      0/1       ContainerCreating   0         12m
zk-1      0/1       Running   0         13m
zk-1      1/1       Running   0         13m

尝试排空调度了 zk-2 的节点。

kubectl drain $(kubectl get pod zk-2 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于:

node "kubernetes-node-i4c4" already cordoned
WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-i4c4, kube-proxy-kubernetes-node-i4c4; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-dyrog
pod "heapster-v1.2.0-2604621511-wht1r" deleted
pod "zk-2" deleted
node "kubernetes-node-i4c4" drained

这次 kubectl drain 成功了。

解除第二个节点的 cordon 状态,以便重新调度 zk-2

kubectl uncordon kubernetes-node-ixsl

输出类似于:

node "kubernetes-node-ixsl" uncordoned

你可以结合使用 kubectl drainPodDisruptionBudgets 来确保服务在维护期间仍然可用。如果在节点因维护而离线之前使用 drain 命令 cordon 节点并驱逐 Pod,那么那些声明了中断预算(disruption budget)的服务,其预算将被遵守。你应始终为关键服务分配额外的容量,以便它们的 Pod 能够被立即重新调度。

清理

  • 使用 kubectl uncordon 来解除集群中所有节点的 cordon 状态。
  • 你必须删除本教程中使用的 PersistentVolumes 所对应的持久存储介质。根据你的环境、存储配置和供应方式,遵循必要的步骤,确保所有存储空间都被回收。
最后修改于 2023年12月18日 太平洋标准时间 2:39: 更新 zookeeper.md (baa9da8695)