使用扩展进行并行处理

此任务演示如何基于通用模板运行多个作业（Jobs）。您可以使用此方法并行处理成批的工作。

对于此示例，只有三个条目：apple、banana 和 cherry。示例作业通过打印字符串然后暂停来处理每个条目。

在开始之前

您应熟悉基本的、非并行的作业（Job）用法。

您需要有一个 Kubernetes 集群，并且 kubectl 命令行工具已配置为与您的集群通信。建议在本教程中使用至少两个节点（不充当控制平面主机）的集群。如果您还没有集群，可以使用minikube创建一个，或者使用以下某个 Kubernetes 游乐场

对于基本模板化，您需要命令行工具 sed。

要学习高级模板化示例，您需要安装 Python 及其 Jinja2 模板库。

设置好 Python 后，您可以通过运行以下命令安装 Jinja2：

pip install --user jinja2

基于模板创建作业（Jobs）

首先，将以下作业（Job）模板下载到名为 job-tmpl.yaml 的文件中。这是您将下载的文件：

application/job/job-tmpl.yaml

apiVersion: batch/v1
kind: Job
metadata:
  name: process-item-$ITEM
  labels:
    jobgroup: jobexample
spec:
  template:
    metadata:
      name: jobexample
      labels:
        jobgroup: jobexample
    spec:
      containers:
      - name: c
        image: busybox:1.28
        command: ["sh", "-c", "echo Processing item $ITEM && sleep 5"]
      restartPolicy: Never

# Use curl to download job-tmpl.yaml
curl -L -s -O https://k8s.io/examples/application/job/job-tmpl.yaml

您下载的文件尚未成为有效的 Kubernetes 清单（manifest）。该模板是作业（Job）对象的 YAML 表示，其中包含一些需要在使用前填写的占位符。$ITEM 语法对 Kubernetes 没有意义。

从模板创建清单（manifests）

以下 Shell 片段使用 sed 将字符串 $ITEM 替换为循环变量，并写入名为 jobs 的临时目录。立即运行此命令：

# Expand the template into multiple files, one for each item to be processed.
mkdir ./jobs
for i in apple banana cherry
do
  cat job-tmpl.yaml | sed "s/\$ITEM/$i/" > ./jobs/job-$i.yaml
done

检查是否成功

ls jobs/

输出类似于：

job-apple.yaml
job-banana.yaml
job-cherry.yaml

您可以使用任何类型的模板语言（例如：Jinja2；ERB），或者编写程序来生成作业（Job）清单。

从清单（manifests）创建作业（Jobs）

接下来，使用一个 kubectl 命令创建所有作业（Jobs）：

kubectl create -f ./jobs

输出类似于：

job.batch/process-item-apple created
job.batch/process-item-banana created
job.batch/process-item-cherry created

现在，检查作业（Jobs）：

kubectl get jobs -l jobgroup=jobexample

输出类似于：

NAME                  COMPLETIONS   DURATION   AGE
process-item-apple    1/1           14s        22s
process-item-banana   1/1           12s        21s
process-item-cherry   1/1           12s        20s

使用 kubectl 的 -l 选项仅选择属于此组作业的作业（系统中可能存在其他不相关的作业）。

您也可以使用相同的标签选择器检查 Pods。

kubectl get pods -l jobgroup=jobexample

输出类似于：

NAME                        READY     STATUS      RESTARTS   AGE
process-item-apple-kixwv    0/1       Completed   0          4m
process-item-banana-wrsf7   0/1       Completed   0          4m
process-item-cherry-dnfu9   0/1       Completed   0          4m

我们可以使用此单个命令一次检查所有作业（Jobs）的输出：

kubectl logs -f -l jobgroup=jobexample

输出应该是：

Processing item apple
Processing item banana
Processing item cherry

清理

# Remove the Jobs you created
# Your cluster automatically cleans up their Pods
kubectl delete job -l jobgroup=jobexample

使用高级模板参数

在第一个示例中，模板的每个实例都有一个参数，该参数也用于作业（Job）的名称。但是，名称被限制为只能包含某些特定字符。

这个稍微复杂的示例使用Jinja 模板语言生成清单，然后从这些清单生成对象，每个作业（Job）具有多个参数。

对于任务的这一部分，您将使用一个单行 Python 脚本将模板转换为一组清单。

首先，将以下作业（Job）对象模板复制并粘贴到名为 job.yaml.jinja2 的文件中：

{% set params = [{ "name": "apple", "url": "http://dbpedia.org/resource/Apple", },
                  { "name": "banana", "url": "http://dbpedia.org/resource/Banana", },
                  { "name": "cherry", "url": "http://dbpedia.org/resource/Cherry" }]
%}
{% for p in params %}
{% set name = p["name"] %}
{% set url = p["url"] %}
---
apiVersion: batch/v1
kind: Job
metadata:
  name: jobexample-{{ name }}
  labels:
    jobgroup: jobexample
spec:
  template:
    metadata:
      name: jobexample
      labels:
        jobgroup: jobexample
    spec:
      containers:
      - name: c
        image: busybox:1.28
        command: ["sh", "-c", "echo Processing URL {{ url }} && sleep 5"]
      restartPolicy: Never
{% endfor %}

上述模板使用 Python 字典列表（第 1-4 行）为每个作业（Job）对象定义了两个参数。一个 for 循环为每组参数生成一个作业（Job）清单（其余行）。

此示例依赖于 YAML 的一个特性。一个 YAML 文件可以包含多个文档（在本例中为 Kubernetes 清单），每个文档之间用单独一行上的 --- 分隔。您可以将输出直接通过管道传递给 kubectl 来创建作业（Jobs）。

接下来，使用此单行 Python 程序来展开模板：

alias render_template='python -c "from jinja2 import Template; import sys; print(Template(sys.stdin.read()).render());"'

使用 render_template 将参数和模板转换为包含 Kubernetes 清单的单个 YAML 文件：

# This requires the alias you defined earlier
cat job.yaml.jinja2 | render_template > jobs.yaml

您可以查看 jobs.yaml 来验证 render_template 脚本是否正常工作。

一旦您满意 render_template 按您预期的方式工作，您可以将其输出通过管道传递给 kubectl：

cat job.yaml.jinja2 | render_template | kubectl apply -f -

Kubernetes 接受并运行您创建的作业（Jobs）。

清理

# Remove the Jobs you created
# Your cluster automatically cleans up their Pods
kubectl delete job -l jobgroup=jobexample

在实际工作负载中使用作业（Jobs）

在实际用例中，每个作业（Job）执行一些实质性计算，例如渲染电影帧，或处理数据库中的行范围。如果您正在渲染电影，则会将 $ITEM 设置为帧号。如果您正在处理数据库表中的行，则会将 $ITEM 设置为表示要处理的数据库行范围。

在本任务中，您运行命令通过获取 Pods 的日志来收集它们的输出。在实际用例中，作业（Job）的每个 Pod 在完成前将其输出写入持久化存储。您可以为每个作业（Job）使用一个 PersistentVolume，或使用外部存储服务。例如，如果您正在渲染电影帧，请使用 HTTP 将渲染的帧数据 PUT 到一个 URL，为每个帧使用不同的 URL。

作业（Jobs）和 Pods 上的标签

创建作业（Job）后，Kubernetes 会自动添加额外的标签来区分不同作业的 Pods。

在本示例中，每个作业（Job）及其 Pod 模板都有一个标签：jobgroup=jobexample。

Kubernetes 本身不关注名为 jobgroup 的标签。为您从模板创建的所有作业（Jobs）设置标签，可以方便地一次性操作所有这些作业。在第一个示例中，您使用了模板来创建多个作业。该模板确保每个 Pod 也获得相同的标签，因此您可以使用单个命令检查这些模板化作业的所有 Pod。

注意

标签键 jobgroup 不是特殊的或保留的。您可以选择自己的标签方案。有一些推荐的标签，如果您愿意可以使用它们。

替代方案

如果您计划创建大量作业（Job）对象，您可能会发现：

即使使用标签，管理如此多的作业（Jobs）也很繁琐。
如果您在批处理中创建许多作业（Jobs），可能会给 Kubernetes 控制平面带来高负载。或者，Kubernetes API 服务器可能会对您进行速率限制，暂时拒绝您的请求并返回 429 状态码。
您受到作业（Jobs）的资源配额限制：当您在一个批处理中创建大量工作时，API 服务器会永久拒绝您的一些请求。

还有其他作业（Job）模式可用于处理大量工作而无需创建非常多的作业对象。

您还可以考虑编写自己的控制器来自动管理作业（Job）对象。

最后修改时间：2023 年 8 月 24 日下午 6:38 PST：使用 code_sample Shortcode 代替 code Shortcode (e8b136c3b3)

使用扩展进行并行处理

在开始之前

基于模板创建作业（Jobs）

从模板创建清单（manifests）

从清单（manifests）创建作业（Jobs）

清理

使用高级模板参数

清理

在实际工作负载中使用作业（Jobs）

作业（Jobs）和 Pods 上的标签

注意

替代方案

反馈