使用扩展进行并行处理
此任务演示如何基于通用模板运行多个作业(Jobs)。您可以使用此方法并行处理成批的工作。
对于此示例,只有三个条目:apple、banana 和 cherry。示例作业通过打印字符串然后暂停来处理每个条目。
请参阅在实际工作负载中使用作业(Jobs)了解此模式如何适应更实际的使用场景。
在开始之前
您应熟悉基本的、非并行的作业(Job)用法。
您需要有一个 Kubernetes 集群,并且 kubectl 命令行工具已配置为与您的集群通信。建议在本教程中使用至少两个节点(不充当控制平面主机)的集群。如果您还没有集群,可以使用minikube创建一个,或者使用以下某个 Kubernetes 游乐场
对于基本模板化,您需要命令行工具 sed
。
要学习高级模板化示例,您需要安装 Python 及其 Jinja2 模板库。
设置好 Python 后,您可以通过运行以下命令安装 Jinja2:
pip install --user jinja2
基于模板创建作业(Jobs)
首先,将以下作业(Job)模板下载到名为 job-tmpl.yaml
的文件中。这是您将下载的文件:
apiVersion: batch/v1
kind: Job
metadata:
name: process-item-$ITEM
labels:
jobgroup: jobexample
spec:
template:
metadata:
name: jobexample
labels:
jobgroup: jobexample
spec:
containers:
- name: c
image: busybox:1.28
command: ["sh", "-c", "echo Processing item $ITEM && sleep 5"]
restartPolicy: Never
# Use curl to download job-tmpl.yaml
curl -L -s -O https://k8s.io/examples/application/job/job-tmpl.yaml
您下载的文件尚未成为有效的 Kubernetes 清单(manifest)。该模板是作业(Job)对象的 YAML 表示,其中包含一些需要在使用前填写的占位符。$ITEM
语法对 Kubernetes 没有意义。
从模板创建清单(manifests)
以下 Shell 片段使用 sed
将字符串 $ITEM
替换为循环变量,并写入名为 jobs
的临时目录。立即运行此命令:
# Expand the template into multiple files, one for each item to be processed.
mkdir ./jobs
for i in apple banana cherry
do
cat job-tmpl.yaml | sed "s/\$ITEM/$i/" > ./jobs/job-$i.yaml
done
检查是否成功
ls jobs/
输出类似于:
job-apple.yaml
job-banana.yaml
job-cherry.yaml
您可以使用任何类型的模板语言(例如:Jinja2;ERB),或者编写程序来生成作业(Job)清单。
从清单(manifests)创建作业(Jobs)
接下来,使用一个 kubectl 命令创建所有作业(Jobs):
kubectl create -f ./jobs
输出类似于:
job.batch/process-item-apple created
job.batch/process-item-banana created
job.batch/process-item-cherry created
现在,检查作业(Jobs):
kubectl get jobs -l jobgroup=jobexample
输出类似于:
NAME COMPLETIONS DURATION AGE
process-item-apple 1/1 14s 22s
process-item-banana 1/1 12s 21s
process-item-cherry 1/1 12s 20s
使用 kubectl 的 -l
选项仅选择属于此组作业的作业(系统中可能存在其他不相关的作业)。
您也可以使用相同的标签选择器检查 Pods。
kubectl get pods -l jobgroup=jobexample
输出类似于:
NAME READY STATUS RESTARTS AGE
process-item-apple-kixwv 0/1 Completed 0 4m
process-item-banana-wrsf7 0/1 Completed 0 4m
process-item-cherry-dnfu9 0/1 Completed 0 4m
我们可以使用此单个命令一次检查所有作业(Jobs)的输出:
kubectl logs -f -l jobgroup=jobexample
输出应该是:
Processing item apple
Processing item banana
Processing item cherry
清理
# Remove the Jobs you created
# Your cluster automatically cleans up their Pods
kubectl delete job -l jobgroup=jobexample
使用高级模板参数
在第一个示例中,模板的每个实例都有一个参数,该参数也用于作业(Job)的名称。但是,名称被限制为只能包含某些特定字符。
这个稍微复杂的示例使用Jinja 模板语言生成清单,然后从这些清单生成对象,每个作业(Job)具有多个参数。
对于任务的这一部分,您将使用一个单行 Python 脚本将模板转换为一组清单。
首先,将以下作业(Job)对象模板复制并粘贴到名为 job.yaml.jinja2
的文件中:
{% set params = [{ "name": "apple", "url": "http://dbpedia.org/resource/Apple", },
{ "name": "banana", "url": "http://dbpedia.org/resource/Banana", },
{ "name": "cherry", "url": "http://dbpedia.org/resource/Cherry" }]
%}
{% for p in params %}
{% set name = p["name"] %}
{% set url = p["url"] %}
---
apiVersion: batch/v1
kind: Job
metadata:
name: jobexample-{{ name }}
labels:
jobgroup: jobexample
spec:
template:
metadata:
name: jobexample
labels:
jobgroup: jobexample
spec:
containers:
- name: c
image: busybox:1.28
command: ["sh", "-c", "echo Processing URL {{ url }} && sleep 5"]
restartPolicy: Never
{% endfor %}
上述模板使用 Python 字典列表(第 1-4 行)为每个作业(Job)对象定义了两个参数。一个 for
循环为每组参数生成一个作业(Job)清单(其余行)。
此示例依赖于 YAML 的一个特性。一个 YAML 文件可以包含多个文档(在本例中为 Kubernetes 清单),每个文档之间用单独一行上的 ---
分隔。您可以将输出直接通过管道传递给 kubectl
来创建作业(Jobs)。
接下来,使用此单行 Python 程序来展开模板:
alias render_template='python -c "from jinja2 import Template; import sys; print(Template(sys.stdin.read()).render());"'
使用 render_template
将参数和模板转换为包含 Kubernetes 清单的单个 YAML 文件:
# This requires the alias you defined earlier
cat job.yaml.jinja2 | render_template > jobs.yaml
您可以查看 jobs.yaml
来验证 render_template
脚本是否正常工作。
一旦您满意 render_template
按您预期的方式工作,您可以将其输出通过管道传递给 kubectl
:
cat job.yaml.jinja2 | render_template | kubectl apply -f -
Kubernetes 接受并运行您创建的作业(Jobs)。
清理
# Remove the Jobs you created
# Your cluster automatically cleans up their Pods
kubectl delete job -l jobgroup=jobexample
在实际工作负载中使用作业(Jobs)
在实际用例中,每个作业(Job)执行一些实质性计算,例如渲染电影帧,或处理数据库中的行范围。如果您正在渲染电影,则会将 $ITEM
设置为帧号。如果您正在处理数据库表中的行,则会将 $ITEM
设置为表示要处理的数据库行范围。
在本任务中,您运行命令通过获取 Pods 的日志来收集它们的输出。在实际用例中,作业(Job)的每个 Pod 在完成前将其输出写入持久化存储。您可以为每个作业(Job)使用一个 PersistentVolume,或使用外部存储服务。例如,如果您正在渲染电影帧,请使用 HTTP 将渲染的帧数据 PUT
到一个 URL,为每个帧使用不同的 URL。
作业(Jobs)和 Pods 上的标签
创建作业(Job)后,Kubernetes 会自动添加额外的标签来区分不同作业的 Pods。
在本示例中,每个作业(Job)及其 Pod 模板都有一个标签:jobgroup=jobexample
。
Kubernetes 本身不关注名为 jobgroup
的标签。为您从模板创建的所有作业(Jobs)设置标签,可以方便地一次性操作所有这些作业。在第一个示例中,您使用了模板来创建多个作业。该模板确保每个 Pod 也获得相同的标签,因此您可以使用单个命令检查这些模板化作业的所有 Pod。
替代方案
如果您计划创建大量作业(Job)对象,您可能会发现:
- 即使使用标签,管理如此多的作业(Jobs)也很繁琐。
- 如果您在批处理中创建许多作业(Jobs),可能会给 Kubernetes 控制平面带来高负载。或者,Kubernetes API 服务器可能会对您进行速率限制,暂时拒绝您的请求并返回 429 状态码。
- 您受到作业(Jobs)的资源配额限制:当您在一个批处理中创建大量工作时,API 服务器会永久拒绝您的一些请求。
还有其他作业(Job)模式可用于处理大量工作而无需创建非常多的作业对象。
您还可以考虑编写自己的控制器来自动管理作业(Job)对象。