公司 Babylon 地点 英国 行业 人工智能,医疗保健

挑战

Babylon 的大量产品利用机器学习和人工智能,在 2019 年,公司内部没有足够的计算能力来运行一个特定的实验。该公司也在不断发展(三年内从 100 人增长到 1600 人),并计划扩展到其他国家。

解决方案

Babylon 在 2018 年将其面向用户的应用程序迁移到了 Kubernetes 平台,因此基础设施团队转向了 Kubeflow,这是一个用于在 Kubernetes 上进行机器学习的工具包。“我们尝试创建一个 Kubernetes 核心服务器,我们部署了 Kubeflow,并编排了整个实验,最终取得了非常好的成功,”人工智能基础设施负责人 Jérémie Vallée 说。该团队开始在 Kubernetes 之上构建一个自助式 AI 训练平台。

影响

团队无需等待数小时或数天才能进行计算,而是可以立即获得访问权限。临床验证过去需要 10 个小时;现在在 20 分钟内即可完成。云原生平台的可移植性也使 Babylon 能够扩展到其他国家。

Babylon 的使命是将可访问和负担得起的医疗保健服务送到地球上每个人的手中。

自 2013 年在英国推出以来,这家初创公司已在全球促成了数百万次的数字咨询。在英国,患者通常需要等待一到两周才能预约医生。通过 Babylon 的 NHS 服务 GP at Hand(拥有超过 75,000 名注册患者),39% 的患者在 30 分钟内通过手机获得预约,89% 的患者在 6 小时内获得预约。

这仅仅是个开始。“我们尝试将不同类型的技术与我们内部的医疗专业知识相结合,以构建可以帮助患者管理和了解自身健康的产品,并帮助医生更有效地工作,”Babylon 的人工智能基础设施负责人 Jérémie Vallée 说。

这些产品中的大量产品利用机器学习和人工智能,在 2019 年,研究人员遇到了一个痛点。“我们有一些内部服务器,我们的研究人员在那里进行大量 AI 实验和一些模型训练,我们到了一个没有足够的内部计算能力来运行特定实验的地步,”Vallée 说。

Babylon 在 2018 年将其面向用户的应用程序迁移到了 Kubernetes 平台,“并且由于迁移,我们有很多 Kubernetes 知识,”他补充道。为了优化一些已创建的模型,该团队转向了 Kubeflow,这是一个用于在 Kubernetes 上进行机器学习的工具包。“我们尝试创建一个 Kubernetes 核心服务器,我们部署了 Kubeflow,并编排了整个实验,最终取得了非常好的成功,”他说。

基于这种经验,Vallée 的团队的任务是构建一个自助式平台,以帮助 Babylon 的 AI 团队提高效率,并由此帮助产品更快地上市。主要要求是:(1) 使研究人员和工程师能够访问他们需要的计算资源,无论他们可能需要运行的实验规模如何;(2) 一种以集中方式按需向团队提供他们所需最佳工具的方式;(3) 训练平台必须靠近正在管理的数据,因为该公司正在扩展到不同的国家。

在各个方面,Kubernetes 都是一个促成因素。“Kubernetes 是一个很棒的机器学习平台,因为它具有您所需的所有调度和可扩展性,”Vallée 说。在 Babylon 运营的每个国家/地区保留数据的需求需要多区域、多云策略,并且某些国家/地区甚至可能根本没有公共云提供商。“我们希望使这个平台具有可移植性,以便我们可以在任何地方运行训练作业,”他说。“Kubernetes 提供了一个基础层,允许您在云提供商之外部署平台,然后部署您需要的任何工具。这对我们来说是一个非常好的卖点。”

一旦团队决定在 Kubernetes 之上构建 Babylon AI 研究平台,他们就参考了云原生景观来构建堆栈:Prometheus 和 Grafana 用于监控;Istio 服务网格用于控制训练平台上的网络并控制所有工作流将具有的访问权限;Helm 用于部署堆栈;以及 Flux 用于管理管道的 GitOps 部分。

云原生 AI 平台对 Babylon 产生了巨大影响。在该平台上运行的第一个研究项目主要涉及机器学习和自然语言处理。这些实验需要大量的计算资源——1600 个 CPU、3.2 TB RAM——这远远超过了 Babylon 内部的资源。此外,访问计算资源过去需要数小时,有时甚至需要数天,具体取决于平台团队的繁忙程度。“现在,有了 Kubernetes 和我们提供的自助式平台,几乎是瞬间完成的,”Vallée 说。

在该平台上完成的另一项重要工作类型是对新应用程序(例如 Babylon 的症状检查器)进行临床验证,该检查器会根据用户输入的证据计算疾病的概率。“由于身处医疗保健行业,我们希望我们所有的模型在投入生产之前都是安全的,”Vallée 说。使用 Argo 进行 GitOps“使我们能够大规模地扩展该过程”。

研究人员过去必须等待长达 10 个小时才能获得其模型新版本的结果。使用 Kubernetes,现在时间缩短到 20 分钟以内。此外,他们以前一次只能运行一个临床验证,现在他们可以在需要时并行运行多个临床验证,考虑到在过去三年中,Babylon 已从 100 名员工增长到 1600 名员工,这是一个巨大的好处。

“交付一个用户可以自行运行工作负载的自助式平台,使我们的数据科学家社区能够在没有任何云技能且无需平台工程师的帮助下进行超参数调整和通用算法开发,从而加速了我们的创新,”首席技术官 Caroline Hargrove 说。

平台运营总监 Jean Marie Ferdegue 补充说:“为我们的数据科学家提供基于 Kubernetes 的平台意味着提高了安全性,通过授权提高了创新,以及更实惠的医疗保健服务,因为我们的云工程师正在构建一个每天被数百人使用的体验,而不是支持特定的定制用例。”

此外,随着 Babylon 继续扩展,“加入新国家/地区将非常容易,”Vallée 说。“十五个月前,当我们部署这个平台时,我们在英国有一个大型环境,但现在我们在加拿大有一个,我们在亚洲有一个,我们有一个即将在美国推出。这是 Kubernetes 和其他云原生项目为我们实现的事情之一。”

Babylon 的云原生路线图涉及将公司的所有 AI 工作都加入到该平台。越来越多地,这包括 AI 护理服务。“我认为这将是一个有趣的人工智能与医疗保健相遇的领域,”Vallée 说。“这有点复杂的问题,而且围绕这个问题存在很多问题。因此,通过我们的平台,我们想说,'我们能做些什么来减轻开发人员和机器学习工程师的痛苦?'”