挑战
蚂蚁金服于2014年10月正式成立,源于2004年推出的全球最大的在线支付平台支付宝。该公司还利用技术创新提供众多其他服务。支付宝为全球9亿多用户(通过其本地和全球合作伙伴)处理的交易量巨大——2017年双11光棍节高峰期每秒处理25.6万笔交易,2018年光棍节总商品交易额达310亿美元——更不用说其其他服务的交易量了。负责存储和计算部门产品管理的杭浩杰表示,蚂蚁金服面临着“全新的数据处理挑战”。“我们看到在这种规模下运营的三个主要问题:如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时推荐;如何在这些数据之上提供智能,因为数据太多而我们没有获得足够的洞察力;以及如何将安全应用于应用层、中间件层、系统层,甚至芯片层。”为了向客户提供可靠和一致的服务,蚂蚁金服于2014年初开始采用容器,并很快需要一个编排解决方案来管理其数据中心中数万个节点的集群。
解决方案
在研究了多种技术后,团队选择了 Kubernetes 进行编排,以及其他一些 CNCF 项目,包括 Prometheus、OpenTracing、etcd 和 CoreDNS。杭浩杰表示:“2016年末,我们决定 Kubernetes 将成为事实标准。”“回顾过去,我们押对了技术。但随后我们需要将生产工作负载从传统基础设施迁移到最新的启用 Kubernetes 的平台,这需要一些时间,因为我们在可靠性和一致性方面非常谨慎。”所有核心金融系统在2017年11月前都已容器化,并且正在持续迁移到 Kubernetes。
影响
杭浩杰表示:“我们已经看到云原生技术在运营方面至少提升了十倍,这意味着你的产出可以增加十倍。”蚂蚁金服还向全球商业伙伴提供其完全集成的金融云平台,并希望凭借在服务创新和技术专长方面的深厚经验,为下一代数字银行提供动力。杭浩杰表示,团队尚未开始专注于优化 Kubernetes 平台:“因为我们仍处于超高速增长阶段,我们尚未进入节约成本的模式。”
支付宝为全球9亿多用户(通过其本地和全球合作伙伴)处理的交易量令人震惊:2017年双11光棍节高峰期每秒处理25.6万笔交易,2018年光棍节总商品交易额达310亿美元。蚂蚁金服以“为世界带来平等机会”为使命,致力于通过技术创新构建开放、共享的信用体系和金融服务平台。
再加上其其他业务的运营——例如花呗在线信用系统、借呗贷款服务和拥有3.5亿用户的 蚂蚁森林 绿色能源移动应用——蚂蚁金服面临着“全新的数据处理挑战,”负责存储和计算部门产品管理的杭浩杰表示。“我们看到在这种规模下运营的三个主要问题:如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时推荐;如何在这些数据之上提供智能,因为数据太多而我们没有获得足够的洞察力;以及如何将安全应用于应用层、中间件层、系统层,甚至芯片层。”
为了应对这些挑战并向客户提供可靠和一致的服务,蚂蚁金服于2014年开始采用 Docker 容器化。但他们很快意识到,他们需要一个编排解决方案来管理公司数据中心中数万个节点的集群。
团队研究了几种技术,包括 Docker Swarm 和 Mesos。杭浩杰说:“我们做了很多概念验证,但我们对生产系统非常谨慎,因为我们希望确保不会丢失任何数据。”“你不能承受一分钟的服务中断;即使是一秒钟也会产生非常非常大的影响。我们每天都在压力下运营,为中国和全球的消费者和企业提供可靠和一致的服务。”
最终,杭浩杰表示,蚂蚁金服选择 Kubernetes 是因为它满足了所有条件:强大的社区、在“未来三到五年内将保持相关性”的技术,以及与公司工程人才的良好匹配。杭浩杰说:“2016年末,我们决定 Kubernetes 将成为事实标准。”“回顾过去,我们押对了技术。但随后我们需要将生产工作负载从传统基础设施迁移到最新的启用 Kubernetes 的平台。我们花了很多时间学习和培训我们的员工,以便更好地在 Kubernetes 上构建应用程序。”
所有核心金融系统在2017年11月前都已容器化,并且正在持续迁移到 Kubernetes。蚂蚁金服的平台还利用了其他一些 CNCF 项目,包括 Prometheus、OpenTracing、etcd 和 CoreDNS。全球技术合作与发展部门的余侠表示:“今年的双11,我们在 Kubernetes 上部署了大量节点,但与我们整个基础设施的规模相比,这仍在进行中。”
尽管如此,影响已经显现。杭浩杰说:“云原生技术在效率方面给我们带来了巨大的好处。”“总的来说,我们希望确保我们的基础设施足够灵活敏捷,以应对未来可能出现的工作。这是目标。而有了云原生技术,我们看到运营效率至少提高了十倍,这意味着你的产出可以增加十倍。比如说,你用一个人运营10个节点。有了云原生,明天你可以运营100个节点。”
蚂蚁金服还向全球合作伙伴提供其金融云平台,并希望凭借在服务创新和技术专长方面的深厚经验,为下一代数字银行提供动力。杭浩杰表示,团队也尚未开始专注于优化 Kubernetes 平台:“因为我们仍处于超高速增长阶段,我们尚未进入节约成本的模式。”
在蚂蚁金服向云原生转型过程中,CNCF 社区也发挥了宝贵作用。杭浩杰说:“如果你正在应用一项新技术,有一个社区可以与其他用户讨论技术问题,这非常好。”“我们非常感谢 CNCF 和这项令人惊叹的技术,这是我们继续在全球扩展所需要的。我们未来一定会更多地拥抱社区和开源。”
事实上,公司已经开始开源其部分 云原生中间件。余侠表示:“我们将在这方面非常积极主动。”“CNCF 提供了一个平台,让每个人都可以接入或贡献组件。这是一个非常好的开源治理。”
展望未来,蚂蚁金服团队将继续评估许多其他 CNCF 项目。该团队在中国建立了服务网格社区,汇集了众多中国公司和开发人员,讨论该技术的潜力。杭浩杰说:“服务网格对中国开发人员和最终用户非常有吸引力,因为我们现在运行着许多遗留系统,它是一个理想的中间层,可以将新旧系统连接在一起。”“对于新技术,我们会密切关注它们是否会持续发展。”
在蚂蚁金服,Kubernetes 以优异的成绩通过了这项测试,团队希望其他公司也能效仿。杭浩杰说:“在中国,我们在金融及其他相关服务领域的创新是北极星。”“我们当然希望通过我们在技术上的投资,在未来5到10年内继续保持领先地位。”