Netflix 借助 Kueue 简化批处理计算
Netflix 工程团队分享了如何利用 Kubernetes 原生批处理调度器 Kueue 来简化其批处理计算平台。文章详细介绍了 Kueue 如何取代自研调度方案,通过资源配额管理、公平调度和优先级抢占等机制,显著提升集群利用率和作业调度的可观测性,从而帮助 Netflix 降低运维复杂度并加速数据管道处理。
背景速读
- Netflix 在其云基础设施上运行大批量、延迟不敏感的批处理作业(如视频编码、内容分析、日志处理),这类作业与实时流媒体服务共用集群资源,管理复杂且容易浪费算力。
- Kueue 是 Kubernetes 原生的开源批处理调度系统,由 Google 发起并捐给 CNCF(云原生计算基金会)。它并非替代 Kubernetes 默认调度器,而是在其之上提供队列配额管理与作业排队机制,适合多租户、共享集群场景。
- Netflix 之前依赖自研调度方案,维护成本高,规模化后遇到瓶颈。迁移到 Kueue 后,团队不仅简化了调度流水线,还实现了跨团队的资源公平分配,以及 Spot 实例(竞价实例)的高效利用,大幅降低批处理成本。
- 这篇博客是 Netflix 技术团队的技术选型复盘,展示了大型互联网公司如何在内部推广开源统一调度框架,而非继续各自为政地造轮子。