什么是 Decoupled DiLoCo 架构?
Google 今日宣布推出其 Decoupled DiLoCo 架构,这是一种旨在加速跨多个数据中心的分布式 AI 模型训练的新框架。通过将数据处理与计算编排分离,该系统能够更快地推进大规模工作负载,同时保持训练流水线对硬件故障或网络抖动的韧性。
意义重大的加速提升
早期基准测试表明,与 Google 之前的单体部署相比,Decoupled DiLoCo 设计可将训练周期缩短最高 30%。对于通常需要 100 小时 GPU 时间的模型,新方法可削减约 30 小时,这相当于每年进行数千次实验的企业可节省数百万美元。
核心内置的弹性
最具吸引力的优势之一是该架构能够容错。如果一整排服务器离线,DiLoCo 会自动将任务重新路由至健康节点,在大多数情况下将作业中断限制在五分钟以内。内部数据显示,自试点阶段开始,整体作业失败率已下降约 40%。
混合硬件无性能惩罚
DiLoCo 对混合代代硬件的支持使组织能够将最新的 TPU 与旧的 GPU 集群相结合。这种




