Loading market data...

科技

Google 推出 Decoupled DiLoCo 加速 AI 训练

By GFdaily Newsroom

Decoupled DiLoCo architecture distributed AI training Google AI infrastructure mixed-generation hardware AI model resilience

May 1, 2026 1 分钟阅读

Read in:🇺🇸 English 🇹🇷 Türkçe 🇸🇦 العربية 🇫🇷 Français 🇩🇪 Deutsch 🇷🇺 Русский 🇮🇹 Italiano 🇧🇷 Português 🇨🇳 中文 🇪🇸 Español 🇯🇵 日本語

Google 推出 Decoupled DiLoCo 加速 AI 训练

什么是 Decoupled DiLoCo 架构？

Google 今日宣布推出其 Decoupled DiLoCo 架构，这是一种旨在加速跨多个数据中心的分布式 AI 模型训练的新框架。通过将数据处理与计算编排分离，该系统能够更快地推进大规模工作负载，同时保持训练流水线对硬件故障或网络抖动的韧性。

意义重大的加速提升

早期基准测试表明，与 Google 之前的单体部署相比，Decoupled DiLoCo 设计可将训练周期缩短最高 30%。对于通常需要 100 小时 GPU 时间的模型，新方法可削减约 30 小时，这相当于每年进行数千次实验的企业可节省数百万美元。

核心内置的弹性

最具吸引力的优势之一是该架构能够容错。如果一整排服务器离线，DiLoCo 会自动将任务重新路由至健康节点，在大多数情况下将作业中断限制在五分钟以内。内部数据显示，自试点阶段开始，整体作业失败率已下降约 40%。

混合硬件无性能惩罚

DiLoCo 对混合代代硬件的支持使组织能够将最新的 TPU 与旧的 GPU 集群相结合。这种