Che cos'è l'architettura Decoupled DiLoCo?
Google ha annunciato oggi il lancio della sua architettura Decoupled DiLoCo, un nuovo framework progettato per accelerare l'addestramento distribuito di modelli AI attraverso più data center. Separando la gestione dei dati dall'orchestrazione del calcolo, il sistema può gestire carichi di lavoro su larga scala più rapidamente mantenendo la pipeline di addestramento resiliente a guasti hardware o interruzioni di rete.
Guadagni di velocità che contano
I primi benchmark suggeriscono che il design Decoupled DiLoCo può ridurre i cicli di addestramento fino al 30 % rispetto alle precedenti configurazioni monolitiche di Google. Per un modello che tipicamente richiede 100 ore di tempo GPU, il nuovo approccio potrebbe far risparmiare circa 30 ore, traducendosi in milioni di dollari risparmiati per le imprese che eseguono migliaia di esperimenti all'anno.
Resilienza integrata nel cuore
Uno dei vantaggi più convincenti è la capacità dell'architettura di tollerare i guasti. Se un rack di server va offline, DiLoCo reindirizza automaticamente i compiti ai nodi sani, limitando l'interruzione del lavoro a meno di cinque minuti nella maggior parte dei casi. Secondo dati interni, i tassi complessivi di fallimento dei lavori sono diminuiti di circa il 40 % da quando è iniziata la fase pilota.
Combina hardware senza penalità di prestazioni
Il supporto hardware a generazioni miste di DiLoCo consente alle organizzazioni di combinare le ultime TPU con cluster GPU più vecchi. Questa flessibilità riduce le spese in conto capitale perché le aziende possono mantenere produttive le attrezzature legacy integrando gradualmente acceleratori più recenti. I principali vantaggi includono:




