NVIDIA Vera Rubin e Groq 3 LPX puntano a un balzo di efficienza di 35x per l'AI con trilioni di parametri

Due nuove piattaforme hardware mirano a soddisfare le esigenze di calcolo estreme dei modelli AI con trilioni di parametri. La piattaforma Vera Rubin di NVIDIA e l'architettura Groq 3 LPX promettono insieme un guadagno di efficienza combinato di 35x, secondo le aziende. L'annuncio arriva mentre gli sviluppatori spingono le dimensioni dei modelli ben oltre ciò che l'infrastruttura attuale può gestire a costi contenuti.

Il problema della scalabilità

Addestrare un modello con un trilione di parametri richiede un'enorme larghezza di banda di memoria e velocità di interconnessione. I sistemi odierni spesso incontrano colli di bottiglia che trasformano le sessioni di addestramento in progetti di mesi. La piattaforma Vera Rubin e Groq 3 LPX sono progettate ciascuna per risolvere diverse parti di questa equazione. L'approccio di NVIDIA si concentra su cluster di calcolo densi, mentre la linea LPX di Groq punta all'esecuzione deterministica a bassa latenza. Insieme, le due affermano di ridurre il consumo energetico e i tempi di addestramento di un fattore 35.

Cosa significa il numero 35x

La cifra di efficienza non è un singolo benchmark, ma una proiezione di miglioramenti a livello di sistema, dall'architettura del chip al movimento dei dati. Per un modello con un trilione di parametri, un guadagno di 35x potrebbe trasformare un ciclo di addestramento di un anno in poche settimane. Nessuna delle due aziende ha ancora pubblicato risultati di test indipendenti, ma entrambe indicano scelte architetturali che riducono i cicli sprecati e il traffico di memoria. La piattaforma Vera Rubin utilizza una nuova architettura di interconnessione, mentre Groq 3 LPX si basa su un modello di esecuzione deterministico che evita il sovraccarico tradizionale della cache.

Perché il tempismo è importante

La spinta arriva mentre i modelli linguistici di grandi dimensioni e i sistemi AI multimodali superano regolarmente la soglia dei cento miliardi di parametri. I modelli con un trilione di parametri sono ampiamente considerati la prossima frontiera, ma la loro implementazione pratica è bloccata dai costi. I produttori di hardware si affrettano a fornire soluzioni che rendano questi modelli economicamente sostenibili. NVIDIA e Groq affrontano lo stesso problema da angolazioni diverse, e l'affermazione del 35x è un punto di riferimento per entrambe.

Nessuna delle due aziende ha annunciato date di disponibilità generale per la piattaforma Vera Rubin o Groq 3 LPX. I sistemi beta dovrebbero arrivare a partner selezionati entro la fine dell'anno. Il vero test arriverà quando laboratori indipendenti e provider cloud metteranno l'hardware alla prova con carichi di lavoro reali da un trilione di parametri. Fino ad allora, il numero 35x rimane una promessa in attesa di prova.

Il problema della scalabilità

Cosa significa il numero 35x

Perché il tempismo è importante

Articoli Correlati