Google lancia Gemini Omni, un'IA multimodale per la creazione di video

Google ha presentato Gemini Omni, un modello di IA multimodale progettato per la creazione, il montaggio e la narrazione di video. Il modello utilizza fisica avanzata e conoscenza del mondo reale per generare e manipolare contenuti video, ha dichiarato l'azienda.

Cosa fa Gemini Omni

Gemini Omni è progettato per gestire più tipi di dati — testo, immagini, audio e video — ma il suo focus è il video. Può creare nuovi clip da zero, modificare filmati esistenti e persino costruire narrazioni coerenti. La comprensione del modello della fisica e delle interazioni del mondo reale significa che può generare movimento, illuminazione e comportamento degli oggetti realistici senza evidenti glitch.

Questo lo distingue dai precedenti strumenti di intelligenza artificiale per video, che spesso faticavano con la coerenza o producevano movimenti innaturali. Google afferma che la conoscenza del modello su come gli oggetti si muovono e interagiscono nel mondo fisico lo aiuta a produrre risultati più fluidi e credibili.

Come funziona

L'azienda non ha rilasciato specifiche tecniche, ma Gemini Omni sembra combinare le capacità dei grandi modelli linguistici con i modelli generativi video. Gli utenti possono inserire descrizioni testuali, immagini di riferimento o storyboard approssimativi, e il modello produce un video che corrisponde al prompt. Può anche prendere un video grezzo e applicare modifiche — cambiare sfondi, regolare i tempi o aggiungere elementi — utilizzando comandi in linguaggio naturale.

Google afferma che il modello "sfrutta fisica avanzata e conoscenza del mondo reale" per comprendere le scene. Ciò significa probabilmente che simula come cade la luce, come gli oggetti proiettano ombre e come il movimento segue la quantità di moto, piuttosto che limitarsi a copiare schemi dai dati di addestramento.

La creazione di video è un compito impegnativo per la maggior parte delle persone — richiede abilità, tempo e software costoso. Gemini Omni mira ad abbattere queste barriere. Un marketer potrebbe generare una demo di prodotto da un copione. Un insegnante potrebbe trasformare un piano di lezione in un video animato esplicativo. La capacità narrativa del modello potrebbe aiutare i creatori a realizzare cortometraggi o contenuti per social media senza una troupe di produzione.

Il lancio segnala anche la spinta di Google a integrare l'IA nei flussi di lavoro creativi. Altre aziende tecnologiche hanno rilasciato modelli di generazione video — come Sora di OpenAI e Make-A-Video di Meta — ma l'enfasi di Gemini Omni sul realismo basato sulla fisica offre una prospettiva diversa.

Google non ha annunciato prezzi, disponibilità o una data di rilascio per Gemini Omni. L'azienda ha dichiarato che distribuirà il modello prima a tester selezionati, con un accesso più ampio in seguito. Non è chiaro se lo strumento sarà gratuito, basato su abbonamento o legato ai servizi Google Cloud.

Per ora, creatori e sviluppatori possono solo attendere ulteriori dettagli. L'impatto del modello dipenderà da quanto bene gestirà modifiche complesse e se eviterà le insidie etiche che hanno afflitto altri strumenti di IA video — come i deepfake o materiali protetti da copyright. Google afferma di aver implementato filtri di sicurezza, ma non li ha descritti in dettaglio.

Cosa fa Gemini Omni

Come funziona

Articoli Correlati