Google nis Gemini Omni, një AI multimodal për krijimin e videove

Google ka prezantuar Gemini Omni, një model AI multimodal i projektuar për krijimin, redaktimin dhe tregimin e historive me video. Modeli përdor fizikë të avancuar dhe njohuri të botës reale për të gjeneruar dhe manipuluar përmbajtje video, tha kompania.

Çfarë bën Gemini Omni

Gemini Omni është ndërtuar për të trajtuar lloje të shumta të dhënash — tekst, imazhe, audio dhe video — por fokusi i tij është video. Ai mund të krijojë klip të reja nga e para, të redaktojë pamje ekzistuese dhe madje të ndërtojë narrativa koherente. Kuptimi i modelit për fizikën dhe ndërveprimet në botën reale do të thotë se ai mund të gjenerojë lëvizje, ndriçim dhe sjellje të objekteve realiste pa gabime të dukshme.

Kjo e dallon atë nga mjetet e mëparshme të AI për video që shpesh kishin vështirësi me qëndrueshmërinë ose prodhonin lëvizje të panatyrshme. Google thotë se njohuria e modelit se si objektet lëvizin dhe ndërveprojnë në botën fizike e ndihmon atë të prodhojë rezultate më të lëmuara dhe më të besueshme.

Si funksionon

Kompania nuk ka publikuar specifikime teknike, por Gemini Omni duket se kombinon aftësitë e modeleve të mëdha gjuhësore me modelet gjeneruese të videove. Përdoruesit mund të fusin përshkrime teksti, imazhe reference ose storyboard të përafërta, dhe modeli nxjerr një video që përputhet me kërkesën. Ai gjithashtu mund të marrë një video të papërpunuar dhe të aplikojë redaktime — ndryshimin e sfondit, rregullimin e kohës ose shtimin e elementeve — duke përdorur komanda në gjuhë natyrore.

Google thotë se modeli “shfrytëzon fizikë të avancuar dhe njohuri të botës reale” për të kuptuar skenat. Kjo ka të ngjarë të nënkuptojë se ai simulon se si bie drita, si objektet hedhin hije dhe si lëvizja ndjek momentumin, në vend që thjesht të kopjojë modele nga të dhënat e trajnimit.

Krijimi i videove është një barrë e madhe për shumicën e njerëzve — kërkon aftësi, kohë dhe softuer të shtrenjtë. Gemini Omni synon të heqë këto pengesa. Një tregtar mund të gjenerojë një demonstrim produkti nga një skenar. Një mësues mund ta kthejë një plan mësimi në një shpjegues të animuar. Aftësia e modelit për të treguar histori mund të ndihmojë krijuesit të ndërtojnë filma të shkurtër ose përmbajtje për rrjetet sociale pa një ekip prodhimi.

Nisja sinjalizon gjithashtu shtytjen e Google për të futur AI në rrjedhat krijuese të punës. Kompani të tjera teknologjike kanë publikuar modele gjenerimi të videove — për shembull, Sora e OpenAI dhe Make-A-Video e Meta-s — por theksi i Gemini Omni në realizmin e bazuar në fizikë ofron një këndvështrim tjetër.

Google nuk ka njoftuar çmimin, disponueshmërinë ose datën e lëshimit për Gemini Omni. Kompania tha se do ta nxjerrë modelin fillimisht për testues të përzgjedhur, me akses më të gjerë më pas. Nuk është e qartë nëse mjeti do të jetë falas, me abonim ose i lidhur me shërbimet e Google Cloud.

Tani për tani, krijuesit dhe zhvilluesit mund të presin vetëm për më shumë detaje. Ndikimi i modelit do të varet nga sa mirë i trajton redaktimet komplekse dhe nëse shmang kurthet etike që kanë përfshirë mjetet e tjera të AI për video — si deepfakes ose materiali i mbrojtur nga e drejta e autorit. Google thotë se ka filtra sigurie të vendosura, por nuk i ka përshkruar ato në detaje.

Çfarë bën Gemini Omni

Si funksionon

Related Articles