Google、動画作成向けマルチモーダルAI「Gemini Omni」を発表

Googleは、動画の作成、編集、ストーリーテリングを目的としたマルチモーダルAIモデル「Gemini Omni」を発表しました。同社によると、このモデルは高度な物理学と現実世界の知識を活用して動画コンテンツを生成および操作します。

Gemini Omniができること

Gemini Omniはテキスト、画像、音声、動画など複数のデータタイプを処理するように設計されていますが、特に動画に焦点を当てています。スクラッチから新しいクリップを作成したり、既存の映像を編集したり、一貫したストーリーを構築したりすることが可能です。物理学と現実世界の相互作用を理解しているため、目立った不具合なく現実的な動き、照明、オブジェクトの挙動を生成できます。

これは、一貫性に欠けたり不自然な動きを出力したりする従来のAI動画ツールと一線を画しています。Googleによると、物理世界での物体の動きや相互作用に関する知識により、より滑らかで説得力のある結果が得られるとしています。

仕組み

同社は技術仕様を公開していませんが、Gemini Omniは大規模言語モデルの機能と生成型動画モデルを組み合わせたものと思われます。テキスト説明、参照画像、またはラフなストーリーボードを入力すると、モデルはプロンプトに合った動画を出力します。また、生の動画に自然言語コマンドで背景の変更、タイミングの調整、要素の追加などを行うこともできます。

Googleは、このモデルが「高度な物理学と現実世界の知識を活用して」シーンを理解すると説明しています。これは、学習データからパターンを単純にコピーするのではなく、光の当たり方、影の落ち方、運動の運動量に基づくシミュレーションを実行している可能性を示唆しています。

動画作成はほとんどの人にとって技術、時間、高額なソフトウェアを必要とする困難な作業です。Gemini Omniはこれらの障壁を解消することを目指しています。マーケターはスクリプトから製品デモを生成でき、教師は授業計画をアニメーション解説動画に変換可能です。ストーリーテリング能力により、制作チームなしで短編映画やSNS向けコンテンツを作成できる可能性があります。

この発表は、GoogleがクリエイティブワークフローへのAI組み込みを加速させようとしていることを示しています。OpenAIのSoraやMetaのMake-A-Videoなど、他社も動画生成モデルをリリースしていますが、Gemini Omniは物理学に基づく現実性を重視する点で差別化されています。

GoogleはGemini Omniの価格、利用可能時期、リリース日を発表していません。まずは選定されたテストユーザーに提供し、その後段階的に拡大するとしています。無料、サブスクリプション制、またはGoogle Cloudサービスとの連携のいずれかになる可能性がありますが、詳細は未定です。

現時点では、クリエイターや開発者は詳細を待つしかありません。このモデルの影響力は、複雑な編集への対応力や、他のAI動画ツールで問題となっているディープフェイクや著作権素材の使用など倫理的課題を回避できるかどうかにかかっています。Googleは安全対策フィルターを備えていると述べていますが、詳細は明かしていません。

Gemini Omniができること

仕組み

関連記事