גוגל משיקה את Gemini Omni, בינה מלאכותית מולטי-מודאלית ליצירת וידאו

גוגל הציגה את Gemini Omni, מודל בינה מלאכותית מולטי-מודאלי המיועד ליצירת וידאו, עריכה וסיפור סיפורים. לפי החברה, המודל משתמש בפיזיקה מתקדמת ובידע על העולם האמיתי כדי ליצור ולתפעל תוכן וידאו.

מה Gemini Omni עושה

Gemini Omni בנוי לטפל במגוון סוגי נתונים – טקסט, תמונות, אודיו ווידאו – אך ההתמקדות שלו היא בווידאו. הוא יכול ליצור קליפים חדשים מאפס, לערוך קטעים קיימים ואפילו לבנות נרטיבים קוהרנטיים. ההבנה של המודל בפיזיקה ובאינטראקציות בעולם האמיתי מאפשרת לו ליצור תנועה, תאורה והתנהגות של עצמים בצורה ריאליסטית, ללא תקלות ברורות.

זה מה שמייחד אותו מכלי וידאו קודמים מבוססי בינה מלאכותית, שלעיתים התקשו בעקביות או הפיקו תנועות לא טבעיות. גוגל אומרת שהידע של המודל על האופן שבו עצמים נעים ומקיימים אינטראקציה בעולם הפיזי מסייע לו להפיק תוצאות חלקות ואמינות יותר.

איך זה עובד

החברה לא פרסמה מפרט טכני, אך נראה ש-Gemini Omni משלב יכולות של מודלי שפה גדולים עם מודלי יצירת וידאו גנרטיביים. משתמשים יכולים להזין תיאורי טקסט, תמונות ייחוס או לוחות סיפור גסים, והמודל מפיק וידאו התואם את ההנחיה. הוא יכול גם לקחת וידאו גולמי ולהחיל עליו עריכות – שינוי רקעים, התאמת תזמון או הוספת אלמנטים – באמצעות פקודות בשפה טבעית.

גוגל אומרת שהמודל "מנצל פיזיקה מתקדמת וידע על העולם האמיתי" כדי להבין סצנות. סביר להניח שזה אומר שהוא מדמה כיצד אור נופל, כיצד עצמים מטילים צללים, וכיצד תנועה עוקבת אחר מומנטום, במקום פשוט להעתיק דפוסים מנתוני האימון.

יצירת וידאו היא משימה כבדה עבור רוב האנשים – היא דורשת מיומנות, זמן ותוכנה יקרה. Gemini Omni שואף להוריד את החסמים האלה. משווק יוכל ליצור הדגמת מוצר מתסריט. מורה יוכל להפוך מערך שיעור לסרטון הסבר מונפש. יכולת הסיפור של המודל עשויה לעזור ליוצרים לבנות סרטים קצרים או תוכן לרשתות חברתיות ללא צוות הפקה.

ההשקה גם מסמנת את המהלך של גוגל להטמיע בינה מלאכותית בזרימות עבודה יצירתיות. חברות טכנולוגיה אחרות שחררו מודלי יצירת וידאו – לדוגמה, Sora של OpenAI ו-Make-A-Video של Meta – אך הדגש של Gemini Omni על ריאליזם מבוסס פיזיקה מציע זווית אחרת.

גוגל לא הודיעה על תמחור, זמינות או תאריך השקה ל-Gemini Omni. החברה אמרה שהיא תשיק את המודל תחילה לבודקים נבחרים, ולאחר מכן תינתן גישה רחבה יותר. לא ברור אם הכלי יהיה חינמי, מבוסס מנוי או מקושר לשירותי Google Cloud.

לעת עתה, יוצרים ומפתחים יכולים רק לחכות לפרטים נוספים. ההשפעה של המודל תהיה תלויה במידת הצלחתו בטיפול בעריכות מורכבות ובמידת הימנעותו מהמלכודות האתיות שהטרידו כלי וידאו אחרים מבוססי בינה מלאכותית – כמו זיופים עמוקים (deepfakes) או חומר מוגן בזכויות יוצרים. גוגל אומרת שהטמיעה מסנני בטיחות, אך לא תיארה אותם בפירוט.

מה Gemini Omni עושה

איך זה עובד

Related Articles