Google เปิดตัว Gemini Omni ซึ่งเป็น AI หลายรูปแบบสำหรับการสร้างวิดีโอ

Google ได้เปิดตัว Gemini Omni ซึ่งเป็นโมเดล AI หลายรูปแบบที่ออกแบบมาสำหรับการสร้าง ตัดต่อ และการเล่าเรื่องวิดีโอ บริษัทระบุว่าโมเดลนี้ใช้ฟิสิกส์ขั้นสูงและความรู้เกี่ยวกับโลกจริงเพื่อสร้างและปรับเปลี่ยนเนื้อหาวิดีโอ

ความสามารถของ Gemini Omni

Gemini Omni ถูกสร้างขึ้นเพื่อจัดการกับข้อมูลหลายประเภท ได้แก่ ข้อความ รูปภาพ เสียง และวิดีโอ แต่จุดเน้นอยู่ที่วิดีโอ โมเดลสามารถสร้างคลิปใหม่ตั้งแต่เริ่มต้น ตัดต่อวิดีโอที่มีอยู่ และแม้กระทั่งสร้างเรื่องราวที่สอดคล้องกัน ความเข้าใจเกี่ยวกับฟิสิกส์และการโต้ตอบในโลกจริงของโมเดลช่วยให้สามารถสร้างการเคลื่อนไหว แสง และพฤติกรรมของวัตถุที่สมจริงโดยไม่มีข้อบกพร่องที่ชัดเจน

นี่คือสิ่งที่ทำให้แตกต่างจากเครื่องมือ AI วิดีโอในยุคก่อนที่มักประสบปัญหาเรื่องความสม่ำเสมอหรือสร้างการเคลื่อนไหวที่ไม่เป็นธรรมชาติ Google กล่าวว่าความรู้ของโมเดลเกี่ยวกับวิธีการที่วัตถุเคลื่อนที่และโต้ตอบในโลกกายภาพช่วยให้ผลลัพธ์ราบรื่นและน่าเชื่อถือมากขึ้น

วิธีการทำงาน

บริษัทยังไม่ได้เปิดเผยข้อมูลจำเพาะทางเทคนิค แต่ Gemini Omni ดูเหมือนจะรวมความสามารถของโมเดลภาษาขนาดใหญ่เข้ากับโมเดลวิดีโอเชิงสร้างสรรค์ ผู้ใช้สามารถป้อนคำอธิบายข้อความ รูปภาพอ้างอิง หรือสตอรีบอร์ดคร่าวๆ แล้วโมเดลจะส่งออกวิดีโอที่ตรงกับคำสั่ง นอกจากนี้ยังสามารถนำวิดีโอต้นฉบับมาใช้และปรับเปลี่ยน เช่น เปลี่ยนพื้นหลัง ปรับจังหวะเวลา หรือเพิ่มองค์ประกอบ โดยใช้คำสั่งภาษาธรรมชาติ

Google กล่าวว่าโมเดล "ใช้ประโยชน์จากฟิสิกส์ขั้นสูงและความรู้เกี่ยวกับโลกจริง" เพื่อทำความเข้าใจฉาก ซึ่งหมายความว่าโมเดลจำลองว่าแสงตกกระทบอย่างไร วัตถุทอดเงาอย่างไร และการเคลื่อนที่เป็นไปตามโมเมนตัมอย่างไร แทนที่จะคัดลอกรูปแบบจากข้อมูลฝึกฝนเท่านั้น

การสร้างวิดีโอเป็นงานที่หนักสำหรับคนส่วนใหญ่ เพราะต้องใช้ทักษะ เวลา และซอฟต์แวร์ราคาแพง Gemini Omni มุ่งหวังที่จะลดอุปสรรคเหล่านี้ นักการตลาดสามารถสร้างตัวอย่างสินค้าจากสคริปต์ ครูสามารถเปลี่ยนแผนการสอนเป็นวิดีโออธิบายแบบเคลื่อนไหว ความสามารถในการเล่าเรื่องของโมเดลอาจช่วยให้ผู้สร้างผลิตภาพยนตร์สั้นหรือเนื้อหาสำหรับโซเชียลมีเดียโดยไม่ต้องมีทีมผลิต

การเปิดตัวครั้งนี้ยังแสดงถึงการผลักดันของ Google ในการฝัง AI เข้าสู่ขั้นตอนการทำงานเชิงสร้างสรรค์ บริษัทเทคโนโลยีอื่นๆ ได้เปิดตัวโมเดลสร้างวิดีโอ เช่น Sora ของ OpenAI และ Make-A-Video ของ Meta แต่การเน้นความสมจริงตามหลักฟิสิกส์ของ Gemini Omni นำเสนอมุมมองที่แตกต่าง

Google ยังไม่ได้ประกาศราคา ความพร้อมใช้งาน หรือวันวางจำหน่ายสำหรับ Gemini Omni บริษัทระบุว่าจะเปิดให้ผู้ทดสอบที่คัดเลือกใช้งานก่อน ตามด้วยการเข้าถึงในวงกว้าง ยังไม่ชัดเจนว่าเครื่องมือนี้จะให้บริการฟรี แบบสมัครสมาชิก หรือเชื่อมโยงกับบริการ Google Cloud

ในตอนนี้ ผู้สร้างและนักพัฒนาทำได้เพียงรอรายละเอียดเพิ่มเติม ผลกระทบของโมเดลจะขึ้นอยู่กับว่ามันจัดการกับการตัดต่อที่ซับซ้อนได้ดีเพียงใด และหลีกเลี่ยงข้อผิดพลาดทางจริยธรรมที่เครื่องมือ AI วิดีโออื่นๆ เคยประสบ เช่น ดีปเฟกหรือเนื้อหาที่มีลิขสิทธิ์ Google กล่าวว่ามีตัวกรองความปลอดภัยติดตั้งไว้ แต่ยังไม่ได้อธิบายรายละเอียด

ความสามารถของ Gemini Omni

วิธีการทำงาน

Related Articles