Google เปิดตัว Gemini Omni: ไม่ใช่แค่เครื่องมือคัดต่อ
หลังจากที่ Seedance 2.0 สอนให้ครีเอเตอร์ยุคใหม่รู้ว่า “AI ช่วยใส่ฟิลเตอร์ ปรับท่าเต้น และตัดต่อคลิปได้” ครั้งนี้ Google ที่งาน I/O ส่ง Gemini Omni ขึ้นมาโดยไม่พอใจแค่เป็นตัวเร่งการตัดต่อเท่านั้น ตำแหน่งการลงมือของมันสูงขึ้นมาก—ยืนอยู่เหนือแพลตฟอร์มยาวสั้นอย่าง YouTube เพื่อใช้โมเดลที่เข้าใจโลกจริงของวิดีโอ (video world model) เข้าตีสนามการแข่งขันวิดีโอ AI ที่เดิมถูกครอบงำโดยระบบนิเวศของ TikTok และ Douyin เป้าหมายของ Google คือให้คุณสามารถใช้ AI เขียนภาพใหม่ได้โดยตรงใน YouTube Shorts และใน YouTube Create App โดยไม่ต้องกระโดดออกไปใช้เครื่องมืออื่น


จากข้อความเป็นวิดีโอสู่โมเดลโลก〈世界模型〉ตัวจริง
ในเชิงสัญชาติญาณ Gemini Omni ไม่ได้เป็นเพียงเครื่องมือโชว์ผลงานอีกชิ้น แต่เป็น โมเดลโลก〈世界模型〉 ที่แท้จริง: มันสามารถเข้าใจข้อความ รูปภาพ เสียง และวิดีโอพร้อมกัน จากนั้นอาศัยความรู้เกี่ยวกับความเป็นจริงและกฎทางฟิสิกส์เพื่อสร้างหรือแก้ไขเฟรมใหม่ได้ เมื่อต้นปีที่แล้วโปรเจกต์ Nano Banana ที่ฮิตถล่มทลายได้แสดงให้เห็นว่า Gemini ทำงานสร้างภาพนิ่งได้ดีเพียงใด ครั้งนี้ Omni นำความสามารถ “เข้าใจโลกก่อน แล้วค่อยสร้างโลกใหม่” ขึ้นมาบนแกนเวลาในวิดีโอ เพื่อให้ครีเอเตอร์สั่งงานเป็นบทสนทนาแล้วค่อยๆ แก้ผลงานทีละชั้น เช่น สั่งให้เปลี่ยนการถ่ายสตรีทที่มงก๊ก (ย่านการค้าคึกคักในเกาลูน ฮ่องกง) ให้เป็นโทนหนังฮ่องกงยุค 80 แล้วเพิ่มไฟนีออนกับการดันกล้องแบบค่อยเป็นค่อยไป—คลิปเดิมจะค่อยๆ พัฒนาไปตลอดทั้งช่วงเวลา แทนที่จะเป็นการใส่ฟิลเตอร์คนละช็อตแยกกัน
Omni กับ Seedance ต่างกันอย่างไร
ถึงแม้จะเป็นวิดีโอที่ขับเคลื่อนด้วย AI เหมือนกัน แต่ Seedance มุ่งไปที่การเพิ่มพลังให้วิดีโอสั้นบน TikTok: ใส่เพลงอัตโนมัติ ปรับท่าเต้น เทมเพลตเอฟเฟกต์ ให้กดปุ่มเดียวออกเป็นเวอร์ชันที่เหมาะกับการลงบนแพลตฟอร์มอย่าง Douyin/抖音 ได้เลย ส่วน Omni เน้นที่โมเดลโลกและตรรกะการเล่าเรื่องต่อเนื่อง จึงเหมาะกับงานแนว Vlog คอนเทนต์สไตล์สารคดี เรื่องราวแบรนด์ และการทำวิชวลไลซ์สำหรับเกมหรือหนังในขั้นพรีโปรดักชัน คุณถ่ายฉากจริงครั้งเดียว แล้วใช้ข้อความเปลี่ยนแสง เปลี่ยนมุมกล้อง เปลี่ยนฉาก รูปลักษณ์ตัวละครและผลทางฟิสิกส์ยังคงความสอดคล้อง—การออกแบบนี้ทำให้พลังจากคนที่เคยเป็นแค่คนตัดต่อถูกผลักไปสู่คนวางแผนและผู้กำกับ: คนที่ไม่รู้วิธีลากคีย์เฟรมก็สามารถสั่งภาพด้วยภาษาธรรมชาติได้ ขณะที่ตัดต่อจะกลายเป็นผู้รวมผลงานจาก Omni ให้เป็นจังหวะเดียวและทำการเก็บรายละเอียดสุดท้าย
การนำไปใช้จริงและความปลอดภัยด้านลิขสิทธิ์
ในแง่การนำไปใช้จริง Omni Flash จะเปิดผ่าน Gemini App และ Google Flow ให้ผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra เข้าถึงก่อน รวมถึงแทรกฟีเจอร์นี้เข้าไปใน YouTube Shorts และ YouTube Create App แบบไม่คิดค่าบริการ เพื่อให้ครีเอเตอร์ของ YouTube เรียกใช้งาน Omni ได้ในเวิร์กโฟลว์เดิมโดยไม่ต้องส่งออก-นำเข้าไปมาระหว่างแพลตฟอร์ม ส่วนองค์กรและนักพัฒนาสามารถใช้ Gemini API ดึง Omni ไปเป็นส่วนหนึ่งของบริการคลาวด์หรือเครื่องมือแบรนด์ของตัวเอง โดยคำนึงถึงความเสี่ยงด้านการปลอมแปลง Google ใส่ลายน้ำที่มองไม่เห็น (SynthID) ลงในวิดีโอที่ Omni สร้างขึ้น พร้อม Content Credentials ที่ให้ตรวจแหล่งที่มาด้วยการคลิกเพียงครั้งเดียว อีกด้านหนึ่ง ฟีเจอร์ที่เกี่ยวกับการปลอมเสียงหรือเปลี่ยนการขยับปากยังถูกจำกัดอย่างเข้มงวด เวอร์ชันสาธารณะจะเน้นที่การเปลี่ยนสไตล์และการเขียนซีนมากกว่า ไม่ใช่การสวมบทเป็นบุคคลจริงโดยพลการ
ยุคต่อไปของสนามแข่งขันวิดีโอ AI
มองในมุมการแข่งขันแพลตฟอร์ม Seedance เป็นตัวอย่างที่แสดงว่า ByteDance พลิก TikTok ให้กลายเป็นสายการผลิตคอนเทนต์ที่มีการอัตโนมัติสูง ส่วน Gemini Omni คือชั้นโมเดลโลกที่ Google ติดตั้งลงในระบบนิเวศของ YouTube เพื่อให้ครีเอเตอร์สามารถนำ AI เข้ามาเปลี่ยนภาพ เปลี่ยนสไตล์ ทดลองหลายเวอร์ชันได้โดยไม่ออกจากแพลตฟอร์ม สำหรับครีเอเตอร์ฮ่องกง สิ่งที่ต้องคิดจริงจังตอนนี้ไม่ใช่ว่า AI จะช่วยประหยัดเวลาได้แค่ไหน แต่เป็นคำถามง่ายๆ ว่า หลังจากที่ Seedance เปลี่ยนกระบวนการตัดต่อแล้ว คุณพร้อมจะเริ่มทดลองเมื่อไหร่ เพื่อให้ Gemini Omni ช่วยยกระดับผลงานต่อไปบนพื้นฐานของ YouTube?

