HY-World 2.0: เครื่องมือสร้างโลก 3 มิติที่แก้ไขได้

ในกระบวนการพัฒนาเกมและฉากเสมือนจริง การสร้างต้นแบบพื้นที่ 3 มิติตั้งแต่ต้นมักกินแรงงานและเวลามหาศาล แม้เทคโนโลยีการสร้างวิดีโอจะก้าวหน้าอย่างรวดเร็ว แต่ไฟล์วิดีโอ 2 มิติให้เพียงมุมมองเดียวในรูปแบบพิกเซล ทำให้ไม่สามารถปรับแสงเงา เคลื่อนย้ายวัตถุ หรือส่งต่อเข้าเอนจินเพื่อแก้ไขต่อได้โดยตรง

Tencent ได้เปิดตัวและโอเพนซอร์สโมเดลโลกหลายรูปแบบสำหรับ 3 มิติที่ชื่อ HY-World 2.0 (混元 3D 世界模型 2.0) เพื่อแก้ปัญหาคอขวดด้านประสิทธิภาพนี้ มันก้าวข้ามข้อจำกัดของโมเดลวิดีโอแบบเดิม โดยสามารถแปลงข้อความ ภาพร่าง หรือวิดีโอให้เป็นสินทรัพย์ผสมแบบที่แก้ไขได้และเก็บถาวร ซึ่งประกอบด้วย 3DGS และ Mesh ที่รองรับคุณสมบัติการชน (collision) ซึ่งช่วยลดเกณฑ์การออกแบบต้นแบบและอนุญาตให้ผู้สร้างดาวน์โหลดไปติดตั้งใช้งานในเครื่องได้ทันที แล้วเครื่องมือนี้ทำอย่างไรจึงเปลี่ยนจาก “ดูได้แต่แก้ไม่ได้” ให้เป็นไฟล์สามมิติที่แก้ไขได้?

ตัวอย่างฉากภายในที่สร้างจาก HY-World 2.0 แสดงมุมมอง 360 องศาและองค์ประกอบพื้นผิว

ตัวชี้วัดเทคนิคสำคัญโดยสรุป

ตัวชี้วัดเทคนิค	ข้อมูลจำเพาะของ HY-World 2.0 (混元 3D 世界模型 2.0)	คุณค่าในการใช้งาน
รูปแบบอินพุต	ข้อความ, ภาพเดี่ยว, ภาพหลายมุมมอง, วิดีโอ	ลดเกณฑ์การเตรียมวัสดุ
รูปแบบเอาต์พุต	3DGS, Mesh, Point Cloud, วิดีโอความละเอียดสูง	รองรับซอฟต์แวร์ 3D และเกมเอนจินกระแสหลัก
สถาปัตยกรรมหลัก	โมเดลคาดการณ์ไปข้างหน้าแบบรวม WorldMirror 2.0	คาดการณ์ความลึกและพารามิเตอร์กล้องได้ในการรันครั้งเดียว
แพลตฟอร์มอินเทอร์แอคทีฟ	แพลตฟอร์มเรนเดอร์ WorldLens	รองรับการจัดแสงสภาพแวดล้อมอัตโนมัติและการตรวจจับการชนทางฟิสิกส์ของตัวละคร
ลักษณะโอเพนซอร์ส	ซอฟต์แวร์โอเพนซอร์สเสรี (FOSS) เปิดให้ดาวน์โหลดน้ำหนักโมเดลได้	รองรับการติดตั้งในเครื่อง ปกป้องความเป็นส่วนตัวของข้อมูลและสินทรัพย์

งานหลักและเวิร์กโฟลว์: จากภาษาธรรมชาติสู่สินทรัพย์ที่แก้ไขได้

ในวงจรการพัฒนา 3 มิติแบบดั้งเดิม นักออกแบบต้องผ่านขั้นตอนตั้งแต่ร่างสเก็ตช์ ไปสู่การสร้างโมเดลระดับต่ำ-สูง การทำ UV แผนที่ เท็กซ์เจอร์ การเบค และนำเข้าเอนจิน HY-World 2.0 ย่อขั้นตอนเหล่านี้ให้เป็นเวิร์กโฟลว์ใหม่ดังนี้:

อินพุตหลายรูปแบบ (ข้อความ ภาพเดี่ยว หรือวิดีโอหลายมุมมอง)
HY-Pano 2.0 การเริ่มต้นพาโนรามา：ระบบสังเคราะห์ฉากแบบ 360 องศาอัตโนมัติ โดยไม่ต้องใช้พารามิเตอร์กล้อง
WorldNav การวางแผนเส้นทาง：AI วิเคราะห์โครงสร้างฉากเพื่อวางเส้นทางการเคลื่อนที่และหลีกเลี่ยงอุปสรรค
WorldStereo 2.0 การขยายมุมมอง：ผสานหน่วยความจำเชิงรูปทรงเพื่อขยายมุมมองอย่างต่อเนื่อง
WorldMirror 2.0 การสังเคราะห์โลก：คาดการณ์จุดเมฆแน่นเพื่อส่งออกเป็นไฟล์ 3DGS และ Mesh

อินเตอร์เฟซการทำงานของ HY-World 2.0 แสดงการสังเคราะห์พาโนรามาและองค์ประกอบจุดเมฆ

นักพัฒนาสามารถพิมพ์คำอธิบายสั้นๆ หรืออัพโหลดภาพคอนเซ็ปท์ ระบบจะสังเคราะห์ฉากพาโนรามา 360 องศาและในเวลาไม่กี่นาทีสร้างไฟล์ 3 มิติที่มีโครงสร้างสมบูรณ์ แตกต่างจากการสร้างวิดีโอแบบเดิม สินทรัพย์ที่ได้สามารถเรนเดอร์ได้ไม่จำกัดเวลา รักษาความสอดคล้องของพื้นที่ และไม่เกิดการบิดเบือนเมื่อต้องหมุนมุมกล้อง ระบบนี้ทำได้อย่างไรถึงนำข้อความหรือภาพเดี่ยวมาประกอบเป็นพื้นที่สามมิติได้ภายในไม่กี่วินาที?

กลไกฟื้นคืนพื้นที่สี่ขั้นตอน

เพื่อให้การฟื้นคืนพื้นที่ทำได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ระดับผู้ใช้ HY-World 2.0 ใช้สถาปัตยกรรมแบ่งเป็นสี่ขั้นตอน:

แผนภาพสี่ขั้นตอนของกระบวนการ HY-World 2.0 ตั้งแต่ HY-Pano ถึง WorldMirror

การสร้างภาพพาโนรามา (HY-Pano 2.0)：การสร้างพาโนรามาแบบเดิมมักต้องพึ่งพาพารามิเตอร์ภายใน-นอกของกล้อง แต่ HY-Pano 2.0 ใช้วิธีการเรียนรู้แบบ end-to-end แบบแฝง ทำให้ AI เรียนรู้แผนที่เชิงพื้นที่จากภาพเดี่ยวโดยไม่ต้องการเมตาดาต้าของกล้อง ก็สามารถสร้างฉากพื้นหลังแบบพาโนรามาได้
การวางเส้นทาง (WorldNav)：ระบบแยกวิเคราะห์โครงสร้างเชิงเรขาคณิตและความหมายของฉาก เพื่อวางเส้นทางการเคลื่อนที่ของกล้องอย่างสมเหตุผลและหลีกเลี่ยงพฤติกรรมที่ขัดกับฟิสิกส์ เช่นการทะลุกำแพง
การขยายโลก (WorldStereo 2.0)：ตามเส้นทางที่วางไว้ ระบบเรียกใช้งานหน่วยความจำเชิงรูปทรงและความลึกเชิงพื้นที่ เพื่อให้พื้นที่ที่สร้างใหม่ต่อเชื่อมกับพื้นที่เดิมทั้งด้านเรขาคณิตและภาพ ลดปัญหาที่โมเดลวิดีโอทั่วไปมักลืมข้อมูลเมื่อกล้องเคลื่อนไปมา
การสังเคราะห์โลก (WorldMirror 2.0)：เป็นโมเดลการคาดการณ์แบบรวมด้านหน้า สามารถพยากรณ์จุดเมฆแน่น (dense point cloud) แผนที่ความลึก (depth map) เวกเตอร์ปกผิว (surface normals) ท่าทางกล้อง และคุณสมบัติ 3DGS ในการรันครั้งเดียว รวมชิ้นส่วนทั้งหมดเป็นโลก 3 มิติชุดเดียว

ตัวอย่างการเรียกใช้ Python API

นักพัฒนาสามารถเรียกโหลดโมเดลที่ผ่านการฝึกมาแล้วและรันโมดูลการสร้างพาโนรามาได้ด้วยโค้ด Python ไม่กี่บรรทัด:

from pipeline import HunyuanPanoPipeline

pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')

แพลตฟอร์มเรนเดอร์อินเทอร์แอคทีฟพร้อมระบบชนในตัว

เพื่อให้ฉากที่สร้างขึ้นใช้งานได้จริง ทีมวิจัยได้พัฒนาแพลตฟอร์มเรนเดอร์ WorldLens มาพร้อมสถาปัตยกรรมที่ไม่ผูกกับเอนจินใดเอนจินหนึ่ง และฝังเทคนิค IBL (image-based lighting) อัตโนมัติที่ปรับค่าการสะท้อนแสงแบบกระจายและโลหะตามโทนสีของสภาพแวดล้อมที่สร้าง

จุดเด่นที่เห็นได้ชัดคือโหมดผจญภัยของตัวละคร ผู้ใช้สามารถควบคุมตัวละครเสมือนด้วยคีย์บอร์ด WASD เดินสำรวจฉากที่สร้างขึ้น ไม่ว่าจะขึ้นบันไดหรือชนเสา ระบบจะคืนฟีดแบ็กทางฟิสิกส์อย่างแม่นยำ การโต้ตอบแบบเรียลไทม์นี้ช่วยให้ผู้พัฒนาไม่ต้องผูกคอลลิชันบ็อกซ์ด้วยตนเอง สามารถตรวจสอบสเกลและอัตราส่วนของด่านต้นแบบได้ภายในไม่กี่วินาที เทียบกับโมเดลเชิงพาณิชย์แบบปิดซอร์ส จุดแข็งทางเทคนิคของโครงการโอเพนซอร์สนี้คืออะไร?

เทคนิคเหนือกว่าคู่แข่ง Marble

Marble ซึ่งเป็นโมเดลโลกเชิงพาณิชย์ที่มีชื่อเสียง ถือเป็นมาตรฐานในสายงานนี้ แต่เมื่อใช้งานจริงขั้นตอนแปลง 3DGS เป็น Mesh มักมีสัญญาณรบกวนจำนวนมาก

ในทางกลับกัน HY-World 2.0 ผสานกลไก MaskGaussian ในขั้นตอนการรีคอนสตรัคชัน ช่วยกรองจุดกอซเซียนส่วนเกินถึง 77% ตั้งแต่ต้นทาง ผลลัพธ์ Mesh ที่ส่งออกสะอาดขึ้นมาก ลดเวลางานรีโทโพลีและการลดหน้า (decimation) ชัดเจน อีกทั้งในฐานะซอฟต์แวร์โอเพนซอร์ส (FOSS) HY-World 2.0 อนุญาตให้ผู้พัฒนารันการอนุมานทั้งกระบวนการและปรับจูนบน GPU เซิร์ฟเวอร์ภายในองค์กรได้ สำหรับโครงการที่มีข้อจำกัดด้านการรั่วไหลของข้อมูล การวางระบบในเครื่องช่วยเสริมความปลอดภัยของข้อมูลซึ่งเป็นจุดที่โซลูชันคลาวด์แบบปิดไม่สามารถเทียบได้ แต่เทคโนโลยีนี้พร้อมจะมาแทนที่เวิร์กโฟลว์ 3D แบบดั้งเดิมทั้งหมดหรือยัง?

ผู้เล่นทดสอบฉากด้วยโหมดตัวละคร WorldLens แสดงการชนและการตอบสนองทางฟิสิกส์

ข้อจำกัดทางเทคนิค

แม้ HY-World 2.0 จะนำระดับความสามารถใหม่มาสู่วงการโอเพนซอร์ส แต่ในการใช้งานเชิงผลิตจริงยังมีข้อจำกัดเด่นสองประการ:

ฉากไม่แยกเป็นวัตถุ (Non-instanced)：ระบบสร้างเป็นเมชฉากรวมเชื่อมติดกัน ไม่ใช่ทรัพย์สิน 3D แต่ละชิ้นที่แยกดึงออกมาแก้ไขได้ ดังนั้นหากสร้างห้องนั่งเล่นอย่างประณีต คุณจะไม่สามารถเลือกและย้ายเก้าอี้ชิ้นเดียวในซอฟต์แวร์แก้ไขได้ เพราะวัตถุนั้นเชื่อมติดกับพื้นและผนัง เหมาะสำหรับงานตกแต่งพื้นหลังหรือต้นแบบบรรยากาศระยะไกล แต่ยังไม่เหมาะเป็นไอเท็มอินเทอร์แอคทีฟระดับสูงสำหรับด่านเกม
การเปิดซอร์สโค้ดเป็นขั้นตอน：ขณะนี้รีโปสาธารณะเปิดโค้ดและน้ำหนักของ WorldMirror 2.0 กับ HY-Pano 2.0 เป็นหลัก แต่โค้ดการรันเชื่อมต่อทั้งสี่ขั้นตอนยังค่อยๆ ถูกปล่อยออกมา ผู้ที่ต้องการทำให้การสร้างโลกจากข้อความเป็นกระบวนการอัตโนมัติทั้งชุดบนเครื่องยังต้องพึ่งสคริปต์ชุมชนในช่วงเปลี่ยนผ่าน

💡 เทคนิคที่ควรรู้：โมเดล WorldMirror 2.0 ของ Hunyuan 2.0 รองรับการอนุมานที่ความละเอียดยืดหยุ่นตั้งแต่ 50K ถึง 500K พิกเซล หากฮาร์ดแวร์ภายในเครื่องมีหน่วยความจำวิดีโอจำกัด สามารถปรับพารามิเตอร์และสลับไปใช้รุ่น mini ของโมเดลระหว่างการปรับใช้งานได้

การมาของ HY-World 2.0 ยกระดับแนวคิดโมเดลโลกจากการบันทึกเป็นวิดีโอ ไปสู่การสร้างไฟล์สามมิติที่ “เล่นได้” สำหรับสตูดิโอเกมอินดี้ นักศึกษามัลติมีเดีย และทีมงานผลิตภัณฑ์เสมือนจริง มันช่วยลดต้นทุนการสร้างฉากคอนเซ็ปท์ในช่วงเริ่มต้นอย่างมาก แม้ปัจจุบันยังไม่สามารถแทนที่การผลิตวัตถุขั้นสุดท้ายที่ต้องมีการโต้ตอบสูงได้ทั้งหมด แต่ในฐานะเครื่องมือยืนยันไอเดียที่ต้นทุนต่ำและมีประสิทธิภาพ HY-World 2.0 ช่วยขยับเส้นเริ่มต้นของการสร้างสรรค์ไปข้างหน้าได้อย่างชัดเจน

Search