ในกระบวนการพัฒนาเกมและฉากเสมือนจริง การสร้างต้นแบบพื้นที่ 3 มิติตั้งแต่ต้นมักกินแรงงานและเวลามหาศาล แม้เทคโนโลยีการสร้างวิดีโอจะก้าวหน้าอย่างรวดเร็ว แต่ไฟล์วิดีโอ 2 มิติให้เพียงมุมมองเดียวในรูปแบบพิกเซล ทำให้ไม่สามารถปรับแสงเงา เคลื่อนย้ายวัตถุ หรือส่งต่อเข้าเอนจินเพื่อแก้ไขต่อได้โดยตรง
Tencent ได้เปิดตัวและโอเพนซอร์สโมเดลโลกหลายรูปแบบสำหรับ 3 มิติที่ชื่อ HY-World 2.0 (混元 3D 世界模型 2.0) เพื่อแก้ปัญหาคอขวดด้านประสิทธิภาพนี้ มันก้าวข้ามข้อจำกัดของโมเดลวิดีโอแบบเดิม โดยสามารถแปลงข้อความ ภาพร่าง หรือวิดีโอให้เป็นสินทรัพย์ผสมแบบที่แก้ไขได้และเก็บถาวร ซึ่งประกอบด้วย 3DGS และ Mesh ที่รองรับคุณสมบัติการชน (collision) ซึ่งช่วยลดเกณฑ์การออกแบบต้นแบบและอนุญาตให้ผู้สร้างดาวน์โหลดไปติดตั้งใช้งานในเครื่องได้ทันที แล้วเครื่องมือนี้ทำอย่างไรจึงเปลี่ยนจาก “ดูได้แต่แก้ไม่ได้” ให้เป็นไฟล์สามมิติที่แก้ไขได้?

ตัวชี้วัดเทคนิคสำคัญโดยสรุป
| ตัวชี้วัดเทคนิค | ข้อมูลจำเพาะของ HY-World 2.0 (混元 3D 世界模型 2.0) | คุณค่าในการใช้งาน |
|---|---|---|
| รูปแบบอินพุต | ข้อความ, ภาพเดี่ยว, ภาพหลายมุมมอง, วิดีโอ | ลดเกณฑ์การเตรียมวัสดุ |
| รูปแบบเอาต์พุต | 3DGS, Mesh, Point Cloud, วิดีโอความละเอียดสูง | รองรับซอฟต์แวร์ 3D และเกมเอนจินกระแสหลัก |
| สถาปัตยกรรมหลัก | โมเดลคาดการณ์ไปข้างหน้าแบบรวม WorldMirror 2.0 | คาดการณ์ความลึกและพารามิเตอร์กล้องได้ในการรันครั้งเดียว |
| แพลตฟอร์มอินเทอร์แอคทีฟ | แพลตฟอร์มเรนเดอร์ WorldLens | รองรับการจัดแสงสภาพแวดล้อมอัตโนมัติและการตรวจจับการชนทางฟิสิกส์ของตัวละคร |
| ลักษณะโอเพนซอร์ส | ซอฟต์แวร์โอเพนซอร์สเสรี (FOSS) เปิดให้ดาวน์โหลดน้ำหนักโมเดลได้ | รองรับการติดตั้งในเครื่อง ปกป้องความเป็นส่วนตัวของข้อมูลและสินทรัพย์ |
งานหลักและเวิร์กโฟลว์: จากภาษาธรรมชาติสู่สินทรัพย์ที่แก้ไขได้
ในวงจรการพัฒนา 3 มิติแบบดั้งเดิม นักออกแบบต้องผ่านขั้นตอนตั้งแต่ร่างสเก็ตช์ ไปสู่การสร้างโมเดลระดับต่ำ-สูง การทำ UV แผนที่ เท็กซ์เจอร์ การเบค และนำเข้าเอนจิน HY-World 2.0 ย่อขั้นตอนเหล่านี้ให้เป็นเวิร์กโฟลว์ใหม่ดังนี้:
- อินพุตหลายรูปแบบ (ข้อความ ภาพเดี่ยว หรือวิดีโอหลายมุมมอง)
- HY-Pano 2.0 การเริ่มต้นพาโนรามา:ระบบสังเคราะห์ฉากแบบ 360 องศาอัตโนมัติ โดยไม่ต้องใช้พารามิเตอร์กล้อง
- WorldNav การวางแผนเส้นทาง:AI วิเคราะห์โครงสร้างฉากเพื่อวางเส้นทางการเคลื่อนที่และหลีกเลี่ยงอุปสรรค
- WorldStereo 2.0 การขยายมุมมอง:ผสานหน่วยความจำเชิงรูปทรงเพื่อขยายมุมมองอย่างต่อเนื่อง
- WorldMirror 2.0 การสังเคราะห์โลก:คาดการณ์จุดเมฆแน่นเพื่อส่งออกเป็นไฟล์ 3DGS และ Mesh

นักพัฒนาสามารถพิมพ์คำอธิบายสั้นๆ หรืออัพโหลดภาพคอนเซ็ปท์ ระบบจะสังเคราะห์ฉากพาโนรามา 360 องศาและในเวลาไม่กี่นาทีสร้างไฟล์ 3 มิติที่มีโครงสร้างสมบูรณ์ แตกต่างจากการสร้างวิดีโอแบบเดิม สินทรัพย์ที่ได้สามารถเรนเดอร์ได้ไม่จำกัดเวลา รักษาความสอดคล้องของพื้นที่ และไม่เกิดการบิดเบือนเมื่อต้องหมุนมุมกล้อง ระบบนี้ทำได้อย่างไรถึงนำข้อความหรือภาพเดี่ยวมาประกอบเป็นพื้นที่สามมิติได้ภายในไม่กี่วินาที?
กลไกฟื้นคืนพื้นที่สี่ขั้นตอน
เพื่อให้การฟื้นคืนพื้นที่ทำได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ระดับผู้ใช้ HY-World 2.0 ใช้สถาปัตยกรรมแบ่งเป็นสี่ขั้นตอน:

- การสร้างภาพพาโนรามา (HY-Pano 2.0):การสร้างพาโนรามาแบบเดิมมักต้องพึ่งพาพารามิเตอร์ภายใน-นอกของกล้อง แต่ HY-Pano 2.0 ใช้วิธีการเรียนรู้แบบ end-to-end แบบแฝง ทำให้ AI เรียนรู้แผนที่เชิงพื้นที่จากภาพเดี่ยวโดยไม่ต้องการเมตาดาต้าของกล้อง ก็สามารถสร้างฉากพื้นหลังแบบพาโนรามาได้
- การวางเส้นทาง (WorldNav):ระบบแยกวิเคราะห์โครงสร้างเชิงเรขาคณิตและความหมายของฉาก เพื่อวางเส้นทางการเคลื่อนที่ของกล้องอย่างสมเหตุผลและหลีกเลี่ยงพฤติกรรมที่ขัดกับฟิสิกส์ เช่นการทะลุกำแพง
- การขยายโลก (WorldStereo 2.0):ตามเส้นทางที่วางไว้ ระบบเรียกใช้งานหน่วยความจำเชิงรูปทรงและความลึกเชิงพื้นที่ เพื่อให้พื้นที่ที่สร้างใหม่ต่อเชื่อมกับพื้นที่เดิมทั้งด้านเรขาคณิตและภาพ ลดปัญหาที่โมเดลวิดีโอทั่วไปมักลืมข้อมูลเมื่อกล้องเคลื่อนไปมา
- การสังเคราะห์โลก (WorldMirror 2.0):เป็นโมเดลการคาดการณ์แบบรวมด้านหน้า สามารถพยากรณ์จุดเมฆแน่น (dense point cloud) แผนที่ความลึก (depth map) เวกเตอร์ปกผิว (surface normals) ท่าทางกล้อง และคุณสมบัติ 3DGS ในการรันครั้งเดียว รวมชิ้นส่วนทั้งหมดเป็นโลก 3 มิติชุดเดียว
ตัวอย่างการเรียกใช้ Python API
นักพัฒนาสามารถเรียกโหลดโมเดลที่ผ่านการฝึกมาแล้วและรันโมดูลการสร้างพาโนรามาได้ด้วยโค้ด Python ไม่กี่บรรทัด:
from pipeline import HunyuanPanoPipeline
pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')
แพลตฟอร์มเรนเดอร์อินเทอร์แอคทีฟพร้อมระบบชนในตัว
เพื่อให้ฉากที่สร้างขึ้นใช้งานได้จริง ทีมวิจัยได้พัฒนาแพลตฟอร์มเรนเดอร์ WorldLens มาพร้อมสถาปัตยกรรมที่ไม่ผูกกับเอนจินใดเอนจินหนึ่ง และฝังเทคนิค IBL (image-based lighting) อัตโนมัติที่ปรับค่าการสะท้อนแสงแบบกระจายและโลหะตามโทนสีของสภาพแวดล้อมที่สร้าง
จุดเด่นที่เห็นได้ชัดคือโหมดผจญภัยของตัวละคร ผู้ใช้สามารถควบคุมตัวละครเสมือนด้วยคีย์บอร์ด WASD เดินสำรวจฉากที่สร้างขึ้น ไม่ว่าจะขึ้นบันไดหรือชนเสา ระบบจะคืนฟีดแบ็กทางฟิสิกส์อย่างแม่นยำ การโต้ตอบแบบเรียลไทม์นี้ช่วยให้ผู้พัฒนาไม่ต้องผูกคอลลิชันบ็อกซ์ด้วยตนเอง สามารถตรวจสอบสเกลและอัตราส่วนของด่านต้นแบบได้ภายในไม่กี่วินาที เทียบกับโมเดลเชิงพาณิชย์แบบปิดซอร์ส จุดแข็งทางเทคนิคของโครงการโอเพนซอร์สนี้คืออะไร?
เทคนิคเหนือกว่าคู่แข่ง Marble
Marble ซึ่งเป็นโมเดลโลกเชิงพาณิชย์ที่มีชื่อเสียง ถือเป็นมาตรฐานในสายงานนี้ แต่เมื่อใช้งานจริงขั้นตอนแปลง 3DGS เป็น Mesh มักมีสัญญาณรบกวนจำนวนมาก
ในทางกลับกัน HY-World 2.0 ผสานกลไก MaskGaussian ในขั้นตอนการรีคอนสตรัคชัน ช่วยกรองจุดกอซเซียนส่วนเกินถึง 77% ตั้งแต่ต้นทาง ผลลัพธ์ Mesh ที่ส่งออกสะอาดขึ้นมาก ลดเวลางานรีโทโพลีและการลดหน้า (decimation) ชัดเจน อีกทั้งในฐานะซอฟต์แวร์โอเพนซอร์ส (FOSS) HY-World 2.0 อนุญาตให้ผู้พัฒนารันการอนุมานทั้งกระบวนการและปรับจูนบน GPU เซิร์ฟเวอร์ภายในองค์กรได้ สำหรับโครงการที่มีข้อจำกัดด้านการรั่วไหลของข้อมูล การวางระบบในเครื่องช่วยเสริมความปลอดภัยของข้อมูลซึ่งเป็นจุดที่โซลูชันคลาวด์แบบปิดไม่สามารถเทียบได้ แต่เทคโนโลยีนี้พร้อมจะมาแทนที่เวิร์กโฟลว์ 3D แบบดั้งเดิมทั้งหมดหรือยัง?

ข้อจำกัดทางเทคนิค
แม้ HY-World 2.0 จะนำระดับความสามารถใหม่มาสู่วงการโอเพนซอร์ส แต่ในการใช้งานเชิงผลิตจริงยังมีข้อจำกัดเด่นสองประการ:
- ฉากไม่แยกเป็นวัตถุ (Non-instanced):ระบบสร้างเป็นเมชฉากรวมเชื่อมติดกัน ไม่ใช่ทรัพย์สิน 3D แต่ละชิ้นที่แยกดึงออกมาแก้ไขได้ ดังนั้นหากสร้างห้องนั่งเล่นอย่างประณีต คุณจะไม่สามารถเลือกและย้ายเก้าอี้ชิ้นเดียวในซอฟต์แวร์แก้ไขได้ เพราะวัตถุนั้นเชื่อมติดกับพื้นและผนัง เหมาะสำหรับงานตกแต่งพื้นหลังหรือต้นแบบบรรยากาศระยะไกล แต่ยังไม่เหมาะเป็นไอเท็มอินเทอร์แอคทีฟระดับสูงสำหรับด่านเกม
- การเปิดซอร์สโค้ดเป็นขั้นตอน:ขณะนี้รีโปสาธารณะเปิดโค้ดและน้ำหนักของ WorldMirror 2.0 กับ HY-Pano 2.0 เป็นหลัก แต่โค้ดการรันเชื่อมต่อทั้งสี่ขั้นตอนยังค่อยๆ ถูกปล่อยออกมา ผู้ที่ต้องการทำให้การสร้างโลกจากข้อความเป็นกระบวนการอัตโนมัติทั้งชุดบนเครื่องยังต้องพึ่งสคริปต์ชุมชนในช่วงเปลี่ยนผ่าน
💡 เทคนิคที่ควรรู้:โมเดล WorldMirror 2.0 ของ Hunyuan 2.0 รองรับการอนุมานที่ความละเอียดยืดหยุ่นตั้งแต่ 50K ถึง 500K พิกเซล หากฮาร์ดแวร์ภายในเครื่องมีหน่วยความจำวิดีโอจำกัด สามารถปรับพารามิเตอร์และสลับไปใช้รุ่น mini ของโมเดลระหว่างการปรับใช้งานได้
การมาของ HY-World 2.0 ยกระดับแนวคิดโมเดลโลกจากการบันทึกเป็นวิดีโอ ไปสู่การสร้างไฟล์สามมิติที่ “เล่นได้” สำหรับสตูดิโอเกมอินดี้ นักศึกษามัลติมีเดีย และทีมงานผลิตภัณฑ์เสมือนจริง มันช่วยลดต้นทุนการสร้างฉากคอนเซ็ปท์ในช่วงเริ่มต้นอย่างมาก แม้ปัจจุบันยังไม่สามารถแทนที่การผลิตวัตถุขั้นสุดท้ายที่ต้องมีการโต้ตอบสูงได้ทั้งหมด แต่ในฐานะเครื่องมือยืนยันไอเดียที่ต้นทุนต่ำและมีประสิทธิภาพ HY-World 2.0 ช่วยขยับเส้นเริ่มต้นของการสร้างสรรค์ไปข้างหน้าได้อย่างชัดเจน

