在遊戲與虛擬場景的開發過程中,構建初期的 3D 空間原型往往耗費大量人力與時間。雖然近年來影片生成技術發展迅速,但生成的二維影片僅能提供單一視角的像素畫面,無法讓開發者調整光影或移動物件,更無法直接導入遊戲引擎進行二次編輯。
騰訊正式發布並開源的多模態 3D 世界模型「混元 3D 世界模型 2.0」(HY-World 2.0),正是為了解決這個效率瓶頸。它突破了以往影片模型的局限,能直接將文字、草圖或影片轉化為可編輯、永久保存且具備物理碰撞屬性的 3DGS(3D 高斯潑濺)和 Mesh(網格)混合資產。這項技術降低了原型設計的門檻,讓創作者得以下載並在本地部署。那麼,這項工具究竟如何突破「只能看、不能改」的像素局限?

關鍵技術指標速覽
| 技術指標 | 混元 3D 世界模型 2.0 (HY-World 2.0) 規格 | 實用價值 |
|---|---|---|
| 輸入模態 | 文字、單張圖片、多視角影像、影片 | 降低素材預備門檻 |
| 輸出格式 | 3DGS、Mesh、點雲、高畫質影片 | 兼容主流 3D 軟體與遊戲引擎 |
| 核心架構 | WorldMirror 2.0 統一前向預測模型 | 單次前向傳播即可預測深度與相機參數 |
| 交互平台 | WorldLens 渲染平台 | 支援自動環境光照與角色物理碰撞檢測 |
| 開源性質 | 自由開源軟體 (FOSS),已開放模型權重 | 支援本地部署,保護數據與資產隱私 |
核心任務與工作流:從自然語言到可編輯資產
在傳統的 3D 開發循環中,設計師需要經歷草圖、低模、高模、貼圖、烘焙、導入引擎等多個繁瑣步驟。HY-World 2.0 將此循環簡化為全新工作流:
- 多模態輸入 (文字、單張圖片、多視角影像或影片)
- HY-Pano 2.0 全景初始化:自動合成 360 度空間,無需相機參數
- WorldNav 軌跡規劃:AI 自動解析場景並進行尋路避障
- WorldStereo 2.0 視角擴展:結合立體幾何記憶擴充觀測範圍
- WorldMirror 2.0 世界合成:一鍵預測密集點雲並輸出 3DGS 檔案

開發者只需輸入一句描述或一張概念圖,系統即可自動合成 360 度的全景空間,並在幾分鐘內重建出結構完整的 3D 檔案。與傳統影片生成相比,這些生成的 3D 資產具備無限制的渲染時長,並能完美保持空間一致性,在相機視角旋轉時不會出現畫面扭曲。這套系統是如何在幾秒鐘內把文字或單圖拼湊成完整三維空間的?
四階段空間還原機制
為了在消費級硬體上實現高效率的空間還原,HY-World 2.0 採用了四階段架構:

- 全景圖生成 (HY-Pano 2.0):傳統全景生成高度依賴精密的相機內外參,而 HY-Pano 2.0 採用端到端隱式學習方案,讓 AI 從普通單張圖片中學習空間映射,無需任何相機元數據,即可生成背景全景。
- 軌跡規劃 (WorldNav):系統自動解析場景的幾何與語義結構,智能規劃出一條合理的相機移動路徑,在物理層面避免穿牆等不合理行為。
- 世界擴展 (WorldStereo 2.0):沿著規劃路徑,引入全局幾何記憶與空間立體記憶機制,確保新生成的區域與已有區域在幾何和視覺上完美銜接,解決了傳統影片模型轉頭即遺忘的通病。
- 世界合成 (WorldMirror 2.0):這是一個統一的前向預測模型,可在單次運行中預測出密集點雲、深度圖、表面法線、相機姿勢及 3DGS 屬性,最終將所有片段結合成一體的 3D 世界。
Python API 調用範例
開發者可以通過幾行 Python 代碼,在本地快速加載預訓練模型並運行全景生成模組:
from pipeline import HunyuanPanoPipeline
pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')
自帶碰撞的互動渲染平台
為了讓生成的場景達到可用與可玩的標準,研發團隊隨模型推出了 WorldLens 渲染平台。該平台具有靈活的引擎無關架構,並內置了自動 IBL(基於圖像的光照)技術,能根據生成的環境色調自動調整漫反射和金屬光澤。
最直觀的特點在於其角色大冒險模式。用戶可以直接用鍵盤 WASD 控制虛擬角色在生成的場景中自由穿梭,不論是走上台階還是撞向石柱,系統都會提供準確的物理阻擋反饋。這種即時交互性使開發者無需進行複雜的碰撞體綁定,即可在幾秒鐘內驗證關卡原型的空間比例是否合理。與目前的閉源商業模型相比,這款完全開源的工具有何技術優勢?
技術比競爭對手 Marble 強勁
知名商業世界模型 Marble 是目前空間生成領域的標桿。在實際應用中,Marble 生成 3DGS 後的網格(Mesh)轉換算法時常伴隨大量噪點。
相比之下,HY-World 2.0 整合了 MaskGaussian 剪裁機制,在重構階段就過濾掉 77% 的冗餘高斯點,導出的 Mesh 網格更為乾淨,大幅節約了後期拓撲和簡面的時間。同時,作為自由開源軟體(FOSS),HY-World 2.0 允許開發者在本地 GPU 伺服器上進行全流程推理與微調。對於處理敏感專案或限制數據外流的企業,本地部署帶來的數據安全優勢是閉源雲端方案無法比擬的。這項技術是否已經完美到可以徹底取代傳統的 3D 建模工作流?

技術局限性
儘管 HY-World 2.0 達到了開源領域的領先水準,但在實際生產環境中仍有兩個明顯的技術局限:
- 場景非物件化 (Non-instanced):系統生成的是一個有機結合的整體場景網格,而非一個個獨立的 3D 道具。這意味著,如果你生成了一個精緻的起居室,你無法在編輯軟體中單獨選中並挪開其中的一張椅子,因為它與地板和牆壁在網格上是熔接在一起的。它目前主要適用於遠景裝飾、環境氛圍原型的快速搭建,無法直接作為高交互性的關卡。
- 代碼分階段開源的落差:目前的開源倉庫主要開放了 WorldMirror 2.0 和 HY-Pano 2.0 的代碼與權重,而完整的四階段串聯推理代碼仍在逐步釋出中。想要在本地一鍵實現文字生成完整世界,仍需依賴社群的過渡性腳本。
💡 技術提示:Hunyuan 2.0 的 WorldMirror 2.0 預測模型支持 50K 到 500K 像素的彈性分辨率推理。如果本地硬體顯存有限,可在部署時調整參數加載 mini 版本模型進行過渡。
HY-World 2.0 的出現,將世界模型的概念從錄製一段影片提升至構建一個可玩的三維檔案。對於全球獨立遊戲工作室、多媒體院校學生以及虛擬製片團隊而言,它將大幅降低初期場景概念的構建成本。即使它暫時無法產出可以直接投入最終發行版的精細物件,但作為一個低成本、高效率的原型驗證工具,它已經將創作起跑線向前推進了一大步。

