3D世界模型在遊戲與虛擬場景的開發過程中,構建初期原型往往耗費大量人力與時間。
騰訊最新公開資料指出,為解決過去二維影片只能觀看、無法修改的限制,公司推出了名為混元 3D 世界模型 2.0(HY-World 2.0)的多模態世界模型,能把文字、草圖或影片直接轉為可編輯且具物理碰撞屬性的3D資產,並允許下載在本地部署。

3D世界模型關鍵技術指標速覽
| 技術指標 | 混元 3D 世界模型 2.0 (HY-World 2.0) 規格 | 實用價值 |
|---|---|---|
| 輸入模態 | 文字、單張圖片、多視角影像、影片 | 降低素材預備門檻 |
| 輸出格式 | 3DGS、Mesh、點雲、高畫質影片 | 兼容主流 3D 軟體與遊戲引擎 |
| 核心架構 | WorldMirror 2.0 統一前向預測模型 | 單次前向傳播即可預測深度與相機參數 |
| 交互平台 | WorldLens 渲染平台 | 支援自動環境光照與角色物理碰撞檢測 |
| 開源性質 | 自由開源軟體 (FOSS),已開放模型權重 | 支援本地部署,保護數據與資產隱私 |
核心任務與工作流:從自然語言到可編輯資產
在傳統的3D開發循環中,設計師需經過草圖、低模、高模、貼圖、烘焙與導入遊戲引擎等多個步驟。
- 多模態輸入 (文字、單張圖片、多視角影像或影片)
- HY-Pano 2.0 全景初始化:自動合成 360度 空間,無需相機參數
- WorldNav 軌跡規劃:AI 自動解析場景並進行尋路避障
- WorldStereo 2.0 視角擴展:結合立體幾何記憶擴充觀測範圍
- WorldMirror 2.0 世界合成:一鍵預測密集點雲並輸出 3DGS(3D 高斯潑濺)檔案

開發者只需輸入一句描述或一張概念圖,系統即可自動合成全景,並在幾分鐘內重建出結構完整的3D檔案。
與傳統影片生成相比,這些生成的3D資產具備無限制的渲染時長,並能保持空間一致性,避免相機視角旋轉時出現扭曲。
四階段空間還原機制
為了在消費級硬體上實現高效率的空間還原,該系統採用了4階段架構,分別處理全景生成、軌跡規劃、世界擴展與世界合成。

- 全景圖生成 (HY-Pano 2.0):採用端到端隱式學習方案,讓AI從普通單張圖片中學習空間映射,無需任何相機元數據即可生成背景全景。
- 軌跡規劃 (WorldNav):系統自動解析場景的幾何與語義結構,智能規劃相機移動路徑,在物理層面避免穿牆等不合理行為。
- 世界擴展 (WorldStereo 2.0):沿著規劃路徑,引入全局幾何記憶與空間立體記憶機制,確保新生成區域與既有區域在幾何和視覺上完美銜接。
- 世界合成 (WorldMirror 2.0):統一前向預測模型可一次性輸出密集點雲、深度圖、表面法線、相機姿勢及 3DGS 屬性,將片段結合成完整的3D世界。
Python API 調用範例
開發者可以通過幾行 Python 程式,在本地快速載入預訓練模型並運行全景生成模組。
from pipeline import HunyuanPanoPipeline
pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')
自帶碰撞的互動渲染平台
為了讓生成的場景達到可用與可玩的標準,研發團隊推出了名為 WorldLens 的渲染平台,採用引擎無關架構,並內置自動 IBL(基於影像的光照)技術,能根據環境色調自動調整漫反射與金屬光澤。
平台具備角色大冒險模式,用戶可用鍵盤 WASD 控制虛擬角色在生成場景中穿梭,不論是走上台階還是撞向石柱,系統都會提供準確的物理阻擋反饋,讓開發者在幾秒內驗證關卡原型的空間比例是否合理。
技術比競爭對手 Marble 更具優勢
市場上知名的商業世界模型 Marble 在將 3DGS 轉為網格(Mesh)時,常伴隨大量噪點與雜散高斯點。
HY-World 2.0 整合了 MaskGaussian 剪裁機制,在重構階段就過濾掉 77% 的冗餘高斯點,導出的 Mesh 更為乾淨,大幅節省後期拓撲與簡化面的時間。

技術局限性與注意事項
儘管 HY-World 2.0 在開源領域處於領先地位,但在實務生產環境仍有兩項主要限制需要注意。
- 場景非物件化 (Non-instanced):系統生成的是有機結合的整體場景網格,而非獨立的 3D 道具,使用者無法在編輯軟體中單獨選中並移動場景內單一家具,較適合遠景裝飾與環境氛圍原型。
- 代碼分階段開源的落差:目前開源倉庫主要開放了 WorldMirror 2.0 與 HY-Pano 2.0 的代碼與權重,完整的四階段串聯推理代碼仍在逐步釋出,欲在本地一鍵生成完整世界仍需依賴社群過渡性腳本。
💡 技術提示:WorldMirror 2.0 的預測模型支持 50K 到 500K 像素 的彈性分辨率推理,若本地顯存有限,可部署 mini 版模型進行過渡。
總體而言,HY-World 2.0 將世界模型從錄製影片提升為可玩的三維檔案,對於獨立遊戲工作室、多媒體院校與虛擬製片團隊,能顯著降低初期場景概念的構建成本。
即使當前版本尚無法直接產出可投入最終發行的精細物件,它作為一套低成本且高效率的原型驗證工具,已把創作起跑線向前推進了一大步。

