騰訊一鍵生成可漫遊 3D 空間

在遊戲與虛擬場景的開發過程中，構建初期的 3D 空間原型往往耗費大量人力與時間。雖然近年來影片生成技術發展迅速，但生成的二維影片僅能提供單一視角的像素畫面，無法讓開發者調整光影或移動物件，更無法直接導入遊戲引擎進行二次編輯。

騰訊正式發布並開源的多模態 3D 世界模型「混元 3D 世界模型 2.0」（HY-World 2.0），正是為了解決這個效率瓶頸。它突破了以往影片模型的局限，能直接將文字、草圖或影片轉化為可編輯、永久保存且具備物理碰撞屬性的 3DGS（3D 高斯潑濺）和 Mesh（網格）混合資產。這項技術降低了原型設計的門檻，讓創作者得以下載並在本地部署。那麼，這項工具究竟如何突破「只能看、不能改」的像素局限？

關鍵技術指標速覽

技術指標	混元 3D 世界模型 2.0 (HY-World 2.0) 規格	實用價值
輸入模態	文字、單張圖片、多視角影像、影片	降低素材預備門檻
輸出格式	3DGS、Mesh、點雲、高畫質影片	兼容主流 3D 軟體與遊戲引擎
核心架構	WorldMirror 2.0 統一前向預測模型	單次前向傳播即可預測深度與相機參數
交互平台	WorldLens 渲染平台	支援自動環境光照與角色物理碰撞檢測
開源性質	自由開源軟體 (FOSS)，已開放模型權重	支援本地部署，保護數據與資產隱私

核心任務與工作流：從自然語言到可編輯資產

在傳統的 3D 開發循環中，設計師需要經歷草圖、低模、高模、貼圖、烘焙、導入引擎等多個繁瑣步驟。HY-World 2.0 將此循環簡化為全新工作流：

多模態輸入 (文字、單張圖片、多視角影像或影片)
HY-Pano 2.0 全景初始化：自動合成 360 度空間，無需相機參數
WorldNav 軌跡規劃：AI 自動解析場景並進行尋路避障
WorldStereo 2.0 視角擴展：結合立體幾何記憶擴充觀測範圍
WorldMirror 2.0 世界合成：一鍵預測密集點雲並輸出 3DGS 檔案

開發者只需輸入一句描述或一張概念圖，系統即可自動合成 360 度的全景空間，並在幾分鐘內重建出結構完整的 3D 檔案。與傳統影片生成相比，這些生成的 3D 資產具備無限制的渲染時長，並能完美保持空間一致性，在相機視角旋轉時不會出現畫面扭曲。這套系統是如何在幾秒鐘內把文字或單圖拼湊成完整三維空間的？

四階段空間還原機制

為了在消費級硬體上實現高效率的空間還原，HY-World 2.0 採用了四階段架構：

全景圖生成 (HY-Pano 2.0)：傳統全景生成高度依賴精密的相機內外參，而 HY-Pano 2.0 採用端到端隱式學習方案，讓 AI 從普通單張圖片中學習空間映射，無需任何相機元數據，即可生成背景全景。
軌跡規劃 (WorldNav)：系統自動解析場景的幾何與語義結構，智能規劃出一條合理的相機移動路徑，在物理層面避免穿牆等不合理行為。
世界擴展 (WorldStereo 2.0)：沿著規劃路徑，引入全局幾何記憶與空間立體記憶機制，確保新生成的區域與已有區域在幾何和視覺上完美銜接，解決了傳統影片模型轉頭即遺忘的通病。
世界合成 (WorldMirror 2.0)：這是一個統一的前向預測模型，可在單次運行中預測出密集點雲、深度圖、表面法線、相機姿勢及 3DGS 屬性，最終將所有片段結合成一體的 3D 世界。

Python API 調用範例

開發者可以通過幾行 Python 代碼，在本地快速加載預訓練模型並運行全景生成模組：

from pipeline import HunyuanPanoPipeline

pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')

自帶碰撞的互動渲染平台

為了讓生成的場景達到可用與可玩的標準，研發團隊隨模型推出了 WorldLens 渲染平台。該平台具有靈活的引擎無關架構，並內置了自動 IBL（基於圖像的光照）技術，能根據生成的環境色調自動調整漫反射和金屬光澤。

最直觀的特點在於其角色大冒險模式。用戶可以直接用鍵盤 WASD 控制虛擬角色在生成的場景中自由穿梭，不論是走上台階還是撞向石柱，系統都會提供準確的物理阻擋反饋。這種即時交互性使開發者無需進行複雜的碰撞體綁定，即可在幾秒鐘內驗證關卡原型的空間比例是否合理。與目前的閉源商業模型相比，這款完全開源的工具有何技術優勢？

技術比競爭對手 Marble 強勁

知名商業世界模型 Marble 是目前空間生成領域的標桿。在實際應用中，Marble 生成 3DGS 後的網格（Mesh）轉換算法時常伴隨大量噪點。

相比之下，HY-World 2.0 整合了 MaskGaussian 剪裁機制，在重構階段就過濾掉 77% 的冗餘高斯點，導出的 Mesh 網格更為乾淨，大幅節約了後期拓撲和簡面的時間。同時，作為自由開源軟體（FOSS），HY-World 2.0 允許開發者在本地 GPU 伺服器上進行全流程推理與微調。對於處理敏感專案或限制數據外流的企業，本地部署帶來的數據安全優勢是閉源雲端方案無法比擬的。這項技術是否已經完美到可以徹底取代傳統的 3D 建模工作流？

技術局限性

儘管 HY-World 2.0 達到了開源領域的領先水準，但在實際生產環境中仍有兩個明顯的技術局限：

場景非物件化 (Non-instanced)：系統生成的是一個有機結合的整體場景網格，而非一個個獨立的 3D 道具。這意味著，如果你生成了一個精緻的起居室，你無法在編輯軟體中單獨選中並挪開其中的一張椅子，因為它與地板和牆壁在網格上是熔接在一起的。它目前主要適用於遠景裝飾、環境氛圍原型的快速搭建，無法直接作為高交互性的關卡。
代碼分階段開源的落差：目前的開源倉庫主要開放了 WorldMirror 2.0 和 HY-Pano 2.0 的代碼與權重，而完整的四階段串聯推理代碼仍在逐步釋出中。想要在本地一鍵實現文字生成完整世界，仍需依賴社群的過渡性腳本。

💡 技術提示：Hunyuan 2.0 的 WorldMirror 2.0 預測模型支持 50K 到 500K 像素的彈性分辨率推理。如果本地硬體顯存有限，可在部署時調整參數加載 mini 版本模型進行過渡。

HY-World 2.0 的出現，將世界模型的概念從錄製一段影片提升至構建一個可玩的三維檔案。對於全球獨立遊戲工作室、多媒體院校學生以及虛擬製片團隊而言，它將大幅降低初期場景概念的構建成本。即使它暫時無法產出可以直接投入最終發行版的精細物件，但作為一個低成本、高效率的原型驗證工具，它已經將創作起跑線向前推進了一大步。

Search