3D世界模型上手更快，騰訊HY-World 2.0開源可編輯資產

3D世界模型在遊戲與虛擬場景的開發過程中，構建初期原型往往耗費大量人力與時間。

騰訊最新公開資料指出，為解決過去二維影片只能觀看、無法修改的限制，公司推出了名為混元 3D 世界模型 2.0（HY-World 2.0）的多模態世界模型，能把文字、草圖或影片直接轉為可編輯且具物理碰撞屬性的3D資產，並允許下載在本地部署。

3D世界模型關鍵技術指標速覽

技術指標	混元 3D 世界模型 2.0 (HY-World 2.0) 規格	實用價值
輸入模態	文字、單張圖片、多視角影像、影片	降低素材預備門檻
輸出格式	3DGS、Mesh、點雲、高畫質影片	兼容主流 3D 軟體與遊戲引擎
核心架構	WorldMirror 2.0 統一前向預測模型	單次前向傳播即可預測深度與相機參數
交互平台	WorldLens 渲染平台	支援自動環境光照與角色物理碰撞檢測
開源性質	自由開源軟體 (FOSS)，已開放模型權重	支援本地部署，保護數據與資產隱私

核心任務與工作流：從自然語言到可編輯資產

在傳統的3D開發循環中，設計師需經過草圖、低模、高模、貼圖、烘焙與導入遊戲引擎等多個步驟。

多模態輸入 (文字、單張圖片、多視角影像或影片)
HY-Pano 2.0 全景初始化：自動合成 360度 空間，無需相機參數
WorldNav 軌跡規劃：AI 自動解析場景並進行尋路避障
WorldStereo 2.0 視角擴展：結合立體幾何記憶擴充觀測範圍
WorldMirror 2.0 世界合成：一鍵預測密集點雲並輸出 3DGS（3D 高斯潑濺）檔案

開發者只需輸入一句描述或一張概念圖，系統即可自動合成全景，並在幾分鐘內重建出結構完整的3D檔案。

與傳統影片生成相比，這些生成的3D資產具備無限制的渲染時長，並能保持空間一致性，避免相機視角旋轉時出現扭曲。

四階段空間還原機制

為了在消費級硬體上實現高效率的空間還原，該系統採用了4階段架構，分別處理全景生成、軌跡規劃、世界擴展與世界合成。

全景圖生成 (HY-Pano 2.0)：採用端到端隱式學習方案，讓AI從普通單張圖片中學習空間映射，無需任何相機元數據即可生成背景全景。
軌跡規劃 (WorldNav)：系統自動解析場景的幾何與語義結構，智能規劃相機移動路徑，在物理層面避免穿牆等不合理行為。
世界擴展 (WorldStereo 2.0)：沿著規劃路徑，引入全局幾何記憶與空間立體記憶機制，確保新生成區域與既有區域在幾何和視覺上完美銜接。
世界合成 (WorldMirror 2.0)：統一前向預測模型可一次性輸出密集點雲、深度圖、表面法線、相機姿勢及 3DGS 屬性，將片段結合成完整的3D世界。

Python API 調用範例

開發者可以通過幾行 Python 程式，在本地快速載入預訓練模型並運行全景生成模組。

from pipeline import HunyuanPanoPipeline

pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')

自帶碰撞的互動渲染平台

為了讓生成的場景達到可用與可玩的標準，研發團隊推出了名為 WorldLens 的渲染平台，採用引擎無關架構，並內置自動 IBL（基於影像的光照）技術，能根據環境色調自動調整漫反射與金屬光澤。

平台具備角色大冒險模式，用戶可用鍵盤 WASD 控制虛擬角色在生成場景中穿梭，不論是走上台階還是撞向石柱，系統都會提供準確的物理阻擋反饋，讓開發者在幾秒內驗證關卡原型的空間比例是否合理。

技術比競爭對手 Marble 更具優勢

市場上知名的商業世界模型 Marble 在將 3DGS 轉為網格（Mesh）時，常伴隨大量噪點與雜散高斯點。

HY-World 2.0 整合了 MaskGaussian 剪裁機制，在重構階段就過濾掉 77% 的冗餘高斯點，導出的 Mesh 更為乾淨，大幅節省後期拓撲與簡化面的時間。

技術局限性與注意事項

儘管 HY-World 2.0 在開源領域處於領先地位，但在實務生產環境仍有兩項主要限制需要注意。

場景非物件化 (Non-instanced)：系統生成的是有機結合的整體場景網格，而非獨立的 3D 道具，使用者無法在編輯軟體中單獨選中並移動場景內單一家具，較適合遠景裝飾與環境氛圍原型。
代碼分階段開源的落差：目前開源倉庫主要開放了 WorldMirror 2.0 與 HY-Pano 2.0 的代碼與權重，完整的四階段串聯推理代碼仍在逐步釋出，欲在本地一鍵生成完整世界仍需依賴社群過渡性腳本。

💡 技術提示：WorldMirror 2.0 的預測模型支持 50K 到 500K 像素 的彈性分辨率推理，若本地顯存有限，可部署 mini 版模型進行過渡。

總體而言，HY-World 2.0 將世界模型從錄製影片提升為可玩的三維檔案，對於獨立遊戲工作室、多媒體院校與虛擬製片團隊，能顯著降低初期場景概念的構建成本。

即使當前版本尚無法直接產出可投入最終發行的精細物件，它作為一套低成本且高效率的原型驗證工具，已把創作起跑線向前推進了一大步。

Search