3D世界モデルは初期プロトタイプの構築にかかる工数を大幅に減らす可能性を持つ技術だ。混元 3D 世界モデル 2.0(HY-World 2.0)は、テキストやスケッチ、動画から編集可能な3次元アセットを生成できると公式に発表されている。
従来の映像生成は2次元のピクセル画像に留まり、光や物体の物理的な編集には向かなかったが、今回の手法はその限界を越え、編集可能で衝突判定を持つ3Dアセットを出力する点が特徴である。

3D世界モデルの主要技術指標
| 技術指標 | 混元 3D 世界モデル 2.0(HY-World 2.0)仕様 | 実用上の価値 |
|---|---|---|
| 入力モダリティ | テキスト、単一画像、複数視点映像、動画 | 素材準備のハードルを下げる |
| 出力フォーマット | 3DGS、メッシュ、点群、高画質動画 | 主要3Dソフト・ゲームエンジンと互換 |
| コアアーキテクチャ | WorldMirror 2.0 統合前向き予測モデル | 単一フォワードパスで深度・カメラパラメータを同時予測 |
| インタラクティブ環境 | WorldLens レンダリングプラットフォーム | 自動環境光照明・キャラクター物理衝突検出に対応 |
| オープンソース | フリー&オープンソースソフトウェア(FOSS)、モデルの重みを公開済み | ローカル実行対応、データ・アセットのプライバシーを保護 |
コアワークフロー:自然言語から編集可能なアセットへ
通常の3D開発は草案から高精度モデルまで多段階を踏むが、同技術はその手順を大幅に簡略化する。入力はテキスト、単一画像、複数視点映像、あるいは動画が利用可能だ。
- マルチモーダル入力(テキスト、単一画像、複数視点映像、動画)
- HY-Pano 2.0 による全景初期化:カメラパラメータ不要で360度背景を自動合成する。
- WorldNav による軌跡計画:シーンのジオメトリと意味構造を解析し、移動経路と障害回避を自動算出する。
- WorldStereo 2.0 による視点拡張:立体ジオメトリのメモリを組み込み、観測範囲を拡張する。
- WorldMirror 2.0 による世界合成:密な点群・深度・法線・カメラ姿勢を一括予測し、3Dアセットとして出力する。

開発者は短い説明文やコンセプト画像を入力するだけで、数分以内に構造の整った3Dファイルを得られる点が強調されている。生成物はレンダリング時間の制約がなく、視点を回転させても歪みが出にくいという。
四段階による空間復元設計
コンシューマー向けハードウェアで効率的に動作させるため、同システムは四段階の構成を採用している。

- 全景生成(HY-Pano 2.0):従来はカメラの内外パラメータに依存していたが、ここでは単一画像から空間マッピングを学習し、背景の全景を生成する。
- 軌跡計画(WorldNav):ジオメトリと意味情報を解析し、物理的に不自然な移動を避けるルートを決定する。
- 世界拡張(WorldStereo 2.0):経路に沿って全体のジオメトリメモリを参照しながら、新しい領域との継ぎ目を滑らかに補完する。
- 世界合成(WorldMirror 2.0):点群、深度マップ、サーフェス法線、カメラ姿勢、3Dアセット属性を一括予測し、統合された3D世界として出力する。
Python API 呼び出し例
提供されているサンプルでは、数行のPythonコードで事前学習済みモデルを読み込み、全景生成モジュールを動かすことができる。
from pipeline import HunyuanPanoPipeline
pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')
衝突判定を備えたレンダリングプラットフォーム
生成シーンを即座に操作できるよう、開発チームはWorldLensと呼ぶレンダリング環境を用意した。エンジン非依存の設計で、自動IBL(イメージベースドライティング)により環境の色調に応じた反射や拡散を調整する機能を備えている。
特徴的なのはキーボードで操作するキャラクターモードだ。WASDキーで歩行し、段差や石柱にぶつかると正確に物理的な阻止が働くため、短時間でレベルデザインの空間スケールを検証できる。
競合製品との比較と優位点
既存の商用世界モデルの代表格としてMarbleが挙げられる。実務ではMarbleのメッシュ変換においてノイズが多く出る点が課題とされてきた。
混元 3D 世界モデル 2.0はMaskGaussianというトリミング機構を統合しており、再構成段階で冗長なガウスポイントの約77%を除去するとしている。これにより出力メッシュがよりクリーンになり、後処理の工数を削減できるという。

現時点での技術的制約
優れた点がある一方で、実運用における制約も明確である。第一に、生成結果はオブジェクトごとに独立したインスタンスとして扱われない点が挙げられる。
- シーンが非オブジェクト化であること:出力は一体化したシーンメッシュであり、個別の椅子や小物を選択して移動することはできない。遠景や雰囲気の演出には有効だが、高度にインタラクティブなレベル制作には向かない。
- コードの段階的公開:現時点でオープンになっているのはWorldMirror 2.0とHY-Pano 2.0のコードおよびモデルの重みであり、四段階を一括実行する完全なパイプラインコードは順次公開される予定とされている。
💡 技術メモ:WorldMirror 2.0の予測モデルは50Kから500Kピクセルの解像度で推論可能であり、GPUメモリが限られる環境では小型モデルを読み込んで調整することができる。
混元 3D 世界モデル 2.0は、映像モデルの「見るだけ」という制約から脱却し、編集可能で衝突判定を持つ3Dアセットの生成へと踏み込んだ点で一歩先を行っている。インディーゲームスタジオや教育機関、バーチャルプロダクションチームにとって、初期のコンセプト検証を低コストかつ高速に行えるツールとなる可能性が高い。

