iconLogo
Published:2025/10/23 9:32:37

単一画像から3D生成!未来がアツい✨

超要約:単一画像から3Dモデルが作れる神技術!VR/ARとか色々スゴくなるよ!

✨ ギャル的キラキラポイント ✨ ● 単一画像から3Dモデル作れちゃうって、魔法みたいじゃん?🧙‍♀️ ● 視点(見る角度)も自由自在!色んな角度から見れるって最高ー!😎 ● 3D編集もできちゃう!自分のアバターとか作れちゃうかも💕

詳細解説 ● 背景 Transformer(変換器)っていうすごい機械を使って、画像を分析してるんだって!画像をパッチ(小さな部分)に分けて、位置情報(PE)を足すことで、3Dモデルを作れるらしい✨今までの3Dモデル作るのって大変だったけど、これからは楽々🎵

● 方法 PEってやつを工夫して、2D画像を3D空間に変換するんだって!細かい部分まで表現できるように、工夫も凝らしてるみたい💖画像編集もできちゃうから、夢が広がるね!

続きは「らくらく論文」アプリで

Positional Encoding Field

Yunpeng Bai / Haoxiang Li / Qixing Huang

Diffusion Transformers (DiTs) have emerged as the dominant architecture for visual generation, powering state-of-the-art image and video models. By representing images as patch tokens with positional encodings (PEs), DiTs combine Transformer scalability with spatial and temporal inductive biases. In this work, we revisit how DiTs organize visual content and discover that patch tokens exhibit a surprising degree of independence: even when PEs are perturbed, DiTs still produce globally coherent outputs, indicating that spatial coherence is primarily governed by PEs. Motivated by this finding, we introduce the Positional Encoding Field (PE-Field), which extends positional encodings from the 2D plane to a structured 3D field. PE-Field incorporates depth-aware encodings for volumetric reasoning and hierarchical encodings for fine-grained sub-patch control, enabling DiTs to model geometry directly in 3D space. Our PE-Field-augmented DiT achieves state-of-the-art performance on single-image novel view synthesis and generalizes to controllable spatial image editing.

cs / cs.CV