

在交互式编造宇宙和具身智能快速发展的今天,高质地 3D 金钱还是不再仅仅 “看起来像” 就富饶。一个柜门不仅要有柜门的外不雅,还需要知说念绕哪条轴旋转;一个按钮不仅要有按钮的体式,还需要具备 “按下 / 弹起” 的情状;一个抽屉不仅要有竣工几何,还需要领有滑动标的、畅通界限、材质和质地等物理属性。该扣问已被 ICML 2026 罗致。
关系词,现存 3D 生成才气大多仍停留在静态几何和纹理层面。它们不错生成视觉上细致的模子,却每每短少守旧竟然交互的功能逻辑与层级化物理结构。这类 “静态外壳” 难以径直投入机器东说念主仿真或游戏引擎环境。
为了贬责这一困难,香港大学和腾讯混元等机构的扣问者们提议了 PhysForge,一个面向交互式编造宇宙的 physics-grounded 3D asset generation 框架。该框架仅需单张输入图像,就能生成具备部件结构、物理属性、功能语义和精准畅通学参数的 3D 金钱。

论文题目:PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
形式主页:https://hku-mmlab.github.io/PhysForge/
论文齐集:https://arxiv.org/abs/2605.05163
一、成果展示
如图所示,PhysForge 只需要单张输入图像,就不错生成 physics-grounded 3D assets。生成收尾不仅包含高质地几何和纹理,还具备部件结构,并为每个部件给出详备的物理属性标签。
关于可动部件,PhysForge 还会计划枢纽轴、枢纽原点和畅通界限等畅通学参数,并给出可交互样式。这使得一个生成出的水壶、柜门、按钮或台灯,不再仅仅可不雅看的模子,而是不错被翻开、按压、执取或放入交互式编造宇宙中的金钱。

视频齐集:https://mp.weixin.qq.com/s/en_3cDxnKZRTDdwnSeVQTQ
在机器东说念主仿真展示中,PhysForge 生成的金钱被导入 RoboTwin 环境后,机械臂粗略识别并操作其功能部件,举例按照关省俭束翻开柜门、拉出抽屉或执取指定部件。

视频齐集:https://mp.weixin.qq.com/s/en_3cDxnKZRTDdwnSeVQTQ
二、为什么需要 Physics-Grounded 3D Assets?
畴昔一段技能,3D 生成模子在合座体式、纹理和视觉质地上跨越很快:模子是否颜面、几何是否竣工、名义是否传神,还是成为惯例评价维度。但在具身智能和交互式编造环境中,视觉传神仅仅第一步。
一个竟然可交互的 3D 金钱,还需要回话一组更深层的问题:
物体由哪些功能部件构成?
每个部件具有什么语义、材质和质地?
哪些部件不错被推动、执取、旋转或滑动?
部件之间存在若何的层级和父子关系?
可动部件的枢纽类型、轴向、原点和畅通界限分辨是什么?
这些信息共同决定了金钱能否被仿真器、游戏引擎和具身智能系统竟然使用。莫得物理属性和畅通学界说的模子,即便视觉上再细致,也很难成为 “可操作” 的环境对象。
PhysForge 的中枢不雅点恰是:交互式金钱生成必须根植于功能逻辑和层级化物理结构。体式不应仅仅外不雅的收尾,也应该是功能、材料、敛迹和可操作性的共同体现。
三、才气先容:两阶段 “霸术 - 生成” 战略
PhysForge 将复杂的 physics-grounded 3D asset generation 解耦为两个阶段:先由 VLM 进行物理霸术,再由 diffusion model 完成几何、纹理与畅通学参数的结伴生成。

第一阶段是 VLM-based Planning。扣问者们将 VLM 践诺成一个 “physical architect”:它罗致单张图像、可选 2D mask,以及由 TRELLIS 生成的 3D voxel 暗示,并自转头生成 Hierarchical Physical Blueprint。
这个物理蓝图界说了每个部件的 3D bounding box、父子层级关系、枢纽类型,以及材质、质地、部件功能、情状机和 atomic affordance 等信息。换句话说,模子会先在语义和物理层面判断 “这个物体应该如何被拆解、如何被使用、又应该如何畅通”。
第二阶段是 Diffusion-based Generation。VLM 擅前程行结构和语义霸术,但枢纽轴标的、枢纽原点、畅通界限等一语气 3D 参数,仍然需要更密致的生成机制。因此,尊龙凯时官网PhysForge 将这些精准数值交给 diffusion stage 来 “铸造”。
为此,扣问者们提议了 KineVoxel Injection (KVI) 机制。KVI 将每个可动部件的枢纽原点、枢纽轴和畅通为止编码为 kinematic voxel,并与几何 voxel 沿路投入妥洽的 diffusion denoising 历程。这么,模子不错在并吞个生成历程中协同学习 “部件长什么样” 和 “部件应该若何动”。
最终,PhysForge 粗略同期尊龙凯时官网输出高质地几何、纹理、部件结构和精准畅通学参数,让单图生成的 3D 金钱具备径直投入交互环境的能力。
四、PhysDB:15 万金钱的物理标注基座
为了守旧这一任务,扣问者们构建了 PhysDB,一个包含 15 万 3D 金钱的大界限数据集。PhysDB 开始于 Objaverse,遮蔽 household、industrial、weapons、personal、vehicles、tech & electronics、cultural items 等七大类别,并为金钱提供细粒度、层级化的物理标注。
PhysDB 的标注体系分为四层:
Holistic properties:面目物体合座方法、类别和使用场景,举例 kitchen、bedroom 等。
Static properties:面目部件级语义、材质和质地,举例 metal、wood 等。
Functional properties:面目部件的内在功能和情状机,举例 “to contain” 或按钮的 pressed/released 情状。
Interactive properties:面目可交互属性和畅通学界说,包括 pushable、graspable、joint type、parent part、axis origin、axis direction 和 joint limits。
这套标注让模子学习的不仅仅 “部件在那里”,更是 “部件是什么、能作念什么、应该如何被操作”。它为 PhysForge 从静态视觉生成走向 physics-grounded 3D asset generation 提供了要害数据基础。
五、丰富的下流诈骗
PhysForge 生成的金钱不是停留在展示层面的静态模子,而是不错径直干事于多个下流场景。

第一,机器东说念主仿真。关于机器东说念主践诺和评测,PhysForge 生成的金钱不错看成可操作的环境对象膨胀仿真场景,减少手工建模、枢纽绑定和物理参数配置资本,让机器东说念主更容易在各种化物体上学习竟然交互。
第二,编造宇宙与游戏引擎。在 Unity、Unreal Engine 等交互式环境中,PhysForge 生成的金钱还是具备材质、质地、功能和枢纽信息,确立者不错更径直地构建复杂交互逻辑,而无用从零手工配置每一个可动物体。
第三,具身智能 agent 与环境交互。由于第一阶段会生成文本化的 physical blueprint,agent 不错通过当然说话查询金钱的结构和功能信息,从而酿成更明确的任务缱绻。举例靠近一个柜子,agent 不错知说念柜门在那里、把手属于哪个部件、枢纽如何旋转,以及应该如何完成翻开操作。
六、总结
PhysForge 将 3D 生成的缱绻从 “生成静态外不雅” 股东到 “生成可交互金钱”。通过 VLM-based Planning 与 Diffusion-based Generation 的两阶段假想,该框架先霸术层级化物理蓝图,再通过 KineVoxel Injection 生成高质地几何、纹理和精准畅通学参数。
同期,PhysDB 为这一标的提供了大界限、细粒度、层级化的物理标注基础。面向交互式编造宇宙、机器东说念主仿真和具身智能数据引擎,physics-grounded 3D asset generation 将成为紧迫基础能力。PhysForge 则迈出了要害一步:让生成的 3D 金钱不啻 “看起来竟然”,也能竟然 “被解析、被操作、被交互”。