尊龙凯时官网 PhysForge框架来了, 让3D金钱从静态模子变成可交互对象

尊龙凯时官网 PhysForge框架来了，让3D金钱从静态模子变成可交互对象

抢庄斗牛app2026世界杯中国最新版

在交互式编造宇宙和具身智能快速发展的今天，高质地 3D 金钱还是不再仅仅 “看起来像” 就富饶。一个柜门不仅要有柜门的外不雅，还需要知说念绕哪条轴旋转；一个按钮不仅要有按钮的体式，还需要具备 “按下 / 弹起” 的情状；一个抽屉不仅要有竣工几何，还需要领有滑动标的、畅通界限、材质和质地等物理属性。该扣问已被 ICML 2026 罗致。

关系词，现存 3D 生成才气大多仍停留在静态几何和纹理层面。它们不错生成视觉上细致的模子，却每每短少守旧竟然交互的功能逻辑与层级化物理结构。这类 “静态外壳” 难以径直投入机器东说念主仿真或游戏引擎环境。

为了贬责这一困难，香港大学和腾讯混元等机构的扣问者们提议了 PhysForge，一个面向交互式编造宇宙的 physics-grounded 3D asset generation 框架。该框架仅需单张输入图像，就能生成具备部件结构、物理属性、功能语义和精准畅通学参数的 3D 金钱。

论文题目：PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

形式主页：https://hku-mmlab.github.io/PhysForge/

论文齐集：https://arxiv.org/abs/2605.05163

一、成果展示

如图所示，PhysForge 只需要单张输入图像，就不错生成 physics-grounded 3D assets。生成收尾不仅包含高质地几何和纹理，还具备部件结构，并为每个部件给出详备的物理属性标签。

关于可动部件，PhysForge 还会计划枢纽轴、枢纽原点和畅通界限等畅通学参数，并给出可交互样式。这使得一个生成出的水壶、柜门、按钮或台灯，不再仅仅可不雅看的模子，而是不错被翻开、按压、执取或放入交互式编造宇宙中的金钱。

视频齐集：https://mp.weixin.qq.com/s/en_3cDxnKZRTDdwnSeVQTQ

在机器东说念主仿真展示中，PhysForge 生成的金钱被导入 RoboTwin 环境后，机械臂粗略识别并操作其功能部件，举例按照关省俭束翻开柜门、拉出抽屉或执取指定部件。

视频齐集：https://mp.weixin.qq.com/s/en_3cDxnKZRTDdwnSeVQTQ

二、为什么需要 Physics-Grounded 3D Assets？

畴昔一段技能，3D 生成模子在合座体式、纹理和视觉质地上跨越很快：模子是否颜面、几何是否竣工、名义是否传神，还是成为惯例评价维度。但在具身智能和交互式编造环境中，视觉传神仅仅第一步。

一个竟然可交互的 3D 金钱，还需要回话一组更深层的问题：

物体由哪些功能部件构成？

每个部件具有什么语义、材质和质地？

哪些部件不错被推动、执取、旋转或滑动？

部件之间存在若何的层级和父子关系？

可动部件的枢纽类型、轴向、原点和畅通界限分辨是什么？

这些信息共同决定了金钱能否被仿真器、游戏引擎和具身智能系统竟然使用。莫得物理属性和畅通学界说的模子，即便视觉上再细致，也很难成为 “可操作” 的环境对象。

PhysForge 的中枢不雅点恰是：交互式金钱生成必须根植于功能逻辑和层级化物理结构。体式不应仅仅外不雅的收尾，也应该是功能、材料、敛迹和可操作性的共同体现。

三、才气先容：两阶段 “霸术 - 生成” 战略

PhysForge 将复杂的 physics-grounded 3D asset generation 解耦为两个阶段：先由 VLM 进行物理霸术，再由 diffusion model 完成几何、纹理与畅通学参数的结伴生成。

第一阶段是 VLM-based Planning。扣问者们将 VLM 践诺成一个 “physical architect”：它罗致单张图像、可选 2D mask，以及由 TRELLIS 生成的 3D voxel 暗示，并自转头生成 Hierarchical Physical Blueprint。

这个物理蓝图界说了每个部件的 3D bounding box、父子层级关系、枢纽类型，以及材质、质地、部件功能、情状机和 atomic affordance 等信息。换句话说，模子会先在语义和物理层面判断 “这个物体应该如何被拆解、如何被使用、又应该如何畅通”。

第二阶段是 Diffusion-based Generation。VLM 擅前程行结构和语义霸术，但枢纽轴标的、枢纽原点、畅通界限等一语气 3D 参数，仍然需要更密致的生成机制。因此，尊龙凯时官网PhysForge 将这些精准数值交给 diffusion stage 来 “铸造”。

为此，扣问者们提议了 KineVoxel Injection (KVI) 机制。KVI 将每个可动部件的枢纽原点、枢纽轴和畅通为止编码为 kinematic voxel，并与几何 voxel 沿路投入妥洽的 diffusion denoising 历程。这么，模子不错在并吞个生成历程中协同学习 “部件长什么样” 和 “部件应该若何动”。

最终，PhysForge 粗略同期尊龙凯时官网输出高质地几何、纹理、部件结构和精准畅通学参数，让单图生成的 3D 金钱具备径直投入交互环境的能力。

四、PhysDB：15 万金钱的物理标注基座

为了守旧这一任务，扣问者们构建了 PhysDB，一个包含 15 万 3D 金钱的大界限数据集。PhysDB 开始于 Objaverse，遮蔽 household、industrial、weapons、personal、vehicles、tech & electronics、cultural items 等七大类别，并为金钱提供细粒度、层级化的物理标注。

PhysDB 的标注体系分为四层：

Holistic properties：面目物体合座方法、类别和使用场景，举例 kitchen、bedroom 等。

Static properties：面目部件级语义、材质和质地，举例 metal、wood 等。

Functional properties：面目部件的内在功能和情状机，举例 “to contain” 或按钮的 pressed/released 情状。

Interactive properties：面目可交互属性和畅通学界说，包括 pushable、graspable、joint type、parent part、axis origin、axis direction 和 joint limits。

这套标注让模子学习的不仅仅 “部件在那里”，更是 “部件是什么、能作念什么、应该如何被操作”。它为 PhysForge 从静态视觉生成走向 physics-grounded 3D asset generation 提供了要害数据基础。

五、丰富的下流诈骗

PhysForge 生成的金钱不是停留在展示层面的静态模子，而是不错径直干事于多个下流场景。

第一，机器东说念主仿真。关于机器东说念主践诺和评测，PhysForge 生成的金钱不错看成可操作的环境对象膨胀仿真场景，减少手工建模、枢纽绑定和物理参数配置资本，让机器东说念主更容易在各种化物体上学习竟然交互。

第二，编造宇宙与游戏引擎。在 Unity、Unreal Engine 等交互式环境中，PhysForge 生成的金钱还是具备材质、质地、功能和枢纽信息，确立者不错更径直地构建复杂交互逻辑，而无用从零手工配置每一个可动物体。

第三，具身智能 agent 与环境交互。由于第一阶段会生成文本化的 physical blueprint，agent 不错通过当然说话查询金钱的结构和功能信息，从而酿成更明确的任务缱绻。举例靠近一个柜子，agent 不错知说念柜门在那里、把手属于哪个部件、枢纽如何旋转，以及应该如何完成翻开操作。

六、总结

PhysForge 将 3D 生成的缱绻从 “生成静态外不雅” 股东到 “生成可交互金钱”。通过 VLM-based Planning 与 Diffusion-based Generation 的两阶段假想，该框架先霸术层级化物理蓝图，再通过 KineVoxel Injection 生成高质地几何、纹理和精准畅通学参数。

同期，PhysDB 为这一标的提供了大界限、细粒度、层级化的物理标注基础。面向交互式编造宇宙、机器东说念主仿真和具身智能数据引擎，physics-grounded 3D asset generation 将成为紧迫基础能力。PhysForge 则迈出了要害一步：让生成的 3D 金钱不啻 “看起来竟然”，也能竟然 “被解析、被操作、被交互”。

尊龙国际厅

尊龙凯时官网 PhysForge框架来了, 让3D金钱从静态模子变成可交互对象

扫码关注