Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AIM (Articulation in Motion，运动中的关节) 的新方法，它的核心目标是：给会动的物体（比如冰箱门、抽屉、剪刀）拍个视频，然后让电脑自动搞清楚这个物体是由哪几部分组成的，每部分是怎么动的，以及它们之间的连接点（关节）在哪里。

为了让你更容易理解，我们可以把这篇论文的研究内容想象成**“教电脑像人类一样观察玩具”**。

1. 以前的方法：像“拍两张照片”的笨办法

以前的技术（比如 DTA 或 ArtGS）在分析一个会动的物体时，就像是在玩“找不同”游戏，但它们只允许你拍两张照片：一张是物体完全关闭时的照片，一张是完全打开时的照片。

痛点： 这就像你试图通过看“关着的冰箱”和“打开的冰箱”这两张图，来理解冰箱内部结构。
- 如果冰箱门打开后，露出了里面以前看不见的架子（新区域），电脑就会懵了，因为它在“关闭”的照片里找不到这些架子的对应位置。
- 这就好比让你猜一个魔术盒子里有什么，但你只被允许看盒子关着和打开的一瞬间，中间的过程完全没看到，很容易猜错。
- 而且，以前的方法通常需要你提前告诉电脑：“这个物体有 3 个活动部件”。如果电脑猜错了数量，整个分析就全乱了。

2. 新方法的灵感：像“看视频”一样自然

这篇论文提出的 AIM 方法，就像是我们人类观察世界的方式：看一段连续的视频。

核心思想： 我们不需要提前知道物体有几个部件，也不需要只拍两张照片。我们只需要看着物体从“关”到“开”的整个过程。
比喻： 想象你在看一个魔术师变魔术。你不需要提前知道他手里有几个道具，你只需要盯着他的手怎么动，就能推断出哪些东西是一起动的，哪些是静止的。

3. AIM 是如何工作的？（三个步骤）

AIM 的工作流程可以比作**“清理现场、追踪线索、拼图”**：

第一步：建立“静止基地” (Dual-Gaussian 双高斯表示)

场景： 电脑先扫描物体“静止不动”时的样子，建立一个基础模型（就像给物体拍个 3D 照）。
创新： 当物体开始动起来（比如你拉开抽屉），电脑会把模型分成两拨：
1. 不动的“老居民”：比如冰箱的外壳、墙壁。
2. 乱跑的“新居民”：比如正在移动的抽屉、门。
比喻： 就像在一个拥挤的舞池里，电脑能自动把“站在原地不动的人”和“正在跳舞的人”区分开。以前的方法容易把跳舞的人误认为是站着的人，或者把站着的人误认为是跳舞的，导致画面混乱。AIM 能非常干净地把这两拨人分开。

第二步：捕捉“运动轨迹” (动态 - 静态解耦)

场景： 在视频播放过程中，电脑会紧紧盯着那些“乱跑”的部分。
创新： 它不仅能看到物体在动，还能识别出新露出来的静止部分。
- 比喻： 想象你在看一个旋转木马。当木马转过来时，原本被挡住的马（新露出的静止部分）出现了。AIM 会立刻意识到：“哦，这匹马虽然刚才没看见，但它现在是不动的，应该归入‘静止基地’，而不是跟着旋转木马转。”
- 以前的方法在这里容易出错，会把新露出的静止部分误认为是旋转木马的一部分，导致分析错误。

第三步：自动“拼图” (无先验知识的 RANSAC 聚类)

场景： 现在电脑手里有了所有“乱跑”部分的运动轨迹。
创新： 它不需要你告诉它“这里有 3 个部件”。它会自动分析：
- “哎呀，这几个点总是手拉手一起转圈，它们肯定是一伙的（属于同一个部件）。”
- “那几个点总是直直地滑过去，它们肯定是一伙的。”
- 然后，它会自动算出：这是旋转关节（像门轴），还是滑动关节（像抽屉）？轴在哪里？转了多少度？
比喻： 就像看一群人在操场上跑。你不需要数人数，只要看谁和谁跑的方向、速度完全一致，就能自动把他们分成几个小组。AIM 就是这样一个聪明的“分组大师”，完全不需要你提前给它答案。

4. 为什么这很厉害？（总结）

不用猜数量： 以前你必须告诉电脑“这个物体有 2 个活动部件”，猜错了就全废。AIM 自己就能数出来，哪怕是一个有 6 个活动部件的复杂储物柜，它也能搞定。
不怕“新发现”： 当物体打开露出内部结构时，以前的方法会崩溃，AIM 却能完美处理，因为它看的是连续的运动过程，而不是两张割裂的照片。
更真实： 它生成的 3D 模型非常逼真，不仅能看到物体长什么样，还能模拟出它怎么动，甚至可以用来做机器人训练或虚拟现实（VR）游戏。

一句话总结：
以前的方法像是在玩“找不同”的静态照片，容易因为视角变化而迷路；AIM 则是像看一部连续的动作电影，通过观察物体如何运动，自动、聪明地拆解出物体的内部结构和关节，完全不需要人类提前教它规则。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于计算机视觉和3D重建领域的论文，标题为《Articulation in Motion: Prior-Free Part Mobility Analysis for Articulated Objects by Dynamic-Static Disentanglement》（运动中的关节：通过动静解耦实现无先验的关节物体部件运动分析）。该论文发表于 ICLR 2026。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

背景：关节物体（Articulated Objects，如门、抽屉、剪刀等）在日常生活中无处不在。对它们进行高质量的3D重建、独立运动部件的分割以及关节运动学（articulation kinematics）分析，对于场景理解、机器人操作、混合现实和具身AI至关重要。

现有方法的局限性：

依赖两态输入：大多数现有方法（如 DTA, ArtGS）依赖于物体在两个特定状态（通常是“开始状态”和“结束状态”）下的多视图观测。
跨状态对应失效：当物体从“闭合”状态变为“打开”状态时（例如打开冰箱门或抽屉），内部原本不可见的区域会暴露出来。这导致开始状态和结束状态之间缺乏几何对应关系，使得基于对应关系的方法失效或产生错误的分割。
先验知识依赖：许多方法需要预先知道部件的数量（part count）或关节类型，这限制了其在未知结构物体上的泛化能力。
噪声敏感：基于变形场（Deformation Field）的方法往往给所有高斯点分配位移，包括静态部分，导致运动轨迹混淆，难以准确分割。

核心目标：提出一种无需先验知识（无需知道部件数量、关节类型或运动参数），仅通过单目交互视频和初始静态扫描，就能稳定、准确地重建关节物体几何结构、分割运动部件并估计关节参数的方法。

2. 方法论 (Methodology)

作者提出了名为 AIM (Articulation in Motion) 的新框架，包含三个主要阶段：

阶段 I：初始静态建模 (Start Static Modeling)

利用多视图RGB扫描，使用标准的 3D Gaussian Splatting (3DGS) 重建物体在初始状态（Start State）下的几何和外观，生成初始高斯集合 $\{GS\}$ 。

阶段 II：双高斯场景表示与动静解耦 (Dual-Gaussian Scene Representation)

这是论文的核心创新点，旨在解决动静分离问题。

双高斯表示：引入两组高斯集合：
1. 静态基座高斯 ( $\{GS_p\}$ )：基于初始扫描，逐渐修剪掉运动元素，代表物体的静态部分。
2. 可变形运动高斯 ( $\{GM, t\}$ )：基于交互视频，学习一个随时间变化的可变形高斯集合，专门捕捉运动部件。
联合优化：
- 使用一个基于MLP的变形网络 $F_\theta$ 来预测运动高斯的位置和旋转偏移。
- 在优化初期（前10k次迭代），冻结静态高斯的属性（除不透明度外），让运动高斯学习运动轨迹。随着优化进行，逐渐降低静态高斯中运动元素的不透明度（Pruning），将其从静态集合中移除，从而实现动静解耦 (Dynamic-Static Disentanglement)。
运动中的静态检测 (SDMD, Static-During-Motion Detection)：
- 针对在运动过程中新暴露出来的静态区域（如打开冰箱后露出的内部），这些区域最初会被运动高斯捕获。
- SDMD模块定期分析运动高斯的轨迹，利用 Sequential RANSAC 和 Kabsch算法 检测局部刚性运动。如果某组高斯的运动幅度极小（接近静止），则将其重新分配回静态集合 $\{GS_p\}$ 。这解决了新暴露区域被错误标记为运动部件的问题。

阶段 III：基于运动的部件运动分析 (Motion-Based Part Mobility Analysis)

无先验分割：在获得纯净的运动高斯轨迹后，不再依赖部件数量先验。
顺序RANSAC (Sequential RANSAC)：
- 利用 Sequential RANSAC 算法，根据运动轨迹的刚性特征，将运动高斯聚类为不同的刚性部件。
- 该过程是无优化 (Optimization-free) 的，直接基于几何分析。
- 算法自动确定部件数量，并剔除异常值。
关节参数估计：
- 对每个聚类出的刚性部件，使用 Kabsch算法 估计其刚体变换。
- 基于变换矩阵，解析出关节类型（旋转 Revolute 或平移 Prismatic）、关节轴位置、轴方向、旋转角度或平移距离。

3. 主要贡献 (Key Contributions)

AIM框架：提出了首个仅基于交互视频和初始扫描，无需任何结构先验（如部件数量）即可进行关节物体重建和分析的框架。
双高斯表示与动静解耦：设计了双高斯场景表示，结合SDMD模块，有效分离了静态背景和动态部件，解决了新暴露区域导致的对应关系断裂问题。
无先验的RANSAC分析：引入基于轨迹的顺序RANSAC方法，实现了鲁棒的部件分割和关节参数估计，无需人工指定部件数量。
性能提升：在复杂场景（如多部件、内部暴露）下，显著优于现有的两态（Two-state）方法（如 DTA, ArtGS）和基于预训练分割的方法。

4. 实验结果 (Results)

数据集：基于 PartNet-Mobility 数据集，构建了包含双部件、三部件及多部件（复杂）物体的合成视频数据集，并采集了真实世界数据（使用 Meta Project Aria 眼镜）。
分割性能 (Part Segmentation)：
- 在3D IoU指标上，AIM在绝大多数物体上取得了最佳成绩。
- 在复杂物体（如6个运动部件的储物柜）上，动态部件的IoU比SOTA方法高出 +27.11%。
- 标准差更低，表明方法更稳定。
重建质量 (Reconstruction Quality)：
- 在动态部件的重建误差（Chamfer Distance）上，AIM显著低于ArtGS等方法（例如在储物柜上，CD从71.17mm降至8.36mm）。
关节估计精度 (Articulation Estimation)：
- 在轴角误差（Axis Ang Err）和运动幅度误差上表现优异。例如，在烤箱（Oven）测试中，轴角误差仅为 0.27°，而DTA为5.39°。
- 能够准确区分旋转和平移关节，并正确估计关节轴。
消融实验：
- 移除“初始状态扫描”导致性能大幅下降，证明初始几何锚点的重要性。
- 移除“SDMD”导致新暴露的静态区域被错误分类，增加重建误差。
- 移除“双高斯”表示（仅用单可变形高斯）导致动静混淆，分割精度显著下降。
- 使用Sequential RANSAC优于DBSCAN和K-means，证明了其无先验聚类的有效性。

5. 意义与影响 (Significance)

范式转变：从依赖“两态几何对应”转向依赖“连续运动线索”，更符合人类通过交互学习物体结构的自然方式。
解决核心痛点：有效解决了“打开/闭合”场景下（Open-start/Open-end）内部结构暴露导致的对应关系失效问题，这是现有方法的主要瓶颈。
无需先验：摆脱了对部件数量和关节类型的依赖，使得该方法能更好地泛化到未知的、结构复杂的现实世界物体。
应用前景：为机器人抓取、具身智能交互、数字孪生构建提供了高质量的、可交互的3D物体模型，特别是在处理具有未知内部结构的物体时具有巨大潜力。

总结：AIM通过创新的动静解耦表示和无先验的运动轨迹分析，成功克服了传统两态方法的局限性，实现了在复杂交互视频中对关节物体的高精度、鲁棒性重建与分析。