cs.CV 篇论文 | Gist.Science

Chain of World: World Model Thinking in Latent Motion

本文提出了 CoWVLA（Chain-of-World VLA），一种通过解耦潜在运动表示将世界模型的时间推理能力与紧凑的潜在动作表示相结合的新型范式，旨在解决现有视觉 - 语言 - 动作模型在动态建模与知识利用上的局限，并在机器人仿真基准测试中展现出优于现有方法的性能。

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

本文提出了 ACE-Brain-0，一种以空间智能为通用支架、采用“构建 - 专精 - 融合”（SSR）范式统一多模态大语言模型的多领域具身通用大脑，在 24 项基准测试中实现了跨异构载体的卓越泛化与领域专长平衡。

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

本文提出了 COP-GEN，一种基于潜在扩散变换器的多模态生成模型，它通过将地球观测数据间的跨模态映射建模为条件概率分布而非确定性映射，从而能够生成具有物理一致性且能反映自然不确定性的多样化数据，有效解决了传统模型在数据补全和跨传感器翻译任务中因忽略随机性而导致的性能瓶颈。

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

本文提出了涵盖 7 个领域和 30 个子任务的 UniG2U-Bench 基准，系统评估了统一多模态模型在生成辅助理解方面的表现，发现尽管统一模型在空间智能等特定任务上有所提升，但总体上其理解能力往往不及基础视觉语言模型，且“先生成后回答”的推理模式通常会降低性能。

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

DuoMo 提出了一种基于双扩散模型的生成式方法，通过分别处理相机空间估计与世界空间全局一致性优化，实现了从含噪或不完整视频中直接生成网格顶点的世界坐标人体运动重建，并在多个基准测试中取得了显著优于现有技术的性能。

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

本文提出了 LoGeR，一种结合参数化测试时训练记忆与非参数滑动窗口注意力机制的新型混合记忆架构，旨在解决长视频稠密 3D 重建中的上下文连贯性难题，使其能够在无需后优化的情况下，从仅 128 帧的训练数据中泛化至数千帧甚至上万帧的超长序列，并显著超越现有最先进方法的重建精度与一致性。

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

该论文通过基于 Transfusion 框架的从头预训练实验，揭示了统一多模态预训练在表征学习、能力协同及世界建模方面的关键优势，并证明了混合专家（MoE）架构能有效解决语言与视觉数据在扩展性上的不对称问题，从而推动真正统一的多模态模型发展。

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

本文提出了名为"Tether"的机器人自主功能化玩耍方法，该方法通过将少量源演示动作锚定到目标场景的语义关键点来实现开环策略的轨迹形变，并结合视觉语言模型驱动的闭环迭代机制，在仅需少量演示的情况下实现了真实世界中的多任务自主探索，从而高效生成大规模高质量数据以训练出媲美人类示范的闭环模仿策略。

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

本文提出了名为 ULTRA 的统一多模态控制框架，通过物理驱动的神经动作重定向算法和结合强化学习的统一控制器，使仿人机器人能够仅凭第一人称视觉感知和高阶任务指令，自主完成泛化性强且鲁棒的全身移动操作任务。

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

该论文提出了一种结合力感知模仿学习与基于人类偏好微调的两阶段框架，使机器人能够仅凭少量数据在削皮等接触密集且成功标准主观的精细操作任务中实现高成功率，并展现出跨物体类别的强泛化能力。

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

本文提出了 MIBURI，这是首个能够基于实时对话生成同步且富有表现力的全身手势与面部表情的在线因果框架，通过结合身体部位感知的手势编解码器与二维因果生成模型，解决了现有具身对话代理动作僵硬或依赖未来语音上下文的问题。

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

本文提出了 Utonia，这是首个旨在通过自监督学习将遥感、LiDAR、室内 RGB-D 及 CAD 等多样化点云数据统一到一个编码器中的模型，其不仅实现了跨域表征迁移并提升了感知能力，还展现出在机器人操作与空间推理等具身及多模态任务中的显著潜力。

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

该论文提出了一种将一阶段目标检测中的分类任务替换为排序任务并采用平均精度损失（AP-loss）的新框架，通过结合感知机误差驱动更新与深度网络反向传播的算法解决其优化难题，从而在不改变网络架构的情况下显著提升了检测性能。

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

该论文提出了一种将单阶段目标检测中的分类任务替换为排序任务并采用平均精度损失（AP-loss）的新框架，通过结合感知机误差驱动更新与反向传播算法的优化方法，有效解决了极端前景 - 背景类别不平衡问题，并在多个基准测试中实现了优于现有方法的检测性能。

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

本文提出了名为 OmniTracker 的统一跟踪模型，通过“跟踪辅助检测”的新范式，利用单一共享架构和参数同时解决实例跟踪与类别跟踪任务，在消除冗余的同时实现了与专用模型相当甚至更优的性能。

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

本文提出了一种名为 RFAConv 的新型卷积模块，通过引入能够解决大卷积核参数共享问题的感受野注意力（RFA）机制，在几乎不增加计算开销和参数量的前提下，显著提升了卷积神经网络的性能。

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

该论文提出了一种“任务驱动”的镜头设计新范式，通过冻结预训练视觉模型并仅优化镜头参数，实现了从零基础自动设计出比传统镜头更适配下游计算机视觉任务、且具备更少光学元件和更稳定训练过程的新型镜头。

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

该论文提出了一种名为 TG-MIL 的拓扑引导多示例学习方法，通过引入拓扑保持约束来增强数据稀缺场景下的弱监督分类性能，在合成数据集、基准测试及罕见贫血分类任务中均显著优于现有最先进模型。

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

该论文提出了一种名为“距离索引”的新方法，通过显式提供物体运动距离信息并结合迭代参考估计策略，有效解决了视频帧插值中因速度模糊导致的轨迹歧义问题，从而显著提升了插值帧的感知质量并支持灵活的视频编辑。

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

本文提出了一种针对多模态数据的新型潜在部分因果模型，通过引入由无向边连接的潜在耦合变量来刻画跨模态知识传递，从理论上证明了多模态对比学习（MMCL）所学习到的表示对应于这些潜在变量，从而深化了对 MMCL 机制的理解并验证了其在解耦表示、少样本学习及领域泛化中的实际有效性。

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG