TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

本文提出了 TagaVLM,一种通过空间拓扑感知残差注意力机制和交错导航提示将拓扑结构显式注入视觉语言模型骨干网络的端到端框架,从而在 R2R 基准测试中实现了大模型方法中的最先进性能,证明了针对具身空间推理对小规模开源模型进行针对性增强比单纯扩大模型规模更为有效。

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

本文提出了 COP-GEN,一种基于潜在扩散变换器的多模态生成模型,它通过将地球观测数据间的跨模态映射建模为条件概率分布而非确定性映射,从而能够生成具有物理一致性且能反映自然不确定性的多样化数据,有效解决了传统模型在数据补全和跨传感器翻译任务中因忽略随机性而导致的性能瓶颈。

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

本文提出了 LoGeR,一种结合参数化测试时训练记忆与非参数滑动窗口注意力机制的新型混合记忆架构,旨在解决长视频稠密 3D 重建中的上下文连贯性难题,使其能够在无需后优化的情况下,从仅 128 帧的训练数据中泛化至数千帧甚至上万帧的超长序列,并显著超越现有最先进方法的重建精度与一致性。

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG