TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation
本文提出了 TagaVLM,一种通过空间拓扑感知残差注意力机制和交错导航提示将拓扑结构显式注入视觉语言模型骨干网络的端到端框架,从而在 R2R 基准测试中实现了大模型方法中的最先进性能,证明了针对具身空间推理对小规模开源模型进行针对性增强比单纯扩大模型规模更为有效。
4144 篇论文
本文提出了 TagaVLM,一种通过空间拓扑感知残差注意力机制和交错导航提示将拓扑结构显式注入视觉语言模型骨干网络的端到端框架,从而在 R2R 基准测试中实现了大模型方法中的最先进性能,证明了针对具身空间推理对小规模开源模型进行针对性增强比单纯扩大模型规模更为有效。
该论文提出了一种基于二维自回归模型的轻量级框架,通过显式建模 DINOv3 嵌入的空间上下文依赖关系,在无需存储大量特征或原型的情况下,实现了高效且内存友好的无监督异常检测。
本文介绍了名为 Dresden 的数据集,该数据集包含来自 6 次猪尸体实验的 98 个录制序列(超过 30 万帧),通过配对的内窥镜视频与高精度结构光几何数据,为评估非刚性腹部手术场景下的 4D 重建、非刚性 SLAM 及深度估计算法提供了全面的基准。
本文提出了 VIRGi,一种针对 3D 高斯溅射(3DGS)的新颖方法,通过解耦漫反射与视角相关颜色分量并结合多视图训练策略,仅需单张用户编辑图像即可在 2 秒内实现保留高光等视角依赖效果的场景快速重着色。
本文提出了名为 URGT 的统一多补丁 Transformer 框架,通过将高分辨率图像分割为补丁并结合全局注意力机制与 GridMix 采样策略,在单前向传递中实现了兼顾局部细节与全局一致性的高分辨率单目深度与法线估计,并在多个基准测试中取得了最先进的性能。
本文提出了首个专为乳腺病理设计的协作式通用 - 专科基础模型 BRIGHT,该模型基于来自 19 家医院 4 万余名患者的海量数据训练,并在涵盖诊断、生物标志物预测及生存分析等 24 项临床任务的超大规模多中心验证中,展现出优于现有通用模型的卓越性能与可解释性。
本文提出了首个面向教育场景的 AI 生成视频质量评估基准 EduAIGV-1k 及评估框架 EduVQA,通过包含感知质量与提示对齐细粒度标注的数据集和创新的 S2D-MoE 模块,实现了对用于儿童数学教学的 AI 生成视频的多维度可解释性质量评估。
本文通过构建高质量的大规模 DaTikZ-V4 数据集,并采用“监督微调 + 基于逆图形图像编码器的强化学习”两阶段训练策略,成功推出了在文本转 TikZ 绘图任务上性能超越 GPT-4o 并媲美 GPT-5 的轻量级开源模型 TikZilla。
本文提出了专为星载 FPGA 部署设计的 TinyIceNet 模型,通过硬件算法协同优化与低精度量化,在严格功耗约束下实现了对双极化 Sentinel-1 SAR 海冰的高效实时分割,显著降低了能耗并提升了极地导航的时效性。
该论文提出了一种名为 AWDiff 的扩散模型,通过结合 a trous 小波变换与 BioMedCLIP 语义条件,在避免破坏性下采样的同时有效保留肺超声图像中的细微诊断特征(如 B 线和胸膜不规则),从而生成高质量且多样化的合成数据以解决医疗数据稀缺问题。
本文提出了名为 RL3DEdit 的强化学习框架,通过利用 VGGT 基础模型生成的置信度与位姿误差作为奖励信号,在无需成对训练数据的情况下,有效解决了基于 2D 扩散模型的 3D 场景编辑中多视图一致性的难题。
Kling-MotionControl 是一款基于 DiT 的统一框架,通过采用分治策略协调身体、面部和手部的异质运动表示,结合自适应身份泛化、精确的外观保持及多阶段蒸馏加速技术,实现了在跨身份通用性、视觉保真度及推理速度上均优于现有方案的鲁棒且可控的高质量角色动画生成。
该论文针对现有文本到图像模型中激活导向技术常导致良性提示图像质量下降的问题,提出了基于条件激活传输(CAT)框架,通过构建对比数据集并利用几何条件机制与非线性传输映射,在有效降低不安全内容生成率的同时保持了图像质量。
本文提出了模态解耦直接偏好优化(MoD-DPO)框架,通过引入模态感知正则化和语言先验去偏惩罚,有效缓解了全模态大语言模型中的跨模态幻觉问题,显著提升了其在音视频理解任务中的感知准确性与抗幻觉能力。
本文提出了 CoWVLA(Chain-of-World VLA),一种通过解耦潜在运动表示将世界模型的时间推理能力与紧凑的潜在动作表示相结合的新型范式,旨在解决现有视觉 - 语言 - 动作模型在动态建模与知识利用上的局限,并在机器人仿真基准测试中展现出优于现有方法的性能。
本文提出了 ACE-Brain-0,一种以空间智能为通用支架、采用“构建 - 专精 - 融合”(SSR)范式统一多模态大语言模型的多领域具身通用大脑,在 24 项基准测试中实现了跨异构载体的卓越泛化与领域专长平衡。
本文提出了 COP-GEN,一种基于潜在扩散变换器的多模态生成模型,它通过将地球观测数据间的跨模态映射建模为条件概率分布而非确定性映射,从而能够生成具有物理一致性且能反映自然不确定性的多样化数据,有效解决了传统模型在数据补全和跨传感器翻译任务中因忽略随机性而导致的性能瓶颈。
本文提出了涵盖 7 个领域和 30 个子任务的 UniG2U-Bench 基准,系统评估了统一多模态模型在生成辅助理解方面的表现,发现尽管统一模型在空间智能等特定任务上有所提升,但总体上其理解能力往往不及基础视觉语言模型,且“先生成后回答”的推理模式通常会降低性能。
DuoMo 提出了一种基于双扩散模型的生成式方法,通过分别处理相机空间估计与世界空间全局一致性优化,实现了从含噪或不完整视频中直接生成网格顶点的世界坐标人体运动重建,并在多个基准测试中取得了显著优于现有技术的性能。
本文提出了 LoGeR,一种结合参数化测试时训练记忆与非参数滑动窗口注意力机制的新型混合记忆架构,旨在解决长视频稠密 3D 重建中的上下文连贯性难题,使其能够在无需后优化的情况下,从仅 128 帧的训练数据中泛化至数千帧甚至上万帧的超长序列,并显著超越现有最先进方法的重建精度与一致性。