OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

该论文提出了一种名为 OTPL-VIO 的鲁棒立体视觉惯性里程计系统,通过引入无需训练的线特征描述子与基于熵正则化最优传输的关联机制,结合自适应不确定性加权策略,有效解决了低纹理和光照剧烈变化场景下的特征稀疏与匹配歧义问题,实现了高精度且实时的状态估计。

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind 提出了一种物理信息可微框架,通过结合 3D 高斯泼溅、物质点法及格子玻尔兹曼方法,实现了从视频观测中联合重建风场与物体动力学、并支持新风力条件下正向模拟与风场重定向的任务。

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

本文提出了 DRIFT 模型,这是一种专为 4D 雷达点云设计的自动驾駛感知 Transformer,通过双路径架构(点路径与柱路径)及多阶段特征共享机制,有效融合局部细粒度与全局粗粒度上下文信息,从而在物体检测和自由道路估计任务中显著优于现有基线方法。

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

本文提出了 TemporalDoRA,一种通过在低秩瓶颈中嵌入轻量级时序注意力机制并仅对可训练分支进行权重分解的新型参数高效微调方法,旨在解决手术视频问答中的时序建模不足与语言偏见问题,并在其新发布的 REAL-Colon-VQA 数据集及 EndoVis18-VQA 基准上验证了其在提升非模板化问题鲁棒性方面的有效性。

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs