OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

该论文提出了一种名为 OTPL-VIO 的鲁棒立体视觉惯性里程计系统,通过引入无需训练的线特征描述子与基于熵正则化最优传输的关联机制,结合自适应不确定性加权策略,有效解决了低纹理和光照剧烈变化场景下的特征稀疏与匹配歧义问题,实现了高精度且实时的状态估计。

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind 提出了一种物理信息可微框架,通过结合 3D 高斯泼溅、物质点法及格子玻尔兹曼方法,实现了从视频观测中联合重建风场与物体动力学、并支持新风力条件下正向模拟与风场重定向的任务。

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

本文提出了 DRIFT 模型,这是一种专为 4D 雷达点云设计的自动驾駛感知 Transformer,通过双路径架构(点路径与柱路径)及多阶段特征共享机制,有效融合局部细粒度与全局粗粒度上下文信息,从而在物体检测和自由道路估计任务中显著优于现有基线方法。

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

本文提出了 TemporalDoRA,一种通过在低秩瓶颈中嵌入轻量级时序注意力机制并仅对可训练分支进行权重分解的新型参数高效微调方法,旨在解决手术视频问答中的时序建模不足与语言偏见问题,并在其新发布的 REAL-Colon-VQA 数据集及 EndoVis18-VQA 基准上验证了其在提升非模板化问题鲁棒性方面的有效性。

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

本文提出了一种名为“机器人场景克隆”(RSC)的新方法,通过视觉提示编辑和条件注入模块对现有机器人操作轨迹进行场景特定的自适应调整,从而在无需现场数据采集的情况下显著提升了机器人在真实环境中的零样本泛化能力。

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong Chen2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

本文提出了与推理引擎\texttt{llmd}协同设计的 WVA 全局优化控制平面,通过结合应用级 SLO、硬件异构性及引擎内部状态(如 KV 缓存)进行主动扩缩容,在提升有效吞吐量 37% 并降低 10 倍请求失败率的同时,显著优化了 GPU 资源成本与能耗。

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs