WVA: A Global Optimization Control Plane for llmd

本文提出了与推理引擎\texttt{llmd}协同设计的 WVA 全局优化控制平面,通过结合应用级 SLO、硬件异构性及引擎内部状态(如 KV 缓存)进行主动扩缩容,在提升有效吞吐量 37% 并降低 10 倍请求失败率的同时,显著优化了 GPU 资源成本与能耗。

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

该论文主张商业电子游戏是连接人机交互与认知科学的独特研究环境,通过利用游戏固有的认知需求与动机特性,结合屏幕录制、眼动追踪等最小化观测工具,为在生态效度更高的自然情境下系统研究感知、注意及执行功能提供了新的方法论框架。

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs