TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Il paper introduce TemporalDoRA, un metodo di adattamento efficiente dei parametri specifico per video che integra un'attenzione temporale nel bottleneck a basso rango per migliorare la robustezza e l'accuratezza nel rispondere a domande su video chirurgici, validando l'approccio sul nuovo dataset REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Questo studio empirico introduce la prima tassonomia degli "odori di interazione" nelle collaborazioni di generazione codice uomo-LLM, analizza la loro distribuzione su sei modelli principali e propone il framework multi-agente InCE per mitigare tali problematiche, migliorando significativamente il successo dei compiti e la qualità delle interazioni multi-turno.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye2026-03-11💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

Il paper propone Robotic Scene Cloning (RSC), un metodo innovativo che utilizza l'editing di prompt visivi per adattare le traiettorie robotiche a nuovi scenari in modo zero-shot, migliorando significativamente la generalizzazione delle politiche di manipolazione sia in ambienti simulati che reali.

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong Chen2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

Questo articolo presenta un filtro di Kalman d'insieme regolarizzato che integra dati sensoriali per aggiornare lo stato di modelli di campo di fase per la frattura fragile, permettendo di inferire sia il campo di spostamento che il campo di fase attraverso un approccio bayesiano che garantisce la coerenza con le assunzioni del modello.

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

Il documento presenta WVA, un piano di controllo di ottimizzazione globale co-progettato con \texttt{llmd} che, integrando lo stato interno del server di inferenza e gestendo l'eterogeneità hardware, migliora il throughput effettivo del 37% e riduce i fallimenti delle richieste di 10 volte rispetto agli autoscaler tradizionali.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Il paper presenta FetalAgents, il primo sistema multi-agente progettato per orchestrare dinamicamente esperti visivi specializzati al fine di analizzare immagini e video ecografici fetali, generando report clinici strutturati con prestazioni superiori rispetto ai modelli esistenti.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Il paper introduce SACA, un nuovo framework di allineamento contrastivo step-aware che risolve le limitazioni degli attuali metodi di addestramento per la navigazione visione-linguaggio in ambienti continui, migliorando la generalizzazione e il recupero dagli errori attraverso una supervisione densa e un'analisi dettagliata dei singoli passaggi.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Il paper presenta ENIGMA-360, un nuovo dataset sincronizzato di video ego- ed exocentrici raccolti in un ambiente industriale reale e annotati temporalmente e spazialmente per favorire la comprensione del comportamento umano e lo sviluppo di sistemi di sicurezza, evidenziando attraverso esperimenti basali le attuali limitazioni dei modelli nello scenario.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Questo articolo sostiene che i videogiochi commerciali rappresentino un ambiente di ricerca sottoutilizzato all'incrocio tra interazione uomo-computer e scienze cognitive, offrendo un contesto ecologicamente valido per studiare percezione, attenzione e funzioni esecutive attraverso un framework di mappatura tra affordance e cognizione.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs