DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

El artículo presenta DRIFT, un modelo transformador de doble representación que fusiona características locales y globales mediante una arquitectura de dos vías para mejorar la percepción en la conducción automatizada utilizando nubes de puntos de radar 4D, superando a los métodos existentes en tareas de detección de objetos y estimación de carreteras.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

El artículo presenta TemporalDoRA, un método de ajuste fino eficiente en parámetros diseñado para mejorar la robustez y la precisión temporal en la respuesta a preguntas sobre videos quirúrgicos mediante la integración de atención temporal dentro de la adaptación de bajo rango, validado con el nuevo conjunto de datos REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Este estudio empírico presenta la primera taxonomía de "olores de interacción" en la generación de código colaborativa con LLMs, analiza su distribución en modelos actuales y propone el marco multiagente InCE para mitigar estos problemas y mejorar el éxito de las tareas en interacciones de múltiples turnos.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

El artículo presenta TriFusion-SR, un marco de difusión condicional guiado por wavelets que realiza de forma conjunta la fusión de imágenes médicas tri-modales y la superresolución, superando a los métodos existentes mediante la descomposición de frecuencias y la calibración de coeficientes para lograr mejoras significativas en la calidad perceptual y métricas de precisión.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

El artículo presenta Robotic Scene Cloning (RSC), un método novedoso que mejora la adaptación cero-shot de robots en entornos reales mediante la edición de trayectorias de operación existentes y la generación de muestras visualmente coherentes, logrando así una generalización de políticas más robusta sin necesidad de recopilación de datos extensa.

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong Chen2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

Este trabajo presenta un filtro de Kalman de conjunto regularizado que, mediante inferencia bayesiana, actualiza el estado de modelos de campo de fase para fractura frágil utilizando datos de sensores de desplazamiento, corrigiendo las estimaciones para garantizar la consistencia con las suposiciones del modelo y permitiendo inferir tanto el campo de desplazamientos como el campo de fase.

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

El artículo presenta WVA, un plano de control de optimización global diseñado para \texttt{llmd} que mejora el rendimiento y reduce los fallos al acoplar decisiones de escalado con el estado interno de los servidores de inferencia, logrando una mayor eficiencia en hardware heterogéneo en comparación con los autoscalers tradicionales.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

El artículo presenta FetalAgents, el primer sistema multiagente diseñado para analizar imágenes y videos de ecografías fetales mediante la coordinación dinámica de expertos visuales especializados, logrando un rendimiento superior en diagnóstico, medición y segmentación, además de generar informes clínicos estructurados a partir de flujos de video completos.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

El artículo presenta ENIGMA-360, un nuevo conjunto de datos sincronizado de vistas egocéntrica y exocéntrica grabado en un entorno industrial real y etiquetado para facilitar la comprensión del comportamiento humano mediante tareas como la segmentación temporal de acciones, el reconocimiento de pasos clave y la detección de interacciones persona-objeto.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

El artículo presenta LAP, un modelo de planificación que utiliza un modelo de lenguaje-visión para convertir observaciones visuales en descripciones textuales más distintivas y generar secuencias de acciones mediante un modelo de difusión, logrando así un rendimiento superior en la planificación de procedimientos para videos instruccionales.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

El artículo demuestra que minimizar la longitud de la arista más larga en la incrustación geométrica simultánea de dos caminos en una cuadrícula entera es NP-duro, mientras que presenta un algoritmo de tiempo O(n3/2)O(n^{3/2}) para minimizar el perímetro de la cuadrícula cuando un camino es xx-monótono y el otro es yy-monótono.

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Este artículo argumenta que los videojuegos comerciales constituyen un entorno de investigación subutilizado pero ideal en la intersección de la interacción humano-computadora y la ciencia cognitiva, ofreciendo una validez ecológica superior a los paradigmas de laboratorio tradicionales para estudiar procesos como la percepción, la atención y la función ejecutiva mediante un marco de mapeo de affordances y herramientas observacionales mínimas.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs