Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudio demuestra que la utilidad de la mezcla global de tokens en la restauración de imágenes por resonancia magnética depende de la tarea específica, ya que los modelos basados en CNN con puertas locales resultan competitivos en reconstrucción y superresolución donde la física impone restricciones globales, mientras que los modelos de mezcla global son superiores en tareas de eliminación de ruido heterocedástico que requieren estimar la fiabilidad espacial variable.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

El artículo presenta VidDoS, el primer marco universal de ataque de denegación de servicio energético-latencia diseñado específicamente para modelos de lenguaje grandes basados en video, el cual utiliza desencadenantes agnósticos a la instancia para inflar drásticamente la latencia de inferencia y provocar violaciones de seguridad críticas en aplicaciones como la conducción autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

El artículo presenta MM-Mem, una arquitectura de memoria multimodal piramidal inspirada en la teoría de la huella difusa que utiliza un cuello de botella de información semántica para distilar eficientemente recuerdos detallados en esquemas abstractos, mejorando así la comprensión de videos de larga duración mediante una recuperación jerárquica y dinámica.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

El artículo presenta UltraStar, un nuevo enfoque que mejora la navegación automatizada en ecocardiografía mediante un modelo de grafo estelar semánticamente consciente que reformula la tarea como una localización global basada en anclajes espaciales, superando así las limitaciones de los métodos existentes al manejar trayectorias históricas ruidosas y largas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

El artículo presenta WildCross, un nuevo benchmark de gran escala que aborda la brecha en la percepción robótica para entornos naturales no estructurados mediante un conjunto de datos multimodal con más de 476.000 frames RGB, anotaciones de profundidad métrica y normales de superficie alineados con escaneos LiDAR y poses 6DoF para tareas de reconocimiento de lugares y estimación de profundidad.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

El artículo presenta SCATR, un modelo de seguimiento basado en LiDAR que mitiga la supresión de nuevas instancias mediante dos estrategias de entrenamiento innovadoras, asignación de segunda oportunidad y eliminación de consultas de seguimiento, logrando así un rendimiento superior que cierra la brecha histórica entre los métodos de seguimiento por atención y por detección.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

El artículo presenta PhotoBench, el primer benchmark construido a partir de álbumes personales auténticos que supera las limitaciones de la coincidencia visual tradicional al evaluar la capacidad de los sistemas para realizar razonamiento multimodal basado en múltiples fuentes e intenciones personalizadas, revelando así la necesidad de arquitecturas de agentes robustas para la recuperación de fotos.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Este artículo introduce un marco teórico de tasa-distorsión que utiliza firmas geométricas (pendiente y curvatura) derivadas de matrices de confusión para cuantificar y comparar los compromisos entre precisión y robustez en la generalización visual, revelando que, aunque los sistemas biológicos y artificiales siguen principios comunes de compresión con pérdida, los humanos exhiben trade-offs más flexibles y menos frágiles que las redes neuronales profundas actuales.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artículo presenta el marco DTI-UIE, un enfoque de mejora de imágenes submarinas inspirado en tareas posteriores que, mediante una red de dos ramas, una pérdida perceptual orientada a tareas y un conjunto de datos construido automáticamente, optimiza la calidad de las imágenes para mejorar el rendimiento en tareas de visión como la segmentación y la detección de objetos.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artículo presenta NO-CTR, una representación de funciones tensoriales continuas fundamentada en operadores neuronales que supera las limitaciones de los productos modales discretos mediante operadores no lineales continuos, logrando una aproximación teóricamente universal y un rendimiento superior en la completación de datos multidimensionales tanto en mallas regulares como irregulares.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Este trabajo presenta Tiny-DroNeRF, un modelo de campos neuronales de radiación optimizado para microcontroladores de ultra bajo consumo en nano-drones que, combinado con un esquema de aprendizaje federado, permite la reconstrucción 3D densa en entornos con recursos extremadamente limitados reduciendo la huella de memoria en un 96% con una mínima pérdida de precisión.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabajo presenta un método de predicción de trayectorias de drones basado exclusivamente en cámaras de eventos que extrae la velocidad de rotación de las hélices de los datos crudos y la integra en un filtro de Kalman consciente de las RPM, logrando una precisión superior a los enfoques basados en aprendizaje y a los filtros de Kalman convencionales sin necesidad de imágenes RGB ni datos de entrenamiento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este trabajo propone un prior estructural tridimensional libre de entrenamiento llamado Campo de Uniones 3D (3D FoJ) que, al optimizar uniones de cuñas para representar volúmenes, logra una eliminación de ruido superior y la preservación de bordes nítidos en problemas inversos volumétricos de baja relación señal-ruido sin riesgo de alucinaciones.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artículo propone y evalúa una nueva metodología de aumento de datos llamada C2GMA, que utiliza CycleGANs para generar imágenes interpoladas de dominio no visible a partir de imágenes visibles, logrando una mejora significativa en la clasificación de imágenes de Radar de Apertura Sintética (SAR) al superar las estrategias tradicionales.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG