Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Este estudio utiliza técnicas de interpretabilidad mecánica para revelar los patrones internos de flujo de información en los VideoLLMs, identificando cómo integran progresivamente la información visual y lingüística a través de capas específicas para realizar el razonamiento temporal y demostrando que pueden mantener su rendimiento al suprimir hasta un 58% de las conexiones de atención innecesarias.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

El artículo presenta CASR-Net, una red de aprendizaje profundo de tres etapas que combina preprocesamiento mejorado, un codificador DenseNet121 con un decodificador Self-ONN y un módulo de refinamiento para lograr una segmentación precisa y robusta de arterias coronarias en angiogramas, superando a modelos existentes en métricas clave como el coeficiente Dice y la intersección sobre unión.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

El artículo presenta Kinematify, un marco automatizado que sintetiza objetos articulados de alto grado de libertad a partir de imágenes RGB o descripciones textuales, superando las limitaciones de los métodos anteriores al inferir topologías cinemáticas y estimar parámetros de articulaciones mediante una combinación de búsqueda MCTS y optimización basada en geometría.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

El artículo presenta DetGain, un método de curación de datos en línea para detección de objetos que selecciona dinámicamente muestras informativas estimando su contribución marginal a la Precisión Media (AP) del conjunto de datos, logrando mejoras consistentes en la precisión y robustez al integrarse de manera agnóstica con diversas arquitecturas de detección.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

El artículo presenta PrismAudio, un marco pionero que integra aprendizaje por refuerzo con razonamiento de pensamiento en cadena descompuesto y recompensas multidimensionales para resolver la entrelazación de objetivos en la generación de audio a partir de video, logrando un rendimiento superior en consistencia semántica, sincronía temporal, calidad estética y precisión espacial.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

El artículo presenta UniDrive-WM, un modelo de mundo unificado basado en modelos de visión-idioma que integra la comprensión de la escena, la planificación de trayectorias y la generación de imágenes futuras en una sola arquitectura, logrando mejoras significativas en la precisión de la planificación y la reducción de colisiones en comparación con los métodos anteriores.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

El artículo presenta VideoTemp-o3, un marco unificado de pensamiento agente para videos que mejora la comprensión de videos largos y la localización temporal mediante un proceso de localización-clip-respuesta optimizado con mecanismos de enmascaramiento, recompensas específicas y datos de alta calidad, superando las limitaciones de los métodos existentes.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

WristMIR es un marco de recuperación de radiografías de muñeca pediátricas que, mediante el aprendizaje guiado por informes de radiología y la atención a regiones anatómicas específicas sin anotaciones manuales, mejora significativamente la precisión en la búsqueda de patrones de fractura y el diagnóstico clínico en comparación con los métodos existentes.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs