Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

El artículo presenta el Modelo de Estado Específico (SSM), un marco innovador que unifica la detección y anticipación de acciones mediante la compresión de estados críticos, el aprendizaje de patrones de acción y la interacción cruzada temporal para modelar la intención del agente, logrando un rendimiento superior en diversos conjuntos de datos.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Este artículo presenta un marco de evaluación que demuestra cómo la complejidad de los prompts en modelos de texto-a-imagen reduce la diversidad y consistencia de las imágenes generadas, pero disminuye la brecha de distribución con datos reales, siendo la expansión de prompts la intervención que logra el mejor equilibrio entre diversidad, estética y fidelidad al dominio real.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

El artículo presenta SYNAPSE-Net, un marco unificado y adaptativo basado en codificadores convolucionales multi-stream y atención cruzada que logra una segmentación robusta y generalizable de lesiones cerebrales heterogéneas en múltiples modalidades de MRI, superando a modelos específicos de patología en diversos conjuntos de datos públicos.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Este artículo presenta el \textit{Rank-enhancing Token Fuser}, un marco de fusión teóricamente fundamentado que utiliza la rango efectivo para contrarrestar simultáneamente el colapso de características y el colapso de modalidades en la anticipación de acciones humanas, logrando un rendimiento superior al estado del arte mediante la integración de datos de profundidad y RGB.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

El artículo presenta MoDES, un marco de inferencia libre de entrenamiento que acelera los modelos multimodales de lenguaje grande con mezcla de expertos mediante un mecanismo de puerta local modulado globalmente y un umbralizado de doble modalidad, logrando una reducción significativa del tiempo de inferencia sin sacrificar el rendimiento en comparación con métodos anteriores.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

El artículo presenta GuideFlow, un marco de planificación para conducción autónoma que utiliza un flujo de coincidencia restringido para integrar directamente las limitaciones de seguridad y físicas en el proceso generativo, logrando así evitar el colapso de modos y ofrecer un control preciso sobre la agresividad de la trayectoria, lo que resulta en un rendimiento de vanguardia en varios benchmarks.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

El artículo presenta SelfAI, un marco de descubrimiento científico autogestionado y basado en agentes múltiples que automatiza la exploración de hipótesis a largo plazo mediante la traducción de intenciones de investigación en experimentos ejecutables y la toma de decisiones adaptativas, logrando soluciones de alta calidad con menos ensayos redundantes que los métodos tradicionales y basados en LLM.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabajo presenta CheXmask-U, un enfoque que cuantifica la incertidumbre en la segmentación anatómica basada en puntos de referencia de radiografías torácicas mediante medidas latentes y predictivas, junto con la liberación de un gran conjunto de datos y herramientas para mejorar la robustez y seguridad de estos métodos.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Este artículo presenta MRD, un enfoque que utiliza renderizado diferenciable basado en física para generar metameros de escenas 3D y así sondear y comprender cómo los modelos de visión artificial interpretan y son sensibles a propiedades físicas subyacentes como la geometría y el material, más allá de las representaciones bidimensionales.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs