This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

El artículo propone Adaptive Manifold Prototypes (AMP), un marco que utiliza optimización riemanniana en la variedad de Stiefel para representar prototipos como bases ortonormales y evitar el colapso de prototipos, logrando así un reconocimiento interpretable con alta precisión y fidelidad causal en benchmarks de granularidad fina.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Este estudio presenta un modelo de flujo rectificado que genera en tiempo real y con alta fidelidad imágenes de resonancia magnética cerebral post-tratamiento para pacientes con glioma, utilizando datos pretratamiento y mapas de dosis de radioterapia para optimizar la planificación terapéutica y la predicción de resultados personalizados.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

El artículo presenta AULLM++, un marco de razonamiento estructurado basado en modelos de lenguaje grandes que supera las limitaciones de los métodos anteriores para la detección de Unidades de Acción en microexpresiones mediante la fusión de características visuales multigranulares, el modelado de correlaciones entre unidades y la regularización de consistencia contrafactual, logrando así un rendimiento superior y una mejor generalización.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

El artículo presenta StructBiHOI, un marco de modelado articulado estructurado que combina un jointVAE para la planificación temporal a largo plazo y un maniVAE para el refinamiento de poses, utilizando un difusor basado en Mamba para generar interacciones bimanuales mano-objeto coherentes, físicamente plausibles y estables en secuencias extensas.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

SPIRAL es un marco de bucle cerrado que mejora la generación de video a largo plazo mediante agentes reflexivos de planificación y crítica que descomponen, ejecutan y refinan iterativamente acciones semánticas para garantizar una mayor coherencia temporal y alineación semántica.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

El artículo presenta GRACE, un marco de aprendizaje incremental de clases que gestiona dinámicamente la capacidad del modelo mediante un ciclo de expansión, evaluación de saturación y compresión para lograr un rendimiento de vanguardia reduciendo la huella de memoria hasta en un 73% en comparación con los métodos puramente expansivos.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

Este trabajo propone IMaX, un método basado en el principio de maximización de información mutua que incorpora un objetivo entrópico para mitigar el sesgo de clases desbalanceadas y mejorar el rendimiento de la generalización de dominio semi-supervisada en escenarios de cola larga.

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

El artículo presenta el "Interactive World Simulator", un marco que utiliza modelos de consistencia para generar simulaciones interactivas rápidas y físicamente coherentes que permiten entrenar y evaluar políticas robóticas de manera escalable con un rendimiento comparable al obtenido con datos del mundo real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

El artículo presenta DualFlexKAN, una arquitectura flexible de redes neuronales Kolmogorov-Arnold que utiliza un mecanismo de doble etapa para controlar independientemente las transformaciones de entrada y las activaciones de salida, logrando una mayor precisión y eficiencia con significativamente menos parámetros que las KANs y MLPs convencionales.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

El paper presenta PRISM, un modelo fundacional unificado para la generación de movimiento humano que supera las limitaciones actuales mediante un espacio latente factorizado por articulaciones y una inyección de condiciones libre de ruido, permitiendo síntesis de alta calidad y sin errores acumulativos para tareas de texto-a-movimiento, condicionadas por poses y secuenciales en tiempo real.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artículo presenta un marco de aprendizaje débilmente supervisado con refinamiento progresivo de máscaras pseudo, que utiliza anotaciones escasas de patólogos y un教师-estudiante estabilizado para lograr una segmentación precisa y generalizable de glándulas en histopatología colorrectal sin necesidad de anotaciones pixel a pixel extensivas.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

El artículo presenta RAF (Retrieval-Augmented Faces), una técnica de aumento durante el entrenamiento que mejora la generalización de expresiones en avatares de cabeza sin plantillas al reemplazar características de expresión con vecinos más cercanos de un banco no etiquetado, logrando así mayor fidelidad y robustez sin requerir datos cruzados ni cambios arquitectónicos.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG