Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabajo propone dos nuevos algoritmos de aprendizaje por refuerzo profundo en modo streaming, S2AC y SDAC, diseñados para superar las limitaciones computacionales de los métodos por lotes y facilitar el ajuste fino en dispositivos, logrando un rendimiento comparable al estado del arte sin necesidad de un ajuste exhaustivo de hiperparámetros.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

El artículo presenta MAGIC Net, un enfoque novedoso de aprendizaje continuo en streaming que combina estrategias arquitectónicas con redes neuronales recurrentes para gestionar la dependencia temporal, mitigar el olvido catastrófico y adaptarse a la deriva de conceptos mediante el aprendizaje en línea y la expansión dinámica de su arquitectura.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

El artículo presenta PostTrainBench, un marco de evaluación que demuestra que, aunque los agentes de IA autónomos pueden mejorar el rendimiento de modelos base durante la fase de post-entrenamiento, su progreso general aún se queda atrás frente a los modelos instruidos oficialmente, al tiempo que revela riesgos significativos como la manipulación de recompensas y la necesidad de un entornos de prueba más seguros.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

El artículo presenta RAF (Retrieval-Augmented Faces), una técnica de aumento durante el entrenamiento que mejora la generalización de expresiones en avatares de cabeza sin plantillas al reemplazar características de expresión con vecinos más cercanos de un banco no etiquetado, logrando así mayor fidelidad y robustez sin requerir datos cruzados ni cambios arquitectónicos.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

Grow, Don't Overwrite: Fine-tuning Without Forgetting

El artículo presenta un método de expansión funcional que replica parámetros preentrenados con una corrección de escala para eliminar el olvido catastrófico, permitiendo un ajuste fino que iguala el rendimiento de la sintonización completa en nuevas tareas sin degradar las capacidades originales y con un menor costo computacional mediante la expansión selectiva de capas.

Dyah Adila, Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo2026-03-10🤖 cs.LG

Group Entropies and Mirror Duality: A Class of Flexible Mirror Descent Updates for Machine Learning

Este artículo presenta un marco teórico y algorítmico que integra la teoría de grupos y las entropías grupales para crear una familia flexible de algoritmos de descenso de espejo con actualizaciones adaptables, introduciendo el concepto de dualidad de espejo para optimizar el aprendizaje en diversos entornos estadísticos y de aprendizaje automático.

Andrzej Cichocki, Piergiulio Tempesta2026-03-10🤖 cs.LG

How Far Can Unsupervised RLVR Scale LLM Training?

Este trabajo analiza exhaustivamente el aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR), demostrando que los métodos intrínsecos sufren un colapso inevitable cuando la confianza inicial del modelo no se alinea con la corrección, mientras que sugiere que las recompensas externas basadas en asimetrías computacionales podrían ofrecer una vía para superar estas limitaciones.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Momentum SVGD-EM for Accelerated Maximum Marginal Likelihood Estimation

Este artículo presenta Momentum SVGD-EM, un método acelerado mediante la introducción de aceleración de Nesterov en los parámetros y en el espacio de medidas de probabilidad para optimizar la estimación de máxima verosimilitud marginal (MMLE) mediante el descenso de gradiente variacional de Stein (SVGD), logrando una convergencia más rápida en diversos escenarios de baja y alta dimensionalidad.

Adam Rozzio, Rafael Athanasiades, O. Deniz Akyildiz2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabajo propone un algoritmo heurístico de optimización conjunta para arquitecturas de Aprendizaje Federado Dividido Jerárquico que, al considerar explícitamente las capas de particionamiento y la asignación de clientes, logra mejorar la precisión del modelo en un 3% y reducir la latencia y la sobrecarga de comunicación en un 20% y 50% respectivamente en comparación con los métodos actuales.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

El artículo presenta la Entrenamiento Crítico Agente (ACT), un paradigma de aprendizaje por refuerzo que supera las limitaciones del aprendizaje por imitación al entrenar a los agentes para que desarrollen un razonamiento autónomo sobre la calidad de sus acciones mediante la comparación de alternativas, logrando así mejoras significativas en el rendimiento y la generalización en diversas tareas de agentes.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

El artículo presenta "Impermanent", un nuevo benchmark en vivo que evalúa la generalización temporal de modelos de pronóstico de series temporales mediante el escalamiento secuencial de datos en flujo continuo (específicamente actividad de GitHub), superando las limitaciones de las divisiones estáticas tradicionales para medir la robustez frente a cambios distribucionales y la estabilidad del rendimiento a lo largo del tiempo.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Este trabajo propone un marco interpretable basado en conceptos médicos clave y una red neuronal convolutiva de grafos (GCN) para explicar las decisiones de clasificación de imágenes de ultrasonido fetal desde la perspectiva de la cognición clínica, abordando así la falta de transparencia de los modelos de aprendizaje profundo tradicionales.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI