SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

SPAARS es un marco de aprendizaje curricular para el aprendizaje por refuerzo offline-a-online que mejora la seguridad y la eficiencia de las muestras al explorar inicialmente en un espacio latente de baja dimensión y luego transferir el control al espacio de acciones crudo, superando así las limitaciones de rendimiento de los métodos basados en decodificadores.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

El artículo presenta VMoER, un enfoque bayesiano escalable que integra la cuantificación de incertidumbre en las capas de Mezcla de Expertos (MoE) de los modelos fundacionales mediante la inferencia variacional en la etapa de enrutamiento, logrando una mejora significativa en la estabilidad, calibración y detección de datos fuera de distribución con un costo computacional marginal.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

El artículo presenta TrainDeeploy, un marco que habilita la primera canalización completa de entrenamiento y ajuste fino en el dispositivo para modelos Transformer y CNN en chips de ultra bajo consumo, logrando una adaptación eficiente en el extremo mediante estrategias como LoRA que reducen significativamente el uso de memoria y el volumen de transferencia de datos.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

El estudio demuestra que los modelos de lenguaje pueden adquirir subliminalmente preferencias de un modelo generador a través de parafraseos fieles, incluso cuando el contenido semántico es irrelevante o contradice explícitamente dicha preferencia, lo que revela una vulnerabilidad crítica en los pipelines de entrenamiento con datos sintéticos que no puede detectarse mediante inspección de contenido.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

El artículo presenta EDA, un marco eficiente en parámetros y datos que restaura el rendimiento de la decodificación especulativa en modelos de lenguaje ajustados mediante una arquitectura desacoplada, una estrategia de regeneración de datos y un mecanismo de selección de muestras, logrando así una adaptación rápida y de bajo costo sin necesidad de reentrenamiento completo.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

Este estudio analiza el aprendizaje de la estructura de redes de Markov y bayesianas mediante un oráculo de independencia condicional no fiable, demostrando que las redes de Markov pueden identificarse incluso con un número moderadamente exponencial de errores bajo ciertas condiciones de conectividad, mientras que las redes bayesianas no toleran ningún error para una identificación garantizada, y propone algoritmos para los casos en que la estructura es identificable.

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma2026-03-11🤖 cs.LG

An Optimal Control Approach To Transformer Training

Este artículo propone un enfoque de control óptimo riguroso para el entrenamiento de Transformers, modelando la arquitectura como un sistema de partículas controlado que se transforma en un proceso de decisión de Markov sobre medidas de probabilidad, lo que permite demostrar la existencia de políticas óptimas globales y ofrecer una alternativa robusta a los métodos basados en gradientes sin requerir suavidad ni convexidad.

Ka\u{g}an Akman, Naci Saldı, Serdar Yüksel2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

El artículo presenta SCDP, un enfoque que utiliza modelos de difusión y entrenamiento con observaciones mixtas para aprender locomoción de humanoides exclusivamente a partir de sensores a bordo, eliminando la necesidad de estimación de estado explícita y logrando un rendimiento robusto tanto en simulación como en un robot real.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Este trabajo demuestra teórica y experimentalmente que el algoritmo Adam converge automáticamente y de forma lineal en polinomios altamente degenerados gracias a un mecanismo de desacoplamiento que amplifica la tasa de aprendizaje, superando así a los métodos tradicionales como el descenso de gradiente y el momentum en este tipo de funciones.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG