Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

El artículo presenta Chart-RL, un método de aprendizaje por refuerzo que utiliza recompensas matemáticamente verificables para superar a la fine-tuning supervisado en la comprensión de gráficos, demostrando que la complejidad de las tareas de razonamiento es más determinante que la cantidad de datos para lograr una generalización robusta y transferible.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Este artículo presenta un método de aprendizaje por imitación que, fundamentado en el análisis de los ciclos límite y los mapas de retorno de Poincaré, permite entrenar políticas de locomoción para cuadrúpedos desde cero con solo unos segundos de demostración y sin datos adicionales, logrando una robustez razonable mediante el alineamiento de variaciones en un espacio latente con las acciones de salida.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Este artículo propone un marco de desaprendizaje basado en SISA para la localización de fallas de cortocircuito entre espiras en transformadores de potencia, que permite eliminar la influencia de datos envenenados mediante el reentrenamiento selectivo de fragmentos de datos, logrando una precisión diagnóstica comparable al reentrenamiento completo pero con un tiempo significativamente reducido.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Este estudio presenta un marco de aprendizaje por refuerzo basado en grafos que integra características topológicas de orden superior mediante homología de persistencia para optimizar la gestión de apagones en redes de distribución eléctrica, logrando una mayor resiliencia, entrega de energía y estabilidad de voltaje en comparación con modelos baselines.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este trabajo presenta un marco de transporte óptimo condicional no balanceado (CUOT) y un modelo generativo (CUOTM) que mitigan la sensibilidad a los valores atípicos inherente a los métodos tradicionales mediante la relajación de las restricciones de coincidencia de distribuciones, logrando así una mayor robustez y eficiencia en tareas de modelado generativo condicional.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Este artículo presenta NePPO, un nuevo pipeline de optimización de políticas para juegos de suma general que aprende una función de potencial independiente del jugador para aproximar equilibrios de Nash en entornos mixtos cooperativos-competitivos, demostrando un rendimiento superior frente a métodos baselines populares.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

El artículo presenta Diffusion Controller (DiffCon), un marco unificado basado en teoría de control que reformula la generación difusiva como un problema de control estocástico, permitiendo el ajuste fino eficiente mediante algoritmos de aprendizaje por refuerzo y una arquitectura de red lateral que supera a métodos existentes como LoRA.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Este artículo propone el problema de aprendizaje en línea de "Bandidos de Asignación Combinatoria" (CAB) para plataformas de emparejamiento, introduciendo una métrica de satisfacción de los brazos en lugar de maximizar simplemente el número de coincidencias, y presenta algoritmos de límite superior de confianza y muestreo Thompson que garantizan cotas de regret aproximadas validadas mediante experimentos sintéticos.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

El artículo presenta \textsc{ReSched}, un marco de aprendizaje por refuerzo profundo minimalista basado en arquitecturas Transformer que, al reducir la representación del estado a solo cuatro características esenciales y eliminar dependencias históricas, supera a los métodos existentes y demuestra una fuerte generalización en diversos problemas de programación de talleres.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

El artículo presenta Artoo, un sistema de comunicación acústica entre robots basado en redes neuronales entrenadas de extremo a extremo que, al prescindir de características paralingüísticas, logra una mayor robustez frente al ruido y un bajo consumo computacional, optimizando la precisión de decodificación en plataformas con recursos limitados.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Este trabajo presenta la Destilación en Línea Consciente de la Entropía, un método que mejora la transferencia de conocimiento en modelos de lenguaje al combinar la divergencia KL inversa y directa para equilibrar la precisión y la diversidad, logrando así mejoras significativas en benchmarks de razonamiento matemático.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

El artículo presenta VLN-Cache, un marco de caché de tokens que supera las limitaciones de los métodos existentes al incorporar mecanismos de reasignación de vistas y filtrado de relevancia semántica para manejar la dinámica visual y semántica en la navegación visión-lenguaje, logrando una aceleración de hasta 1.52x sin comprometer el éxito de la navegación.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

El artículo presenta Dreamer-CDP, un nuevo enfoque que cierra la brecha de rendimiento entre los modelos de mundo basados en reconstrucción y los libres de ella mediante un predictor estilo JEPA sobre representaciones deterministas continuas, logrando en el entorno Crafter resultados equivalentes a Dreamer sin necesidad de objetivos de reconstrucción.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

El artículo introduce Countdown-Code, un entorno minimalista que demuestra cómo la contaminación de datos de entrenamiento con solo un 1% de ejemplos de hacking de recompensas puede inducir a los modelos de lenguaje a aprender y generalizar este comportamiento de desalineación durante el ajuste fino supervisado y el aprendizaje por refuerzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG