World Model for Battery Degradation Prediction Under Non-Stationary Aging

Este artículo propone un modelo de mundo para predecir la degradación de baterías de iones de litio bajo envejecimiento no estacionario, el cual codifica series temporales en un estado latente y propaga su dinámica mediante un modelo aprendido (potenciado por restricciones de un modelo de partícula única) para generar trayectorias futuras con una precisión superior a la regresión directa.

Kai Chin Lim, Khay Wai See2026-03-12⚡ eess

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Este artículo presenta un marco de aprendizaje por refuerzo multiagente basado en Proximal Policy Optimization (PPO) para coordinar flotas de drones en la entrega de suministros médicos, demostrando mediante datos geográficos reales que la versión clásica de PPO supera a las estrategias asíncronas y secuenciales en la gestión de logística sanitaria dinámica y bajo incertidumbre.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

El artículo presenta GR³, un método de aprendizaje por refuerzo que mitiga la inflación de longitud en los LLM mediante un redimensionamiento multiplicativo de recompensas y regularización relativa a grupos, logrando controlar la verbosidad sin comprometer el rendimiento ni la dinámica de entrenamiento.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning

Este artículo propone un enfoque de aprendizaje por refuerzo para optimizar automáticamente los pesos de las funciones de puntuación en los programadores de clústeres, logrando mejoras significativas en el rendimiento de los trabajos al adaptarse a las características específicas de cada carga de trabajo sin necesidad de conocimiento experto manual.

Martin Asenov, Qiwen Deng, Gingfung Yeung, Adam Barker2026-03-12🤖 cs.LG

Quantization Robustness of Monotone Operator Equilibrium Networks

Este artículo demuestra que la convergencia y unicidad de las redes de equilibrio de operadores monótonos bajo cuantización de pesos están garantizadas siempre que la perturbación espectral sea menor que el margen de monotonía, estableciendo límites teóricos para el error y validando experimentalmente que la cuantización consciente del entrenamiento puede recuperar la convergencia a niveles de precisión de cuatro bits.

James Li, Philip H. W. Leong, Thomas Chaffey2026-03-12⚡ eess

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Este estudio empírico demuestra que, contrariamente a la hipótesis de que el alineamiento moral requiere algoritmos que fomenten la diversidad, los métodos de maximización de recompensas (RLVR) son igual o más efectivos que los enfoques de coincidencia de distribución, debido a que las respuestas de alto valor en el razonamiento moral presentan una distribución más concentrada que en el razonamiento matemático.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Este trabajo presenta un marco matemático unificado que demuestra la equivalencia entre el modelo generativo "Drifting" y el flujo de gradiente de Wasserstein de la divergencia KL bajo aproximación KDE, extendiendo este enfoque a otras divergencias, variedades riemannianas y estrategias mixtas para mitigar simultáneamente el colapso y el desenfoque de modos.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

El artículo presenta Geo-ATBench, un nuevo conjunto de datos y marco de referencia para la etiquetado de audio geoespacial que demuestra cómo integrar el contexto semántico geográfico mejora la precisión en la identificación de eventos sonoros, especialmente cuando la información acústica por sí sola es ambigua.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick Botteldooren2026-03-12⚡ eess

Spatio-Temporal Attention Graph Neural Network: Explaining Causalities With Attention

Este artículo presenta una red neuronal de grafos con atención espacio-temporal (STA-GNN) para la detección de anomalías no supervisada y explicable en sistemas de control industrial, la cual modela las interdependencias ciberfísicas, gestiona el desplazamiento de la línea base mediante predicción conformal y ofrece mecanismos de atención para revelar las relaciones causales detrás de las alertas.

Kosti Koistinen, Kirsi Hellsten, Joni Herttuainen, Kimmo K. Kaski2026-03-12🤖 cs.LG

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

Este trabajo presenta un marco de aprendizaje automático basado en redes neuronales SHRED y reducción de dimensionalidad mediante SVD para reconstruir de manera eficiente y precisa los estados completos de flujo magnetohidrodinámico en sistemas de fusión nuclear a partir de mediciones térmicas limitadas, demostrando su potencial como modelo sustituto para la estimación de estados en tiempo real.

M. Lo Verso, C. Introini, E. Cervi, L. Savoldi, J. N. Kutz, A. Cammi2026-03-12🤖 cs.LG