cs.LG artículos | Gist.Science

World Model for Battery Degradation Prediction Under Non-Stationary Aging

Este artículo propone un modelo de mundo para predecir la degradación de baterías de iones de litio bajo envejecimiento no estacionario, el cual codifica series temporales en un estado latente y propaga su dinámica mediante un modelo aprendido (potenciado por restricciones de un modelo de partícula única) para generar trayectorias futuras con una precisión superior a la regresión directa.

Kai Chin Lim, Khay Wai See2026-03-12⚡ eess

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Este artículo presenta un marco de aprendizaje por refuerzo multiagente basado en Proximal Policy Optimization (PPO) para coordinar flotas de drones en la entrega de suministros médicos, demostrando mediante datos geográficos reales que la versión clásica de PPO supera a las estrategias asíncronas y secuenciales en la gestión de logística sanitaria dinámica y bajo incertidumbre.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

El artículo presenta GR³, un método de aprendizaje por refuerzo que mitiga la inflación de longitud en los LLM mediante un redimensionamiento multiplicativo de recompensas y regularización relativa a grupos, logrando controlar la verbosidad sin comprometer el rendimiento ni la dinámica de entrenamiento.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

SCORE: Replacing Layer Stacking with Contractive Recurrent Depth

El artículo presenta SCORE, un método recurrente discreto basado en ecuaciones diferenciales ordinarias que reemplaza el apilamiento de capas tradicional mediante actualizaciones contractivas compartidas, logrando una mayor eficiencia en parámetros y velocidad de convergencia en diversas arquitecturas de redes neuronales.

Guillaume Godin2026-03-12🤖 cs.LG

Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning

Este artículo propone un enfoque de aprendizaje por refuerzo para optimizar automáticamente los pesos de las funciones de puntuación en los programadores de clústeres, logrando mejoras significativas en el rendimiento de los trabajos al adaptarse a las características específicas de cada carga de trabajo sin necesidad de conocimiento experto manual.

Martin Asenov, Qiwen Deng, Gingfung Yeung, Adam Barker2026-03-12🤖 cs.LG

A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

Este artículo propone un marco de aprendizaje automático basado en grafos bipartitos que aprovecha las horas de negociación no superpuestas de los mercados de EE. UU. y China para revelar una asimetría informativa significativa, donde los rendimientos estadounidenses previenen eficazmente los rendimientos intradía chinos, pero no a la inversa.

Jing Liu, Maria Grith, Xiaowen Dong, Mihai Cucuringu2026-03-12💰 q-fin

Quantization Robustness of Monotone Operator Equilibrium Networks

Este artículo demuestra que la convergencia y unicidad de las redes de equilibrio de operadores monótonos bajo cuantización de pesos están garantizadas siempre que la perturbación espectral sea menor que el margen de monotonía, estableciendo límites teóricos para el error y validando experimentalmente que la cuantización consciente del entrenamiento puede recuperar la convergencia a niveles de precisión de cuatro bits.

James Li, Philip H. W. Leong, Thomas Chaffey2026-03-12⚡ eess

Riemannian Geometry-Preserving Variational Autoencoder for MI-BCI Data Augmentation

Este artículo presenta un autoencoder variacional que preserva la geometría riemanniana (RGP-VAE) para generar matrices de covarianza sintéticas de alta fidelidad en interfaces cerebro-computadora, logrando un espacio latente invariante al sujeto y facilitando la ampliación de datos para aplicaciones de imaginación motora.

Viktorija Polaka, Ivo Pascal de Jong, Andreea Ioana Sburlea2026-03-12🤖 cs.LG

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

El artículo demuestra que el aprendizaje en contexto en los Transformers aproxima estadísticamente pruebas de razón de verosimilitud óptimas, revelando que estos modelos construyen estimadores estadísticos adaptativos en lugar de basarse en simples coincidencias de similitud.

Faris Chaudhry, Siddhant Gadkari2026-03-12🤖 cs.LG

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data

El artículo presenta HAPEns, un método de ensamblaje posterior que equilibra la precisión predictiva con la eficiencia del hardware mediante la construcción de un conjunto diverso de modelos a lo largo de la frontera de Pareto, demostrando en 83 conjuntos de datos tabulares que supera a las técnicas existentes al ofrecer mejores compromisos entre rendimiento y coste de despliegue.

Jannis Maier, Lennart Purucker2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Este estudio empírico demuestra que, contrariamente a la hipótesis de que el alineamiento moral requiere algoritmos que fomenten la diversidad, los métodos de maximización de recompensas (RLVR) son igual o más efectivos que los enfoques de coincidencia de distribución, debido a que las respuestas de alto valor en el razonamiento moral presentan una distribución más concentrada que en el razonamiento matemático.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Este trabajo presenta un marco matemático unificado que demuestra la equivalencia entre el modelo generativo "Drifting" y el flujo de gradiente de Wasserstein de la divergencia KL bajo aproximación KDE, extendiendo este enfoque a otras divergencias, variedades riemannianas y estrategias mixtas para mitigar simultáneamente el colapso y el desenfoque de modos.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Self-Scaled Broyden Family of Quasi-Newton Methods in JAX

Este documento técnico presenta una implementación en JAX de la familia Broyden autoescalada de métodos cuasi-Newton, compatible con la librería Optimistix, que incluye variantes como BFGS, DFP y Broyden junto con una búsqueda de línea Zoom, con el objetivo de facilitar su adopción en la comunidad de JAX.

Ivan Bioli, Mikel Mendibe Abarrategi2026-03-12🤖 cs.LG

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

El artículo presenta Geo-ATBench, un nuevo conjunto de datos y marco de referencia para la etiquetado de audio geoespacial que demuestra cómo integrar el contexto semántico geográfico mejora la precisión en la identificación de eventos sonoros, especialmente cuando la información acústica por sí sola es ambigua.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick Botteldooren2026-03-12⚡ eess

Reinforcement Learning with Conditional Expectation Reward

El artículo propone la Recompensa de Expectativa Condicional (CER), un método que utiliza el propio modelo de lenguaje como verificador implícito para proporcionar señales de recompensa graduales y eliminar la dependencia de reglas de verificación manuales, mejorando así el aprendizaje por refuerzo en dominios de razonamiento generales y matemáticos.

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Este artículo presenta un enfoque novedoso y explicable para detectar y eliminar backdoors en redes neuronales mediante el análisis de caminos activos, demostrando su eficacia experimental en un modelo de detección de intrusiones.

Eirik Høyheim, Magnus Wiik Eckhoff, Gudmund Grov, Robert Flood, David Aspinall2026-03-12🤖 cs.AI

FAME: Formal Abstract Minimal Explanation for Neural Networks

El artículo presenta FAME, un nuevo método de explicaciones abductivas basado en interpretación abstracta que escala a redes neuronales grandes reduciendo el tamaño de las explicaciones mediante dominios de perturbación dedicados y límites LiRPA, superando a VERIX+ en eficiencia y calidad.

Ryma Boumazouza, Raya Elsaleh, Melanie Ducoffe, Shahaf Bassan, Guy Katz2026-03-12🤖 cs.AI

Spatio-Temporal Attention Graph Neural Network: Explaining Causalities With Attention

Este artículo presenta una red neuronal de grafos con atención espacio-temporal (STA-GNN) para la detección de anomalías no supervisada y explicable en sistemas de control industrial, la cual modela las interdependencias ciberfísicas, gestiona el desplazamiento de la línea base mediante predicción conformal y ofrece mecanismos de atención para revelar las relaciones causales detrás de las alertas.

Kosti Koistinen, Kirsi Hellsten, Joni Herttuainen, Kimmo K. Kaski2026-03-12🤖 cs.LG

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

Este trabajo presenta un marco de aprendizaje automático basado en redes neuronales SHRED y reducción de dimensionalidad mediante SVD para reconstruir de manera eficiente y precisa los estados completos de flujo magnetohidrodinámico en sistemas de fusión nuclear a partir de mediciones térmicas limitadas, demostrando su potencial como modelo sustituto para la estimación de estados en tiempo real.

M. Lo Verso, C. Introini, E. Cervi, L. Savoldi, J. N. Kutz, A. Cammi2026-03-12🤖 cs.LG

Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

El artículo presenta "Contract And Conquer" (CAC), un método de ataque adversarial en caja negra que garantiza la generación de ejemplos adversarios para modelos de redes neuronales mediante la destilación de conocimiento y la contracción del espacio de búsqueda, superando a los métodos actuales en el conjunto de datos ImageNet.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.LG

← Anterior Siguiente →