Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabajo propone CORA, un método de asignación de ventajas en el aprendizaje por refuerzo multiagente cooperativo que utiliza la teoría de juegos cooperativos y el concepto de "núcleo" para asignar créditos basados en las contribuciones de las coaliciones, mejorando así la optimización de las políticas y el comportamiento coordinado.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artículo presenta dos nuevos algoritmos de aprendizaje por refuerzo sin modelo, Q-EarlySettled-LowCost y FedQ-EarlySettled-LowCost, que logran simultáneamente un arrepentimiento casi óptimo, costos de inicio lineales en el número de estados y acciones, y costos de cambio de política o comunicación logarítmicos para entornos de agente único y federados.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

El artículo presenta ChannelTokenFormer, un marco unificado basado en Transformers que aborda simultáneamente la dependencia entre canales, la asincronía en la muestreo y los valores faltantes para lograr un pronóstico robusto y preciso de series temporales multivariadas en escenarios del mundo real.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning

El artículo presenta WAFFLE, un algoritmo de detección no supervisada que utiliza representaciones comprimidas mediante la Transformada de Ondículas de Dispersión o la Transformada de Fourier en un conjunto de datos público para identificar y etiquetar a los clientes maliciosos en el Aprendizaje Federado antes del entrenamiento, mejorando así la precisión y el rendimiento del modelo sin acceder a los datos privados.

Alessandro Licciardi, Davide Leo, Davide Carbone2026-03-11🤖 cs.LG

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artículo establece por primera vez garantías de convergencia global lineal para un algoritmo de Mínimos Cuadrados Ponderados Iterativamente (IRLS) con regularización dinámica en la recuperación robusta de subespacios, extendiendo estos resultados teóricos a la estimación de subespacios afines y demostrando su utilidad práctica en el entrenamiento de redes neuronales.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG

Service Placement in Small Cell Networks Using Distributed Best Arm Identification in Linear Bandits

Este artículo propone un algoritmo distribuido y adaptativo de identificación de la mejor brazo en contextos de banditos lineales para optimizar la colocación de servicios en redes de pequeñas celdas, permitiendo a las estaciones base colaborar para identificar rápidamente el servicio que minimiza la latencia del usuario bajo condiciones de demanda desconocida.

Mariam Yahya, Aydin Sezgin, Setareh Maghsudi2026-03-11🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Este estudio evalúa arquitecturas de DeepONet para el problema de consolidación geotécnica, demostrando que una variante mejorada con características de Fourier en la red del tronco supera a los modelos estándar y ofrece aceleraciones computacionales significativas (hasta 1.000 veces) en escenarios 3D, facilitando así la cuantificación de incertidumbre y la integración del aprendizaje científico en ingeniería geotécnica.

Yongjin Choi, Chenying Liu, Jorge Macedo2026-03-11🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Este trabajo presenta LangevinFlow, un modelo de autoencoder variacional secuencial inspirado en la física que utiliza ecuaciones de Langevin subamortiguadas y osciladores acoplados para capturar con mayor precisión la dinámica latente de poblaciones neuronales, superando a los métodos actuales en la predicción de tasas de disparo y la decodificación de comportamientos.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Este trabajo presenta MLES, un enfoque novedoso que combina modelos de lenguaje grandes multimodales con búsqueda evolutiva para descubrir políticas de control programáticas transparentes y verificables, logrando un rendimiento comparable al aprendizaje por refuerzo profundo tradicional mientras facilita la depuración y la transferencia de conocimiento.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu Zhang2026-03-11🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Este artículo presenta CTRL, un método de meta-aprendizaje que combina el aprendizaje residual de transferencia y el agrupamiento adaptativo para mejorar la precisión general y preservar la heterogeneidad entre múltiples fuentes de datos pequeñas y diversas, demostrando un rendimiento superior en cinco conjuntos de datos a gran escala, incluido un programa nacional de asilo en Suiza.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson2026-03-11🤖 cs.LG

MuFlex: A Scalable, Physics-based Platform for Multi-Building Flexibility Analysis and Coordination

El artículo presenta MuFlex, una plataforma de código abierto y escalable basada en física que facilita la coordinación de la flexibilidad de la demanda en múltiples edificios mediante el aprendizaje por refuerzo, superando las limitaciones de los entornos de simulación existentes al integrar modelos detallados de EnergyPlus y Modelica para optimizar el rendimiento energético sin comprometer el confort.

Ziyan Wu, Ivan Korolija, Rui Tang2026-03-11⚡ eess

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Este trabajo presenta un marco de redes neuronales gráficas (GNN) ligero y eficiente en datos, informado por el dominio de RF, que logra una predicción precisa y generalizable del rendimiento de circuitos activos mediante abstracciones de grafos de dispositivos y codificación semántica, superando significativamente a los métodos existentes en precisión y capacidad de adaptación entre topologías.

Anahita Asadi, Leonid Popryho, Inna Partin-Vaisband2026-03-11🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Este artículo presenta un método de aprendizaje en contexto iterativo que mejora la capacidad de generalización de los modelos de lenguaje grandes en tareas de razonamiento abstracto, como la resolución de expresiones algebraicas con reglas no estándar, demostrando que la selección iterativa de ejemplos simples junto con instrucciones de razonamiento explícitas supera el rendimiento de los ejemplos complejos.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò Navarin2026-03-11🤖 cs.LG