Service Placement in Small Cell Networks Using Distributed Best Arm Identification in Linear Bandits

Este artículo propone un algoritmo distribuido y adaptativo de identificación de la mejor brazo en contextos de banditos lineales para optimizar la colocación de servicios en redes de pequeñas celdas, permitiendo a las estaciones base colaborar para identificar rápidamente el servicio que minimiza la latencia del usuario bajo condiciones de demanda desconocida.

Mariam Yahya, Aydin Sezgin, Setareh Maghsudi2026-03-11🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Este estudio evalúa arquitecturas de DeepONet para el problema de consolidación geotécnica, demostrando que una variante mejorada con características de Fourier en la red del tronco supera a los modelos estándar y ofrece aceleraciones computacionales significativas (hasta 1.000 veces) en escenarios 3D, facilitando así la cuantificación de incertidumbre y la integración del aprendizaje científico en ingeniería geotécnica.

Yongjin Choi, Chenying Liu, Jorge Macedo2026-03-11🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Este trabajo presenta LangevinFlow, un modelo de autoencoder variacional secuencial inspirado en la física que utiliza ecuaciones de Langevin subamortiguadas y osciladores acoplados para capturar con mayor precisión la dinámica latente de poblaciones neuronales, superando a los métodos actuales en la predicción de tasas de disparo y la decodificación de comportamientos.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Este trabajo presenta MLES, un enfoque novedoso que combina modelos de lenguaje grandes multimodales con búsqueda evolutiva para descubrir políticas de control programáticas transparentes y verificables, logrando un rendimiento comparable al aprendizaje por refuerzo profundo tradicional mientras facilita la depuración y la transferencia de conocimiento.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu Zhang2026-03-11🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Este artículo presenta CTRL, un método de meta-aprendizaje que combina el aprendizaje residual de transferencia y el agrupamiento adaptativo para mejorar la precisión general y preservar la heterogeneidad entre múltiples fuentes de datos pequeñas y diversas, demostrando un rendimiento superior en cinco conjuntos de datos a gran escala, incluido un programa nacional de asilo en Suiza.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson2026-03-11🤖 cs.LG

MuFlex: A Scalable, Physics-based Platform for Multi-Building Flexibility Analysis and Coordination

El artículo presenta MuFlex, una plataforma de código abierto y escalable basada en física que facilita la coordinación de la flexibilidad de la demanda en múltiples edificios mediante el aprendizaje por refuerzo, superando las limitaciones de los entornos de simulación existentes al integrar modelos detallados de EnergyPlus y Modelica para optimizar el rendimiento energético sin comprometer el confort.

Ziyan Wu, Ivan Korolija, Rui Tang2026-03-11⚡ eess

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Este trabajo presenta un marco de redes neuronales gráficas (GNN) ligero y eficiente en datos, informado por el dominio de RF, que logra una predicción precisa y generalizable del rendimiento de circuitos activos mediante abstracciones de grafos de dispositivos y codificación semántica, superando significativamente a los métodos existentes en precisión y capacidad de adaptación entre topologías.

Anahita Asadi, Leonid Popryho, Inna Partin-Vaisband2026-03-11🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Este artículo presenta un método de aprendizaje en contexto iterativo que mejora la capacidad de generalización de los modelos de lenguaje grandes en tareas de razonamiento abstracto, como la resolución de expresiones algebraicas con reglas no estándar, demostrando que la selección iterativa de ejemplos simples junto con instrucciones de razonamiento explícitas supera el rendimiento de los ejemplos complejos.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò Navarin2026-03-11🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Este trabajo presenta un modelo sustituto basado en una red neuronal residual completamente conectada (FCRN) que predice con alta precisión la distribución de densidad de corriente en imanes de superconductores de alta temperatura (HTS) de escala métrica, superando a los métodos de elementos finitos en velocidad y permitiendo una optimización inteligente y rápida del diseño magnético.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing Qu2026-03-11🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabajo presenta el Robot Control Stack (RCS), un ecosistema ligero y modular diseñado para cerrar la brecha entre el entrenamiento a gran escala de modelos de aprendizaje por refuerzo y visión-idioma-acción en simulación y su implementación en robots físicos, facilitando así la transferencia sim-real.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian Walter2026-03-11🤖 cs.LG

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Este artículo demuestra que el agente de mutación de código basado en LLM llamado AlphaEvolve puede generar nuevos resultados en teoría de la complejidad, mejorando los límites de aproximación para problemas como MAX-CUT, MAX-4-CUT, MAX-3-CUT y el TSP métrico, al tiempo que utiliza la propia IA para acelerar la verificación de sus construcciones.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este trabajo presenta la Composición General de Políticas (GPC), un método sin entrenamiento que mejora el rendimiento de las políticas robóticas basadas en difusión o flujo mediante la combinación convexa de sus puntuaciones distribucionales en tiempo de prueba, logrando resultados superiores a los de las políticas individuales sin necesidad de nuevos datos de interacción.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo2026-03-11🤖 cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Este artículo presenta un controlador híbrido que combina el aprendizaje por refuerzo profundo (DRL) con la búsqueda de extremos acotada (ES) para mejorar la robustez y el rendimiento de sistemas no lineales variantes en el tiempo, demostrando su eficacia mediante una simulación general y la sintonización automática de un acelerador de partículas.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander Scheinker2026-03-11🤖 cs.LG