Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artículo presenta dos nuevos algoritmos de aprendizaje por refuerzo sin modelo, Q-EarlySettled-LowCost y FedQ-EarlySettled-LowCost, que logran simultáneamente un arrepentimiento casi óptimo, costos de inicio lineales en el número de estados y acciones, y costos de cambio de política o comunicación logarítmicos para entornos de agente único y federados.

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

El artículo presenta ChannelTokenFormer, un marco unificado basado en Transformers que aborda simultáneamente la dependencia entre canales, la asincronía en la muestreo y los valores faltantes para lograr un pronóstico robusto y preciso de series temporales multivariadas en escenarios del mundo real.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artículo establece por primera vez garantías de convergencia global lineal para un algoritmo de Mínimos Cuadrados Ponderados Iterativamente (IRLS) con regularización dinámica en la recuperación robusta de subespacios, extendiendo estos resultados teóricos a la estimación de subespacios afines y demostrando su utilidad práctica en el entrenamiento de redes neuronales.

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

Este estudio evalúa arquitecturas de DeepONet para el problema de consolidación geotécnica, demostrando que una variante mejorada con características de Fourier en la red del tronco supera a los modelos estándar y ofrece aceleraciones computacionales significativas (hasta 1.000 veces) en escenarios 3D, facilitando así la cuantificación de incertidumbre y la integración del aprendizaje científico en ingeniería geotécnica.

Yongjin Choi, Chenying Liu, Jorge MacedoWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Este trabajo presenta LangevinFlow, un modelo de autoencoder variacional secuencial inspirado en la física que utiliza ecuaciones de Langevin subamortiguadas y osciladores acoplados para capturar con mayor precisión la dinámica latente de poblaciones neuronales, superando a los métodos actuales en la predicción de tasas de disparo y la decodificación de comportamientos.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Este trabajo presenta MLES, un enfoque novedoso que combina modelos de lenguaje grandes multimodales con búsqueda evolutiva para descubrir políticas de control programáticas transparentes y verificables, logrando un rendimiento comparable al aprendizaje por refuerzo profundo tradicional mientras facilita la depuración y la transferencia de conocimiento.

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu ZhangWed, 11 Ma🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

Este artículo presenta CTRL, un método de meta-aprendizaje que combina el aprendizaje residual de transferencia y el agrupamiento adaptativo para mejorar la precisión general y preservar la heterogeneidad entre múltiples fuentes de datos pequeñas y diversas, demostrando un rendimiento superior en cinco conjuntos de datos a gran escala, incluido un programa nacional de asilo en Suiza.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

Este trabajo presenta un marco de redes neuronales gráficas (GNN) ligero y eficiente en datos, informado por el dominio de RF, que logra una predicción precisa y generalizable del rendimiento de circuitos activos mediante abstracciones de grafos de dispositivos y codificación semántica, superando significativamente a los métodos existentes en precisión y capacidad de adaptación entre topologías.

Anahita Asadi, Leonid Popryho, Inna Partin-VaisbandWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Este artículo presenta un método de aprendizaje en contexto iterativo que mejora la capacidad de generalización de los modelos de lenguaje grandes en tareas de razonamiento abstracto, como la resolución de expresiones algebraicas con reglas no estándar, demostrando que la selección iterativa de ejemplos simples junto con instrucciones de razonamiento explícitas supera el rendimiento de los ejemplos complejos.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Este trabajo presenta un modelo sustituto basado en una red neuronal residual completamente conectada (FCRN) que predice con alta precisión la distribución de densidad de corriente en imanes de superconductores de alta temperatura (HTS) de escala métrica, superando a los métodos de elementos finitos en velocidad y permitiendo una optimización inteligente y rápida del diseño magnético.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabajo presenta el Robot Control Stack (RCS), un ecosistema ligero y modular diseñado para cerrar la brecha entre el entrenamiento a gran escala de modelos de aprendizaje por refuerzo y visión-idioma-acción en simulación y su implementación en robots físicos, facilitando así la transferencia sim-real.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Kuramoto Orientation Diffusion Models

Los autores proponen un modelo generativo basado en puntuación que utiliza dinámicas estocásticas Kuramoto en dominios periódicos para modelar eficazmente imágenes ricas en orientación, como huellas dactilares y texturas, mediante un proceso de difusión que sincroniza fases en el paso forward y las desincroniza en el paso reverse para preservar patrones angulares coherentes.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este trabajo presenta la Composición General de Políticas (GPC), un método sin entrenamiento que mejora el rendimiento de las políticas robóticas basadas en difusión o flujo mediante la combinación convexa de sus puntuaciones distribucionales en tiempo de prueba, logrando resultados superiores a los de las políticas individuales sin necesidad de nuevos datos de interacción.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG