Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artigo propõe dois novos algoritmos de aprendizado por reforço livres de modelo, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, que são os primeiros a alcançar simultaneamente arrependimento quase ótimo, custo de inicialização linear e custos logarítmicos de troca de política ou comunicação em ambientes de agente único e federado.

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

O artigo apresenta o ChannelTokenFormer, um framework baseado em Transformer que resolve simultaneamente os desafios de dependências entre canais, amostragem assíncrona e valores ausentes em previsões de séries temporais multivariadas do mundo real, demonstrando superior robustez e precisão em benchmarks públicos e dados industriais privados.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Uncovering Social Network Activity Using Joint User and Topic Interaction

Este artigo apresenta o modelo Mixture of Interacting Cascades (MIC), baseado em processos pontuais de Hawkes multidimensionais, que captura a interação conjunta entre usuários e cascata de informações para modelar com maior precisão a dinâmica de formação de opiniões em redes sociais, superando métodos existentes e permitindo visualizações detalhadas da atividade na rede.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-FurlingWed, 11 Ma🤖 cs.LG

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artigo estabelece, pela primeira vez, garantias de convergência global linear para o método Iteratively Reweighted Least Squares (IRLS) na recuperação robusta de subespaços, demonstrando que uma variante com regularização dinâmica converge de qualquer inicialização tanto para subespaços lineares quanto afins, além de ilustrar seus benefícios práticos no treinamento de redes neurais de baixa dimensão.

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

Este artigo estabelece taxas de convergência para a última iteração de métodos de descida de gradiente estocástico (SGD) e de bola pesada estocástica (SHB) em cenários convexos e não convexos com gradientes Hölder-contínuos, utilizando apenas a desigualdade discreta de Gronwall para obter resultados que recuperam e estendem taxas conhecidas para funções objetivo com diferentes graus de suavidade.

Marcel HudianiWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Este trabalho apresenta o LangevinFlow, um modelo de codificador-variacional sequencial que utiliza equações de Langevin subamortecidas e um potencial baseado em osciladores acoplados para capturar com alta precisão a dinâmica latente de populações neurais, superando métodos existentes na previsão de taxas de disparo e na decodificação de comportamentos.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

O artigo apresenta o CTRL (Clustered Transfer Residual Learning), um método de meta-aprendizado que combina aprendizado residual entre domínios e agrupamento adaptativo para melhorar a precisão geral e preservar a heterogeneidade entre fontes em tarefas de aprendizado de máquina com muitos conjuntos de dados pequenos e desiguais, demonstrando superioridade sobre benchmarks em cinco conjuntos de dados, incluindo um programa nacional de asilo na Suíça.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Este artigo apresenta uma metodologia de aprendizado em contexto iterativo que seleciona exemplos de forma incremental para melhorar a generalização sistemática de LLMs em tarefas de raciocínio abstrato, como álgebra com regras não padrão, demonstrando que exemplos mais simples podem ser mais eficazes do que aqueles que seguem a distribuição dos dados de teste.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

Este trabalho desenvolve um modelo substituto baseado em uma rede neural residual totalmente conectada (FCRN) treinada com simulações de elementos finitos para prever rapidamente a distribuição de densidade de corrente e otimizar o projeto de ímãs solenoides REBCO de grande escala, superando os métodos tradicionais em velocidade e mantendo alta precisão.

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Repulsive Monte Carlo on the sphere for the sliced Wasserstein distance

Este artigo investiga métodos de Monte Carlo com pontos repulsivos para calcular a distância de Wasserstein fatiada, analisando e comparando diversas quadraturas (incluindo processos determinantes e o estimador UnifOrtho) para concluir que o uso de Monte Carlo Quase-ortogonal é preferível em altas dimensões, enquanto métodos de Monte Carlo Quase-ortogonal aleatorizado são mais eficazes em baixas dimensões.

Vladimir Petrovic, Rémi Bardenet, Agnès DesolneuxWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabalho apresenta o Robot Control Stack (RCS), um ecossistema leve e modular projetado para superar os gargalos dos frameworks tradicionais de robótica, permitindo a pesquisa e o treinamento em larga escala de políticas generalistas baseadas em modelos Visão-Linguagem-Ação (VLAs) com transferência eficiente entre simulação e realidade.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Kuramoto Orientation Diffusion Models

Este artigo propõe um modelo generativo baseado em pontuação que utiliza dinâmicas estocásticas de Kuramoto em domínios periódicos para capturar padrões direcionais coerentes em imagens ricas em orientação, como impressões digitais e texturas, superando as limitações dos métodos de difusão euclidiana isotrópica ao modelar a sincronização e dessincronização de fases.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este artigo apresenta a Composição Geral de Políticas (GPC), um método livre de treinamento que melhora o desempenho de políticas robóticas baseadas em difusão ou fluxo, combinando suas distribuições de scores em tempo de teste para superar o desempenho de políticas individuais sem a necessidade de novos dados de interação.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG