Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabalho propõe o CORA, um método de atribuição de crédito em aprendizado por reforço multiagente cooperativo que utiliza a alocação do núcleo da teoria dos jogos cooperativos para estimar vantagens baseadas em coalizões e promover comportamentos coordenados ótimos, superando as limitações das abordagens tradicionais de compartilhamento global de vantagem.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artigo propõe dois novos algoritmos de aprendizado por reforço livres de modelo, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, que são os primeiros a alcançar simultaneamente arrependimento quase ótimo, custo de inicialização linear e custos logarítmicos de troca de política ou comunicação em ambientes de agente único e federado.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

O artigo apresenta o ChannelTokenFormer, um framework baseado em Transformer que resolve simultaneamente os desafios de dependências entre canais, amostragem assíncrona e valores ausentes em previsões de séries temporais multivariadas do mundo real, demonstrando superior robustez e precisão em benchmarks públicos e dados industriais privados.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning

O artigo apresenta o WAFFLE, um algoritmo de detecção pré-treinamento que utiliza representações comprimidas via Transformada de Espalhamento de Wavelet ou Transformada de Fourier para identificar clientes maliciosos em Aprendizado Federado sem acesso aos dados brutos, oferecendo uma alternativa eficiente e de baixo custo computacional às estratégias online existentes.

Alessandro Licciardi, Davide Leo, Davide Carbone2026-03-11🤖 cs.LG

Uncovering Social Network Activity Using Joint User and Topic Interaction

Este artigo apresenta o modelo Mixture of Interacting Cascades (MIC), baseado em processos pontuais de Hawkes multidimensionais, que captura a interação conjunta entre usuários e cascata de informações para modelar com maior precisão a dinâmica de formação de opiniões em redes sociais, superando métodos existentes e permitindo visualizações detalhadas da atividade na rede.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-Furling2026-03-11🤖 cs.LG

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artigo estabelece, pela primeira vez, garantias de convergência global linear para o método Iteratively Reweighted Least Squares (IRLS) na recuperação robusta de subespaços, demonstrando que uma variante com regularização dinâmica converge de qualquer inicialização tanto para subespaços lineares quanto afins, além de ilustrar seus benefícios práticos no treinamento de redes neurais de baixa dimensão.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG

Service Placement in Small Cell Networks Using Distributed Best Arm Identification in Linear Bandits

Este artigo propõe um algoritmo distribuído e adaptativo de identificação do melhor braço em bandits lineares para otimizar a colocação de serviços em redes de pequenas células, permitindo que estações base colaborativas identifiquem com alta confiança e eficiência a melhor opção de processamento na borda para minimizar a latência do usuário.

Mariam Yahya, Aydin Sezgin, Setareh Maghsudi2026-03-11🤖 cs.LG

Convergence Rate for the Last Iterate of Stochastic Gradient Descent Schemes

Este artigo estabelece taxas de convergência para a última iteração de métodos de descida de gradiente estocástico (SGD) e de bola pesada estocástica (SHB) em cenários convexos e não convexos com gradientes Hölder-contínuos, utilizando apenas a desigualdade discreta de Gronwall para obter resultados que recuperam e estendem taxas conhecidas para funções objetivo com diferentes graus de suavidade.

Marcel Hudiani2026-03-11🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

Este trabalho apresenta o LangevinFlow, um modelo de codificador-variacional sequencial que utiliza equações de Langevin subamortecidas e um potencial baseado em osciladores acoplados para capturar com alta precisão a dinâmica latente de populações neurais, superando métodos existentes na previsão de taxas de disparo e na decodificação de comportamentos.

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

O artigo apresenta o CTRL (Clustered Transfer Residual Learning), um método de meta-aprendizado que combina aprendizado residual entre domínios e agrupamento adaptativo para melhorar a precisão geral e preservar a heterogeneidade entre fontes em tarefas de aprendizado de máquina com muitos conjuntos de dados pequenos e desiguais, demonstrando superioridade sobre benchmarks em cinco conjuntos de dados, incluindo um programa nacional de asilo na Suíça.

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson2026-03-11🤖 cs.LG

MuFlex: A Scalable, Physics-based Platform for Multi-Building Flexibility Analysis and Coordination

O artigo apresenta o MuFlex, uma plataforma de código aberto e escalável baseada em física que permite a coordenação de flexibilidade de demanda em múltiplos edifícios detalhados (EnergyPlus e Modelica) através de aprendizado por reforço, demonstrando sua eficácia na redução de picos de carga e validando sua escalabilidade em diversos cenários de simulação.

Ziyan Wu, Ivan Korolija, Rui Tang2026-03-11⚡ eess

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

Este artigo apresenta uma metodologia de aprendizado em contexto iterativo que seleciona exemplos de forma incremental para melhorar a generalização sistemática de LLMs em tarefas de raciocínio abstrato, como álgebra com regras não padrão, demonstrando que exemplos mais simples podem ser mais eficazes do que aqueles que seguem a distribuição dos dados de teste.

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò Navarin2026-03-11🤖 cs.LG