World Model for Battery Degradation Prediction Under Non-Stationary Aging

Este artigo propõe um modelo de mundo para prever a degradação de baterias de íon-lítio sob envelhecimento não estacionário, utilizando um estado latente e uma transição dinâmica aprendida para gerar trajetórias futuras, o que reduz o erro de previsão pela metade em comparação com a regressão direta e melhora a precisão no ponto de inflexão da degradação ao incorporar restrições do Modelo de Partícula Única.

Kai Chin Lim, Khay Wai See2026-03-12⚡ eess

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Este artigo apresenta um framework de aprendizado por reforço multiagente baseado em Proximal Policy Optimization (PPO) para coordenar frotas de drones na entrega dinâmica e priorizada de suprimentos médicos, demonstrando, através de dados geográficos reais, que a abordagem PPO clássica supera estratégias assíncronas e sequenciais em cenários de logística de saúde sob incerteza.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

O artigo apresenta o GR³ (Group Relative Reward Rescaling), uma nova abordagem de aprendizado por reforço que mitiga a inflação de comprimento em LLMs através de um mecanismo de redimensionamento multiplicativo e regularização relativa, eliminando as compensações indesejadas de métodos anteriores e mantendo o desempenho sem perdas.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

Este artigo propõe uma estrutura de aprendizado de máquina baseada em grafos bipartidos para prever retornos entre os mercados de ações dos EUA e da China, revelando uma forte assimetria direcional onde os retornos do mercado americano possuem poder preditivo significativo sobre os retornos intradiários chineses, enquanto o efeito inverso é limitado.

Jing Liu, Maria Grith, Xiaowen Dong, Mihai Cucuringu2026-03-12💰 q-fin

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Este estudo empírico demonstra que, ao contrário da hipótese de que o alinhamento moral exige algoritmos focados em diversidade, métodos de maximização de recompensa (RLVR) são igualmente eficazes para o raciocínio moral, pois as respostas de alta recompensa nesse domínio formam distribuições mais concentradas do que em tarefas matemáticas.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Este artigo estabelece um quadro matemático unificado chamado "Gradient Flow Drifting" que demonstra a equivalência entre o modelo Drifting e o fluxo de gradiente de Wasserstein da divergência KL forward sob aproximação de estimativa de densidade por kernel, permitindo a criação de uma nova família de modelos generativos que combinam diferentes divergências para evitar colapso e borramento de modos, inclusive em variedades Riemannianas.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Este artigo apresenta o Geo-ATBench, um novo benchmark e tarefa de rotulagem de áudio geoespacial que integra contexto semântico geográfico para melhorar a identificação de eventos sonoros, juntamente com o framework GeoFusion-AT que demonstra que a fusão desses dados com áudio supera abordagens baseadas apenas no som.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick Botteldooren2026-03-12⚡ eess

Reinforcement Learning with Conditional Expectation Reward

O artigo propõe a Recompensa de Expectativa Condicional (CER), um método que utiliza o próprio modelo de linguagem como verificador implícito para fornecer sinais de recompensa graduais e eliminar a dependência de regras de verificação externas, ampliando assim a eficácia do Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para domínios de raciocínio de resposta livre.

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

Este trabalho propõe o uso de Redes Decodificadoras Recorrentes Superficiais (SHRED) combinadas com decomposição em valores singulares (SVD) como um modelo substituto eficiente e baseado em dados para reconstruir em tempo real os campos completos de velocidade, pressão e temperatura em sistemas de fusão nuclear, utilizando apenas medições térmicas esparsas e demonstrando robustez frente a variações paramétricas e posicionamento de sensores.

M. Lo Verso, C. Introini, E. Cervi, L. Savoldi, J. N. Kutz, A. Cammi2026-03-12🤖 cs.LG