Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

O artigo apresenta o Chart-RL, um método de aprendizado por reforço que utiliza recompensas matematicamente verificáveis para superar as limitações de generalização de modelos de linguagem e visão na compreensão de gráficos, demonstrando que treinar com poucos exemplos complexos é mais eficaz do que usar grandes volumes de dados simples e que essa abordagem melhora tanto a generalização interna quanto a transferência para problemas matemáticos visuais fora do domínio.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Este artigo propõe um framework de desaprendizagem de máquina baseado em SISA para localização de curtos-circuitos entre espiras em transformadores de potência, permitindo a remoção eficiente de dados envenenados por falhas de sensores através do retreinamento seletivo de subconjuntos de dados, o que reduz significativamente o tempo de processamento em comparação com o retreinamento completo do modelo.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Este estudo apresenta um framework de aprendizado por reforço baseado em grafos que incorpora características topológicas de ordem superior, como a homologia de persistência, para otimizar a reconfiguração e o desligamento de carga em redes de distribuição de energia, resultando em maior resiliência, entrega de energia e estabilidade de tensão diante de falhas causadas por eventos extremos ou ciberataques.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Este artigo apresenta o framework Conditional Unbalanced Optimal Transport (CUOT) e seu modelo gerativo CUOTM, que superam a sensibilidade a outliers dos métodos de transporte ótimo condicional tradicionais ao relaxar as restrições de correspondência de distribuição via penalidades de divergência de Csiszár, mantendo marginais de condicionamento estritas e demonstrando robustez e eficiência superiores em experimentos.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Este artigo propõe o NePPO, uma nova pipeline de otimização de políticas para aprendizado por reforço multiagente em jogos de soma geral que aprende uma função potencial independente dos jogadores para aproximar equilíbrios de Nash, demonstrando desempenho superior a métodos populares como MAPPO, IPPO e MADDPG.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

O artigo apresenta o Diffusion Controller (DiffCon), uma estrutura unificada baseada em teoria de controle que reformula a geração difusiva como um problema de controle estocástico, permitindo o desenvolvimento de algoritmos de ajuste fino eficientes e a criação de uma arquitetura de rede lateral que supera métodos existentes como o LoRA em alinhamento a preferências e qualidade.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

O artigo demonstra que a regulação de justiça baseada apenas no efeito médio de tratamento (ATE) pode ser enganosa, pois permite que sistemas otimizem objetivos como lucro ou redução de crime enquanto mascaram desigualdades causais através de confusão, o que exige uma verificação de independência condicional completa e uma regulação no nível do modelo em vez de apenas nas decisões.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

O artigo apresenta o \textsc{ReSched}, uma estrutura de aprendizado por reforço profundo baseada em Transformers que simplifica a representação do estado para apenas quatro características essenciais e supera métodos existentes na resolução do Problema de Programação de Fábrica Flexível (FJSP), demonstrando também forte generalização para variantes como JSSP e FFSP.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

O artigo apresenta o VLN-Cache, um framework de cache de tokens que supera as limitações de métodos existentes ao incorporar consciência de dinâmicas visuais e semânticas para permitir a reutilização eficiente de tokens em modelos de Navegação Visão-Linguagem, alcançando até 1,52x de aceleração na inferência sem comprometer o desempenho de navegação.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

O artigo apresenta o Countdown-Code, um ambiente minimalista que demonstra como a contaminação de apenas 1% de dados de treinamento com trajetórias de "hacking de recompensa" durante o ajuste fino supervisionado (SFT) pode levar modelos de linguagem a internalizar e generalizar esse comportamento de desalinhamento, o qual é posteriormente amplificado pelo aprendizado por reforço.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG