Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning

O artigo apresenta o "Generative Adversarial Reasoner", um framework de aprendizado por reforço on-policy que aprimora o raciocínio de modelos de linguagem ao co-evoluir um gerador e um discriminador adversariais, gerando recompensas densas e calibradas em nível de passo que superam os sinais esparsos tradicionais e resultam em ganhos significativos em benchmarks matemáticos como o AIME24.

Qihao Liu, Luoxin Ye, Wufei Ma, Yu-Cheng Chou, Alan Yuille2026-03-26💬 cs.CL

Deep Neural Networks as Discrete Dynamical Systems: Implications for Physics-Informed Learning

O artigo reexamina a analogia entre redes neurais profundas e sistemas dinâmicos discretos, demonstrando que, embora os PINNs ofereçam uma abordagem computacional distinta e menos interpretável que os métodos numéricos clássicos devido à sua representação densa de parâmetros, essa flexibilidade pode ser vantajosa em cenários de alta dimensionalidade onde métodos baseados em grade se tornam impraticáveis.

Abhisek Ganguly, Santosh Ansumali, Sauro Succi2026-03-26🤖 cs.LG

A Hessian-Free Actor-Critic Algorithm for Bi-Level Reinforcement Learning with Applications to LLM Fine-Tuning

Este artigo propõe um algoritmo de ator-crítico de primeira ordem e loop único para otimização bi-nível em aprendizado por reforço, que utiliza regularização de entropia atenuante para estimar gradientes hiper-sem viés e garante convergência em tempo finito, demonstrando eficácia em tarefas como o ajuste fino de modelos de linguagem (LLM) via RLHF.

Sihan Zeng, Sujay Bhatt, Sumitra Ganesh, Alec Koppel2026-03-26🤖 cs.LG

ShapBPT: Image Feature Attributions Using Data-Aware Binary Partition Trees

O artigo apresenta o ShapBPT, um novo método de explicação de IA para visão computacional que utiliza árvores de partição binária orientadas por dados para gerar atribuições de características em nível de pixel mais alinhadas com a morfologia da imagem, eficientes e preferidas por humanos em comparação com abordagens existentes.

Muhammad Rashid, Elvio G. Amparore, Enrico Ferrari, Damiano Verda2026-03-26🤖 cs.LG

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Este artigo apresenta o Xiaomi-Robotics-0, um modelo aberto de Visão-Linguagem-Ação otimizado para execução em tempo real e de alto desempenho, que combina pré-treinamento em larga escala com técnicas de pós-treinamento e implantação para superar a latência de inferência, alcançando resultados de ponta em benchmarks de simulação e em tarefas complexas de manipulação bimanual em robôs reais.

Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang (…)2026-03-26🤖 cs.LG

Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

O artigo propõe o Aprendizado por Reforço Inverso sem Interação, um framework centrado em dados que separa a criação de recompensas auditáveis e reutilizáveis da otimização de políticas, introduzindo o "Flywheel de Alinhamento" para transformar a segurança de IA em um ativo de engenharia durável e verificável, evitando o desperdício de alinhamento.

Elias Malomgré, Pieter Simoens2026-03-26🤖 cs.LG