cs.LG artigos | Gist.Science

Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning

O artigo apresenta o "Generative Adversarial Reasoner", um framework de aprendizado por reforço on-policy que aprimora o raciocínio de modelos de linguagem ao co-evoluir um gerador e um discriminador adversariais, gerando recompensas densas e calibradas em nível de passo que superam os sinais esparsos tradicionais e resultam em ganhos significativos em benchmarks matemáticos como o AIME24.

Qihao Liu, Luoxin Ye, Wufei Ma, Yu-Cheng Chou, Alan Yuille2026-03-26💬 cs.CL

Why Machine Learning Models Systematically Underestimate Extreme Values II: How to Fix It with LatentNN

O artigo apresenta o LatentNN, um método que corrige o viés de atenuação em redes neurais ao tratar os valores de entrada verdadeiros como variáveis latentes, permitindo inferências mais precisas em dados astronômicos com baixo sinal-ruído.

Yuan-Sen Ting2026-03-26📊 stat

Deep Neural Networks as Discrete Dynamical Systems: Implications for Physics-Informed Learning

O artigo reexamina a analogia entre redes neurais profundas e sistemas dinâmicos discretos, demonstrando que, embora os PINNs ofereçam uma abordagem computacional distinta e menos interpretável que os métodos numéricos clássicos devido à sua representação densa de parâmetros, essa flexibilidade pode ser vantajosa em cenários de alta dimensionalidade onde métodos baseados em grade se tornam impraticáveis.

Abhisek Ganguly, Santosh Ansumali, Sauro Succi2026-03-26🤖 cs.LG

A Hessian-Free Actor-Critic Algorithm for Bi-Level Reinforcement Learning with Applications to LLM Fine-Tuning

Este artigo propõe um algoritmo de ator-crítico de primeira ordem e loop único para otimização bi-nível em aprendizado por reforço, que utiliza regularização de entropia atenuante para estimar gradientes hiper-sem viés e garante convergência em tempo finito, demonstrando eficácia em tarefas como o ajuste fino de modelos de linguagem (LLM) via RLHF.

Sihan Zeng, Sujay Bhatt, Sumitra Ganesh, Alec Koppel2026-03-26🤖 cs.LG

Modeling Image-Caption Rating from Comparative Judgments

Este artigo propõe uma estrutura de aprendizado de máquina que utiliza julgamentos comparativos entre pares de imagem e legenda, em vez de classificações diretas, para treinar modelos que alcançam desempenho equivalente com custos de anotação reduzidos e maior consistência entre avaliadores humanos.

Kezia Minni, Qiang Zhang, Monoshiz Mahbub Khan, Zhe Yu2026-03-26🤖 cs.LG

Transformer-Based Reinforcement Learning for Autonomous Orbital Collision Avoidance in Partially Observable Environments

Este artigo apresenta uma estrutura de aprendizado por reforço baseada em Transformers para evitar colisões orbitais autônomas, projetada para lidar eficazmente com a parcialidade observável e a incerteza no monitoramento espacial através de atenção temporal de longo alcance.

Thomas Georges, Adam Abdin2026-03-26🤖 cs.AI

ShapBPT: Image Feature Attributions Using Data-Aware Binary Partition Trees

O artigo apresenta o ShapBPT, um novo método de explicação de IA para visão computacional que utiliza árvores de partição binária orientadas por dados para gerar atribuições de características em nível de pixel mais alinhadas com a morfologia da imagem, eficientes e preferidas por humanos em comparação com abordagens existentes.

Muhammad Rashid, Elvio G. Amparore, Enrico Ferrari, Damiano Verda2026-03-26🤖 cs.LG

SPARE: Self-distillation for PARameter-Efficient Removal

O artigo apresenta o SPARE, um método de duas etapas que combina localização de parâmetros e auto-distilação para remover conceitos indesejados de modelos de geração de imagens difusos de forma eficiente e precisa, superando o estado da arte no benchmark UnlearnCanvas.

Natnael Mola, Leonardo S. B. Pereira, Carolina R. Kelsch, Luis H. Arribas, Juan C. S. M. Avedillo2026-03-26🤖 cs.LG

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Este artigo apresenta o Xiaomi-Robotics-0, um modelo aberto de Visão-Linguagem-Ação otimizado para execução em tempo real e de alto desempenho, que combina pré-treinamento em larga escala com técnicas de pós-treinamento e implantação para superar a latência de inferência, alcançando resultados de ponta em benchmarks de simulação e em tarefas complexas de manipulação bimanual em robôs reais.

Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang (…)2026-03-26🤖 cs.LG

Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

O artigo propõe o Aprendizado por Reforço Inverso sem Interação, um framework centrado em dados que separa a criação de recompensas auditáveis e reutilizáveis da otimização de políticas, introduzindo o "Flywheel de Alinhamento" para transformar a segurança de IA em um ativo de engenharia durável e verificável, evitando o desperdício de alinhamento.

Elias Malomgré, Pieter Simoens2026-03-26🤖 cs.LG

← Anterior Próximo →