A Lightweight MPC Bidding Framework for Brand Auction Ads

Este artigo propõe um framework leve de Controle Preditivo Modelado (MPC) para anúncios de marca que utiliza regressão isotônica online para construir modelos monotônicos diretamente de dados em fluxo, eliminando a necessidade de modelos complexos de aprendizado de máquina e melhorando significativamente a eficiência de gastos e o controle de custos em comparação com estratégias de base.

Yuanlong Chen, Bowen Zhu, Bing Xia, Yichuan Wang2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

O artigo propõe o FedShift, um novo ataque adversarial distribuído de duas etapas ("Esconder e Encontrar") para Aprendizado Federado em Grafos que injeta um "deslocador" oculto para garantir furtividade durante o treinamento e utiliza informações globais para gerar perturbações eficientes, demonstrando alta eficácia, robustez contra defesas e redução de custo computacional em comparação com métodos existentes.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

O artigo apresenta o MicroCoder-GRPO, uma abordagem aprimorada de Otimização de Política Relativa de Grupo que supera os gargalos de treinamento em modelos de geração de código por meio de três inovações técnicas, resultando em ganhos significativos de desempenho no LiveCodeBench v6 e no fornecimento de um novo conjunto de dados desafiador e de um avaliador mais robusto.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Este artigo propõe um método de aprendizado de Lindbladianos baseado em equações diferenciais neurais e máxima verossimilhança que, explorando dados de medição em tempos transitórios, infere com robustez os geradores dinâmicos de sistemas quânticos abertos de vários corpos, superando desafios como ruído e a indistinguibilidade entre mecanismos coerentes e dissipativos.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

O artigo apresenta o MicroCoder, um conjunto de dados curado de problemas de programação competitiva recentes e desafiadores, que, ao empregar um framework de processamento de dados com filtragem automática de dificuldade baseada em IA, demonstrou melhorar significativamente o desempenho de modelos de geração de código em tarefas complexas em comparação com conjuntos de dados existentes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

O artigo apresenta o ProgAgent, um agente de aprendizado por reforço contínuo que combina recompensas baseadas no progresso de demonstrações humanas não rotuladas com uma arquitetura nativa JAX de alto desempenho, superando o esquecimento catastrófico e alcançando maior estabilidade e velocidade de aprendizado do que agentes com memória perfeita em tarefas robóticas complexas.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Learning embeddings of non-linear PDEs: the Burgers' equation

Este trabalho apresenta um método para construir espaços de incorporação de baixa dimensão para equações diferenciais parciais não lineares, como a equação de Burgers viscosa, utilizando uma rede neural com corpo compartilhado e cabeças lineares ortogonais para extrair uma decomposição em componentes principais robusta e fisicamente interpretável que captura as características dominantes da dinâmica com poucas modos latentes.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Este estudo demonstra que, para a estimativa de biomassa de pastagens em conjuntos de dados escassos, a qualidade da pré-treinagem do backbone (como a atualização para DINOv3) e o uso de módulos de fusão locais e simples (como convoluções profundas) superam significativamente arquiteturas complexas baseadas em atenção ou SSMs, estabelecendo diretrizes para priorizar a robustez do backbone em detrimento da complexidade da fusão.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Este artigo apresenta uma nova estrutura de aprendizado por transferência baseada em otimização bi-nível que combina um extrator de características universal treinado em dados heterogêneos com um adaptador específico para domínio, permitindo a reconstrução de alta qualidade de imagens de ressonância magnética subamostradas mesmo com dados de treinamento limitados.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Este trabalho apresenta o Gradient Iterated Temporal-Difference learning, um novo algoritmo que modifica a aprendizagem iterada de TD ao calcular gradientes sobre alvos móveis, resultando em um método de TD baseado em gradiente que demonstra velocidade de aprendizagem competitiva com métodos semi-gradiente em diversos benchmarks, incluindo jogos Atari.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Este artigo apresenta um pipeline de pega end-to-end para manipuladores móveis que utiliza visão computacional e observações parciais para garantir uma execução segura e robusta em ambientes desordenados, alcançando uma taxa de sucesso de 90% em comparação com 30% de uma abordagem dependente de visão.

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG