Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

O artigo apresenta o Stepwise Guided Policy Optimization (SGPO), uma nova abordagem que mitiga a limitação do GRPO em grupos de amostras inteiramente incorretas ao introduzir diversidade de respostas via um modelo julgador passo a passo, acelerando assim o aprendizado de modelos de linguagem grandes em tarefas de raciocínio sem exigir que o julgador gere soluções corretas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

O artigo apresenta a Máquina de Boltzmann Restrita Gaussiana-Multinomial (GM-RBM), uma extensão do modelo Potts que substitui unidades ocultas binárias por categóricas de q-estados para melhorar a representação de conceitos multivariados, demonstrando através de benchmarks que essa abordagem discreta oferece desempenho competitivo e superior em tarefas de memória estruturada e raciocínio analógico em comparação com modelos contínuos de capacidade equivalente.

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

Este artigo propõe um método para descobrir equações diferenciais simbólicas a partir de dados, utilizando invariantes de simetria como entidades atômicas para garantir que as equações recuperadas respeitem as leis físicas conhecidas, melhorando assim a precisão e a eficiência de técnicas existentes como regressão esparsa e programação genética.

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

O artigo apresenta o UltraEdit, um método de edição de modelos de linguagem que dispensa treinamento, dados de sujeitos e memória, permitindo atualizações de conhecimento em tempo real com alta eficiência e escalabilidade em GPUs de consumo, além de introduzir o UltraEditBench, o maior conjunto de dados do campo com mais de 2 milhões de pares de edição.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Este artigo apresenta uma metodologia sistemática para avaliar modelos de linguagem de grande escala (LLMs) em dispositivos de borda, demonstrando que modelos maiores com quantização pesada superam os menores de alta precisão a partir de um limiar de ~3,5 bits por peso, ao mesmo tempo que oferece diretrizes para otimizar o desempenho sob restrições de recursos.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

O artigo apresenta o Saturn, um framework de Aprendizado por Reforço baseado em Problemas de Satisfatibilidade Booleana (SAT) que supera as limitações de escalabilidade, verificabilidade e controle de dificuldade das tarefas existentes, permitindo treinar LLMs com um currículo progressivo que resulta em melhorias significativas tanto na resolução de problemas SAT quanto em tarefas gerais de matemática e programação.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

O artigo apresenta o FrontierCO, um benchmark abrangente que avalia solvers de otimização combinatória baseados em aprendizado de máquina em problemas do mundo real e em escala extrema, revelando uma lacuna de desempenho persistente em relação aos métodos clássicos em instâncias grandes e estruturalmente complexas, embora também identifique casos onde os métodos de ML superam os solvers tradicionais.

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Este artigo propõe o SemiCP, um novo paradigma de predição conformal semi-supervisionada que utiliza uma pontuação de não-conformidade baseada em correspondência de vizinhos mais próximos (NNM) para aproveitar dados não rotulados na calibração, reduzindo significativamente a instabilidade e o erro de cobertura quando há poucos dados rotulados disponíveis.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabalho propõe o CORA, um método de atribuição de crédito em aprendizado por reforço multiagente cooperativo que utiliza a alocação do núcleo da teoria dos jogos cooperativos para estimar vantagens baseadas em coalizões e promover comportamentos coordenados ótimos, superando as limitações das abordagens tradicionais de compartilhamento global de vantagem.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Este artigo propõe dois novos algoritmos de aprendizado por reforço livres de modelo, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, que são os primeiros a alcançar simultaneamente arrependimento quase ótimo, custo de inicialização linear e custos logarítmicos de troca de política ou comunicação em ambientes de agente único e federado.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

O artigo apresenta o ChannelTokenFormer, um framework baseado em Transformer que resolve simultaneamente os desafios de dependências entre canais, amostragem assíncrona e valores ausentes em previsões de séries temporais multivariadas do mundo real, demonstrando superior robustez e precisão em benchmarks públicos e dados industriais privados.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning

O artigo apresenta o WAFFLE, um algoritmo de detecção pré-treinamento que utiliza representações comprimidas via Transformada de Espalhamento de Wavelet ou Transformada de Fourier para identificar clientes maliciosos em Aprendizado Federado sem acesso aos dados brutos, oferecendo uma alternativa eficiente e de baixo custo computacional às estratégias online existentes.

Alessandro Licciardi, Davide Leo, Davide Carbone2026-03-11🤖 cs.LG

Uncovering Social Network Activity Using Joint User and Topic Interaction

Este artigo apresenta o modelo Mixture of Interacting Cascades (MIC), baseado em processos pontuais de Hawkes multidimensionais, que captura a interação conjunta entre usuários e cascata de informações para modelar com maior precisão a dinâmica de formação de opiniões em redes sociais, superando métodos existentes e permitindo visualizações detalhadas da atividade na rede.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-Furling2026-03-11🤖 cs.LG

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Este artigo estabelece, pela primeira vez, garantias de convergência global linear para o método Iteratively Reweighted Least Squares (IRLS) na recuperação robusta de subespaços, demonstrando que uma variante com regularização dinâmica converge de qualquer inicialização tanto para subespaços lineares quanto afins, além de ilustrar seus benefícios práticos no treinamento de redes neurais de baixa dimensão.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG