Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

O artigo demonstra que o ajuste fino supervisionado (SFT) com ponderação exponencial de recompensas é um método robusto, totalmente offline e teoricamente fundamentado para alinhar sistemas de recomendação generativos às preferências dos usuários, superando as limitações e instabilidades dos métodos tradicionais de RLHF.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

O artigo propõe o uso da Decomposição em Valores Singulares Generalizada (GSVD) para criar uma métrica de "ângulo" interpretável que quantifica a contribuição relativa de dois conjuntos de dados na explicação de uma amostra, permitindo diagnósticos geométricos por amostra e aplicações de classificação.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

Copula-ResLogit: A Deep-Copula Framework for Unobserved Confounding Effects

O artigo apresenta o Copula-ResLogit, um novo framework de modelagem conjunta baseado em aprendizado profundo e cópulas que integra arquiteturas ResNet para detectar e mitigar efeitos de confusão não observada em análises de demanda de transporte, demonstrando sua eficácia na eliminação de dependências não causais em estudos de caso sobre tempo de espera de pedestres e escolha de modo de viagem.

Kimia Kamal, Bilal Farooq2026-03-12🤖 cs.LG

Hybrid Self-evolving Structured Memory for GUI Agents

O artigo apresenta o HyMEM, uma memória estruturada híbrida e autoevolutiva inspirada no cérebro humano que combina nós simbólicos discretos com embeddings contínuos em um grafo, permitindo que agentes de GUI de código aberto com backbones menores superem modelos proprietários de ponta ao melhorar a recuperação de informações e a gestão de tarefas de longo prazo.

Sibo Zhu, Wenyi Wu, Kun Zhou, Stephen Wang, Biwei Huang2026-03-12🤖 cs.AI

Regime-aware financial volatility forecasting via in-context learning

Este trabalho apresenta um framework de aprendizado em contexto (in-context learning) orientado por regimes que utiliza modelos de linguagem grandes (LLMs) pré-treinados para prever a volatilidade financeira em condições de mercado não estacionárias, demonstrando superioridade sobre abordagens clássicas e aprendizado direto, especialmente em períodos de alta volatilidade.

Saba Asaad, Shayan Mohajer Hamidi, Ali Bereyhi2026-03-12🤖 cs.LG

How to make the most of your masked language model for protein engineering

Este artigo propõe e valida experimentalmente um método de amostragem flexível e eficaz, baseado em busca estocástica em feixe, para otimizar modelos de linguagem mascarados (MLMs) na engenharia de proteínas, demonstrando que a escolha do método de amostragem é tão impactante quanto a seleção do modelo em campanhas de desenvolvimento de anticorpos terapêuticos.

Calvin McCarter, Nick Bhattacharya, Sebastian W. Ober, Hunter Elliott2026-03-12🧬 q-bio

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Este artigo apresenta um framework de aprendizado de operadores não locais baseado em kernels de integração orientados por dados, que separa a agregação não local da previsão não linear local para criar modelos climáticos interpretáveis e eficientes, demonstrando sua eficácia na previsão de precipitação da monção sul-asiática com significativamente menos parâmetros.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

O artigo apresenta o HEAL, um quadro de aprendizado sem reforço que supera as limitações da destilação tradicional ao integrar mecanismos de reparo assistido por entropia, estimativa de incerteza e evolução curricular progressiva para transferir capacidades de raciocínio de modelos grandes para modelos menores, permitindo que estes aprendam a resolver problemas complexos que os modelos professores não conseguem resolver sozinhos.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI

Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

Este artigo propõe uma nova lei de escalonamento para modelos Mixture-of-Experts (MoE) que define uma relação de potência para a alocação ótima de computação entre camadas de atenção e especialistas, permitindo o ajuste preciso de arquiteturas escaláveis dentro de orçamentos de computação fixos.

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu2026-03-12🤖 cs.LG