Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

O artigo apresenta o STAR Set Transformer, um modelo que melhora a previsão em séries temporais clínicas assimétricas ao incorporar vieses de atenção suaves para capturar a localidade temporal e a compatibilidade entre variáveis, superando as abordagens baseadas em grades e conjuntos de pontos em tarefas de cuidados intensivos.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artigo apresenta uma abordagem sistemática para avaliar algoritmos de aprendizado por reforço multiagente na alocação de recursos em redes C-V2X, utilizando um conjunto de benchmarks e dados gerados por simulação para identificar que a robustez e a generalização das políticas em topologias veiculares diversas são os principais desafios, demonstrando também a superioridade de métodos ator-crítico sobre abordagens baseadas em valor.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Este artigo apresenta o "Two-Bridge Map Suite", um novo benchmark de código aberto para StarCraft II que preenche a lacuna entre o jogo completo e os mini-jogos ao isolar habilidades táticas essenciais como navegação e combate, permitindo pesquisas de aprendizado por reforço acessíveis e eficientes em termos computacionais.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

O artigo apresenta o CapTrack, um novo framework centrado em capacidades que redefine o esquecimento em modelos de linguagem pós-treinamento como uma deriva comportamental sistemática e demonstra, através de um estudo em larga escala, que esse fenômeno afeta significativamente a robustez e os comportamentos padrão, variando conforme o algoritmo e a família do modelo.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

O artigo demonstra que, ao contrário de domínios com verificadores externos, estratégias de consenso baseadas em múltiplas amostras de modelos de linguagem não melhoram a veracidade em domínios sem verificação, pois os erros dos modelos são fortemente correlacionados e as agregações tendem a reforçar concepções errôneas compartilhadas em vez de identificar a verdade.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

O artigo propõe o framework Annealed Co-Generation (ACG), que substitui a modelagem conjunta de alta dimensão por modelos de difusão bivariados acoplados através de um processo de recozimento em três estágios, permitindo a geração coerente de variáveis multivariadas com menor custo computacional e desequilíbrio de dados, conforme demonstrado em tarefas de completamento de campos de fluxo e geração de anticorpos.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

O artigo apresenta o Evo, um modelo de linguagem de grande escala inovador que unifica as abordagens autoregressiva e de difusão em um único fluxo latente evolutivo, permitindo um equilíbrio adaptativo entre planejamento e refinamento para alcançar resultados de ponta em diversas tarefas com eficiência de inferência.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Este artigo propõe um novo framework de aprendizado de representação consciente da topologia, que utiliza modelos fundamentais específicos de domínio, tokenização de grafos e aprendizado por contraste com distilação de conhecimento para superar as limitações atuais e realizar previsões de interação zero-shot em Redes Biológicas Multiplex.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

O artigo apresenta o NAT (Not All Tokens Are Needed), um framework de aprendizado por reforço que otimiza o custo computacional ao atualizar a política apenas com um subconjunto de tokens gerados via reponderamento de Horvitz-Thompson, mantendo o desempenho em raciocínio matemático enquanto reduz significativamente o uso de memória e tempo de treinamento.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

O artigo apresenta o GraphSkill, um framework de codificação com recuperação aumentada hierárquica guiada por documentação e agente de autodepuração, que supera as limitações de métodos existentes ao explorar a estrutura hierárquica de documentos técnicos e corrigir erros lógicos, validado por meio de um novo dataset e experimentos que demonstram maior precisão e menor custo de inferência em raciocínio complexo sobre grafos.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Este artigo demonstra que os Modelos de Recompensa de Processo (PRMs) atuais são sistematicamente exploráveis por adversários, revelando que eles funcionam mais como detectores de fluência do que como verificadores de raciocínio, e propõe um novo framework de diagnóstico e ferramentas para avaliar sua robustez antes da implantação.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG