To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

O artigo M2RL investiga e compara os paradigmas de RLVR misto versus separado com fusão de modelos para aprendizado por reforço em múltiplos domínios em LLMs, descobrindo que as tarefas de raciocínio intensivo exibem efeitos sinérgicos e pouca interferência mútua, conforme detalhado em sua análise de mecanismos internos.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

O artigo apresenta o SkillsBench, um benchmark que demonstra que habilidades curadas aumentam significativamente o desempenho de agentes de IA em diversas tarefas, enquanto habilidades geradas automaticamente não oferecem benefícios e modelos menores equipados com habilidades podem superar modelos maiores sem elas.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

O artigo apresenta o TrasMuon, um otimizador que combina a geometria quase isométrica dos métodos Muon com calibração global e um mecanismo de região de confiança baseado em energia para estabilizar magnitudes e melhorar a convergência e robustez em modelos de visão e linguagem, mesmo sem etapas de warmup.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Este trabalho demonstra que um pipeline automatizado leve, integrado a modelos de linguagem de próxima geração e otimizado para verificação baseada em citações, é capaz de gerar e resolver problemas matemáticos de nível de pesquisa, incluindo conjuntos de dados inovadores como o ICCM e o "First Proof", com soluções verificadas e código aberto disponibilizados publicamente.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Este artigo apresenta a Política de Velocidade Média (MVP), um novo método de política generativa que utiliza uma restrição de velocidade instantânea para garantir alta expressividade e permitir a geração de ações em um único passo, superando os métodos baseados em fluxo existentes em termos de precisão, velocidade de treinamento e desempenho em tarefas de manipulação robótica.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

O artigo apresenta o LongAudio-RAG, um framework híbrido que responde a perguntas sobre áudios de longa duração ao converter gravações em registros de eventos estruturados para recuperação precisa e geração de respostas por modelos de linguagem, demonstrando sua eficácia e viabilidade em uma arquitetura de borda-nuvem.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

O artigo apresenta o CogitoRAG, um framework de Geração Aumentada por Recuperação (RAG) inspirado na memória episódica humana que utiliza extração de "gist" semântico, difusão global em grafos de conhecimento e um algoritmo de reclassificação cognitiva para superar as limitações de integridade semântica e melhorar o raciocínio em tarefas complexas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Este artigo apresenta o CondMedQA, o primeiro benchmark para perguntas e respostas biomédicas condicionais, e propõe o framework Condition-Gated Reasoning (CGR), que utiliza grafos de conhecimento conscientes de condições para melhorar a precisão do raciocínio médico ao adaptar as respostas às características específicas dos pacientes.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

ABD: Default Exception Abduction in Finite First Order Worlds

Este artigo apresenta o ABD, um benchmark para avaliar a capacidade de modelos de linguagem de inferir fórmulas de exceção esparsas que restauram a satisfiabilidade em mundos finitos de primeira ordem, revelando que, embora os modelos atuais atinjam alta validade, ainda enfrentam desafios significativos em termos de parcimônia e generalização entre diferentes regimes de observação.

Serafim Batzoglou2026-03-10✓ Author reviewed 💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Este artigo apresenta um novo benchmark multi-KPI no ambiente CityLearn para avaliar algoritmos de Aprendizado por Reforço Multiagente (MARL) no controle de energia urbana, demonstrando que abordagens de Treinamento Descentralizado com Execução Descentralizada (DTDE) superam consistentemente as centralizadas, enquanto o aprendizado de dependências temporais melhora a sustentabilidade da bateria e a resiliência do sistema.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

O artigo apresenta o MrBERT, uma família de codificadores multilingues modernos e eficientes, otimizados para desempenho de ponta em tarefas específicas de catalão e espanhol, bem como em domínios especializados como biomedicina e direito, com suporte a tamanhos de vetor flexíveis para reduzir custos de inferência.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Este artigo apresenta o ARLArena, um framework unificado para análise e estabilização do aprendizado por reforço agêntico, que através da decomposição do gradiente de política em quatro dimensões, deriva o método SAMPO para garantir treinamento estável e de alto desempenho em tarefas complexas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

O artigo apresenta o CryoNet.Refine, um modelo de difusão de um único passo baseado em aprendizado profundo que automatiza e acelera o refinamento de modelos estrutuais de macromoléculas contra mapas de densidade de criomicroscopia eletrônica, superando em velocidade e qualidade as ferramentas tradicionais como o Phenix.real_space_refine.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artigo introduz o conceito de "vibe researching" mediado por agentes de IA, argumentando que, embora essas ferramentas possam automatizar tarefas de alta codificabilidade e acelerar o pipeline de pesquisa, elas não substituem a originalidade teórica e o conhecimento tácito dos cientistas sociais, exigindo, em vez disso, uma abordagem de augmentação responsável que considere riscos de estratificação e crises pedagógicas.

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

O artigo propõe a "bipreditabilidade" como uma medida fundamental para distinguir a mera capacidade de agir (agência) da inteligência real, demonstrando que os sistemas de IA atuais possuem agência mas carecem de inteligência porque não monitoram e adaptam sua eficácia de aprendizado, e apresenta uma arquitetura de feedback inspirada na biologia para corrigir essa limitação.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math