Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Este artigo propõe uma mudança de paradigma na pesquisa de quantificação de incerteza para modelos de linguagem grandes, estabelecendo um novo framework principiante para agentes interativos que abrange fundamentos teóricos, identifica desafios técnicos específicos e aponta direções futuras para aplicações seguras e complexas.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Este artigo demonstra que, embora os métodos de atribuição sejam eficazes para explicar previsões estáticas, as abordagens baseadas em rastros (trace-based) são essenciais para diagnosticar falhas em sistemas de IA agênticos, revelando que inconsistências no rastreamento de estado são a principal causa de fracasso nesses cenários dinâmicos.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

O artigo apresenta o Aletheia, um agente de pesquisa matemática autônomo que, combinando raciocínio avançado, escalabilidade na inferência e uso intensivo de ferramentas, gera e revisa soluções em linguagem natural para problemas que vão desde olimpíadas até contribuições originais em pesquisa acadêmica, como a descoberta de constantes estruturais e a resolução de questões abertas, ao mesmo tempo que propõe novos padrões para medir autonomia e transparência na colaboração humano-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

O artigo apresenta o SWE-MiniSandbox, uma abordagem leve e sem containers que utiliza mecanismos isolados no nível do kernel e técnicas de pré-armazenamento para reduzir drasticamente a sobrecarga de disco e o tempo de configuração no treinamento de agentes de engenharia de software por aprendizado por reforço, mantendo desempenho comparável ao dos pipelines baseados em containers.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudo propõe o AHSIV, um framework adaptativo de seleção de modelos para previsão de demanda que integra métricas de erro ajustadas ao horizonte de previsão e classificação estrutural da demanda para resolver a instabilidade de rankings em ambientes heterogêneos, oferecendo uma solução operacionalmente coerente para decisões multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

O artigo apresenta o IntelliAsk, um modelo treinado com Aprendizado por Reforço via Verificação (RLVR) e uma nova função de recompensa (IntelliReward) para gerar perguntas de revisão de pesquisa de alta qualidade, fundamentadas e substanciais, superando modelos de linha de base e demonstrando melhorias em benchmarks de raciocínio e escrita.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artigo demonstra que o colapso de modalidades em LLMs multimodais é causado por um problema de decodificação incompatível, onde a perda de informação é limitada pelo desajuste distribucional e pela regra de pontuação do decodificador, e não pela arquitetura do modelo, provando que o objetivo de treinamento determina quais informações multimodais permanecem acessíveis.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

O artigo apresenta o CoME, uma nova arquitetura de agentes móveis que utiliza quatro especialistas distintos e uma estratégia de treinamento progressiva, juntamente com um método de otimização baseado em ganho de informação, para superar as limitações atuais na integração equilibrada e no aprimoramento desacoplado de capacidades de raciocínio híbrido.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Este estudo revela uma discrepância significativa entre o foco atual no desenvolvimento de agentes de IA (centrado em programação) e a distribuição real do trabalho humano e do valor econômico, propondo princípios para criar benchmarks mais representativos e úteis.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI