SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

O artigo apresenta o SpatialMem, um sistema baseado em memória que utiliza uma estrutura espacial métrica 3D como índice interpretável para permitir a recuperação e perguntas e respostas (QA) fundamentadas em linguagem a partir de vídeos egocêntricos de longo alcance, demonstrando robustez em cenários reais sem a necessidade de sensores especializados.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

O artigo propõe o Aprendizado em Contexto Localizado (L-ICL), uma técnica que corrige iterativamente os erros de planejadores baseados em Grandes Modelos de Linguagem (LLMs) ao injetar exemplos de correção específicos para as primeiras violações de restrições, resultando em planos válidos significativamente mais frequentes do que métodos tradicionais em diversas tarefas de planejamento simbólico.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artigo apresenta estudos de caso e técnicas comuns que demonstram como a colaboração com modelos de IA avançados, especificamente o Gemini, pode acelerar a descoberta científica em áreas como ciência da computação teórica e física, atuando como um parceiro genuíno na resolução de problemas abertos, refutação de conjecturas e geração de novas provas.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Este artigo propõe uma mudança de paradigma na pesquisa de quantificação de incerteza para modelos de linguagem grandes, estabelecendo um novo framework principiante para agentes interativos que abrange fundamentos teóricos, identifica desafios técnicos específicos e aponta direções futuras para aplicações seguras e complexas.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Este artigo demonstra que, embora os métodos de atribuição sejam eficazes para explicar previsões estáticas, as abordagens baseadas em rastros (trace-based) são essenciais para diagnosticar falhas em sistemas de IA agênticos, revelando que inconsistências no rastreamento de estado são a principal causa de fracasso nesses cenários dinâmicos.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

O artigo apresenta o Aletheia, um agente de pesquisa matemática autônomo que, combinando raciocínio avançado, escalabilidade na inferência e uso intensivo de ferramentas, gera e revisa soluções em linguagem natural para problemas que vão desde olimpíadas até contribuições originais em pesquisa acadêmica, como a descoberta de constantes estruturais e a resolução de questões abertas, ao mesmo tempo que propõe novos padrões para medir autonomia e transparência na colaboração humano-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

O artigo apresenta o SWE-MiniSandbox, uma abordagem leve e sem containers que utiliza mecanismos isolados no nível do kernel e técnicas de pré-armazenamento para reduzir drasticamente a sobrecarga de disco e o tempo de configuração no treinamento de agentes de engenharia de software por aprendizado por reforço, mantendo desempenho comparável ao dos pipelines baseados em containers.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudo propõe o AHSIV, um framework adaptativo de seleção de modelos para previsão de demanda que integra métricas de erro ajustadas ao horizonte de previsão e classificação estrutural da demanda para resolver a instabilidade de rankings em ambientes heterogêneos, oferecendo uma solução operacionalmente coerente para decisões multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

O artigo apresenta o IntelliAsk, um modelo treinado com Aprendizado por Reforço via Verificação (RLVR) e uma nova função de recompensa (IntelliReward) para gerar perguntas de revisão de pesquisa de alta qualidade, fundamentadas e substanciais, superando modelos de linha de base e demonstrando melhorias em benchmarks de raciocínio e escrita.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI