cs.AI artigos | Gist.Science

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Este artigo propõe uma mudança de paradigma na pesquisa de quantificação de incerteza para modelos de linguagem grandes, estabelecendo um novo framework principiante para agentes interativos que abrange fundamentos teóricos, identifica desafios técnicos específicos e aponta direções futuras para aplicações seguras e complexas.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Este artigo demonstra que, embora os métodos de atribuição sejam eficazes para explicar previsões estáticas, as abordagens baseadas em rastros (trace-based) são essenciais para diagnosticar falhas em sistemas de IA agênticos, revelando que inconsistências no rastreamento de estado são a principal causa de fracasso nesses cenários dinâmicos.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

O artigo apresenta o Aletheia, um agente de pesquisa matemática autônomo que, combinando raciocínio avançado, escalabilidade na inferência e uso intensivo de ferramentas, gera e revisa soluções em linguagem natural para problemas que vão desde olimpíadas até contribuições originais em pesquisa acadêmica, como a descoberta de constantes estruturais e a resolução de questões abertas, ao mesmo tempo que propõe novos padrões para medir autonomia e transparência na colaboração humano-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

O artigo apresenta o framework MERIT, que inclui o benchmark AgoraBench, métricas alinhadas à teoria da utilidade e um pipeline de aprendizado baseado em preferências humanas, demonstrando que essa abordagem melhora significativamente a capacidade de negociação estratégica e a adaptação a fatores humanos em Grandes Modelos de Linguagem.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Este estudo demonstra que, em ambientes de "vibe coding" colaborativo, a liderança humana na definição de instruções de alto nível é essencial para evitar falhas de desempenho e maximizar a produtividade, especialmente quando combinada com a avaliação delegada à IA.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

O artigo apresenta o DataChef-32B, um modelo que utiliza aprendizado por reforço para gerar automaticamente receitas de dados otimizadas para a adaptação de LLMs, alcançando desempenho comparável ou superior ao de especialistas humanos em diversas tarefas.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

O artigo apresenta o SWE-MiniSandbox, uma abordagem leve e sem containers que utiliza mecanismos isolados no nível do kernel e técnicas de pré-armazenamento para reduzir drasticamente a sobrecarga de disco e o tempo de configuração no treinamento de agentes de engenharia de software por aprendizado por reforço, mantendo desempenho comparável ao dos pipelines baseados em containers.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artigo propõe uma fórmula de pontuação "Pico + Acumulação" para detectar ataques de injeção de prompts em múltiplas voltas em proxies de LLM sem invocar modelos de linguagem, superando as limitações da média ponderada e alcançando 90,8% de recall com uma taxa de falsos positivos de apenas 1,20% em um conjunto de dados de mais de 10.000 conversas.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudo propõe o AHSIV, um framework adaptativo de seleção de modelos para previsão de demanda que integra métricas de erro ajustadas ao horizonte de previsão e classificação estrutural da demanda para resolver a instabilidade de rankings em ambientes heterogêneos, oferecendo uma solução operacionalmente coerente para decisões multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

O artigo apresenta o IntelliAsk, um modelo treinado com Aprendizado por Reforço via Verificação (RLVR) e uma nova função de recompensa (IntelliReward) para gerar perguntas de revisão de pesquisa de alta qualidade, fundamentadas e substanciais, superando modelos de linha de base e demonstrando melhorias em benchmarks de raciocínio e escrita.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artigo apresenta resultados empíricos de uma implementação em C++ do "Compute ICE-AGE", um substrato de estado semântico determinístico baseado em grafos que, ao contrário das arquiteturas de IA atuais, mantém uma latência de travessia e um consumo térmico invariantes independentemente do volume de dados, escalando apenas com a capacidade de memória.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

O artigo apresenta o FLoRG, um framework de ajuste fino federado que utiliza agregação de matrizes de Gram de baixa ordem e alinhamento de Procrustes para eliminar erros de agregação, reduzir a deriva de decomposição e diminuir significativamente a sobrecarga de comunicação, superando os métodos existentes em precisão e eficiência.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artigo demonstra que os Modelos de Linguagem de Fala (Speech LLMs) atuais comportam-se essencialmente como cascatas dispendiosas de ASR seguidas por LLMs, onde as representações textuais são causalmente necessárias e os benefícios em condições limpas podem inverter-se em cenários ruidosos.

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

O artigo apresenta o EMPO $^2$ , um framework híbrido de aprendizado por reforço que integra memória para aprimorar a exploração e combina atualizações on- e off-policy, resultando em agentes de LLM significativamente mais adaptáveis e com melhor desempenho em tarefas novas e ambientes complexos.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artigo demonstra que o colapso de modalidades em LLMs multimodais é causado por um problema de decodificação incompatível, onde a perda de informação é limitada pelo desajuste distribucional e pela regra de pontuação do decodificador, e não pela arquitetura do modelo, provando que o objetivo de treinamento determina quais informações multimodais permanecem acessíveis.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

O artigo apresenta o CoME, uma nova arquitetura de agentes móveis que utiliza quatro especialistas distintos e uma estratégia de treinamento progressiva, juntamente com um método de otimização baseado em ganho de informação, para superar as limitações atuais na integração equilibrada e no aprimoramento desacoplado de capacidades de raciocínio híbrido.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

O artigo apresenta o "Theory of Code Space" (ToCS), um benchmark que avalia a capacidade de agentes de IA de construir e manter crenças arquiteturais coerentes em bases de código, revelando que a eficácia da exploração ativa, o uso de mapas de crenças estruturados e a estabilidade da memória variam significativamente entre diferentes modelos de linguagem.

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Este trabalho propõe uma decomposição funcional de Anel Tensorial reparametrizada, que utiliza Representações Neurais Implícitas e uma estrutura de base fixa para superar as limitações de dados em malhas e melhorar a recuperação de detalhes de alta frequência em tarefas de reconstrução de dados multidimensionais.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Este estudo revela uma discrepância significativa entre o foco atual no desenvolvimento de agentes de IA (centrado em programação) e a distribuição real do trabalho humano e do valor econômico, propondo princípios para criar benchmarks mais representativos e úteis.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

← Anterior Próximo →

cs.AI