cs.AI artigos | Gist.Science

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

O artigo apresenta o CostNav, um novo benchmark que avalia agentes de IA física com base em análises econômicas realistas e dados industriais, revelando que os métodos atuais de navegação, embora focados no sucesso da tarefa, não são economicamente viáveis para aplicações comerciais no mundo real.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

O artigo apresenta o IndiMathBench, um benchmark verificado por humanos composto por 312 teoremas em Lean 4 derivados de olimpíadas de matemática indianas e criados por meio de um pipeline assistido por IA, que demonstra os desafios contínuos da autoformalização e do raciocínio matemático em modelos de linguagem de ponta.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

O artigo apresenta o C3, um método de quantificação de incerteza que treina modelos de geração de vídeo controláveis para estimar e visualizar com precisão, em nível de subpixel, a confiança de suas previsões, permitindo a detecção de alucinações e falhas tanto dentro quanto fora da distribuição de treinamento.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

O artigo apresenta o Trio, um framework de geração molecular que integra modelagem de linguagem baseada em fragmentos, aprendizado por reforço e busca em árvore Monte Carlo para criar um paradigma de descoberta de fármacos em ciclo fechado, superando métodos existentes ao gerar ligantes com maior afinidade de ligação, propriedades farmacológicas aprimoradas e acessibilidade sintética, além de expandir significativamente a diversidade química.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Este trabalho introduz variantes de florestas aleatórias baseadas no princípio de Minimização do Risco Máximo (MaxRM) para melhorar a generalização fora da distribuição, oferecendo algoritmos computacionalmente eficientes, garantias de consistência estatística e novos limites teóricos para distribuições de teste não vistas.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

O artigo apresenta o GTR-Turbo, um método eficiente que utiliza um modelo fundido a partir de checkpoints de treinamento como um "professor gratuito" para orientar o aprendizado por reforço de agentes VLM, eliminando a dependência de modelos proprietários caros enquanto aumenta a precisão e reduz significativamente o tempo e o custo computacional.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Este artigo apresenta o PBT (Pretrained Battery Transformer), o primeiro modelo fundamental para previsão universal da vida útil de baterias, que supera os métodos existentes ao integrar dados heterogêneos de múltiplos tipos de baterias por meio de camadas de especialistas codificadas com conhecimento específico.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Este estudo apresenta um novo framework que combina YOLOv8 e a técnica explicativa Finer-CAM para classificar espécies arbóreas em nuvens de pontos TLS com 96% de precisão, revelando que o modelo utiliza principalmente a copa das árvores para a maioria das espécies, mas recorre ao tronco para diferenciar outras, demonstrando assim a capacidade de interpretar as decisões do modelo e identificar suas limitações.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

O artigo "The Bayesian Geometry of Transformer Attention" demonstra que, em ambientes controlados chamados "túneis de vento bayesianos", os transformadores realizam inferência bayesiana com alta precisão através de um mecanismo geométrico específico envolvendo o alinhamento progressivo de chaves e consultas e uma variedade de valores de baixa dimensão, estabelecendo uma separação arquitetônica clara em relação a MLPs e oferecendo uma base para conectar sistemas pequenos verificáveis a fenômenos de raciocínio em grandes modelos de linguagem.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artigo estabelece que o treinamento por entropia cruzada em transformadores induz uma dinâmica de roteamento baseada em vantagens e atualizações de valores ponderadas por responsabilidade, que atuam como um procedimento EM de duas escalas temporais para esculpir geometrias bayesianas de baixa dimensão que sustentam o raciocínio probabilístico em contexto.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Este estudo demonstra que modelos de linguagem modernos preservam uma estrutura geométrica subjacente que organiza suas atualizações bayesianas aproximadas, embora essa geometria atue mais como uma leitura privilegiada da incerteza do que como um gargalo computacional singular.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Este artigo investiga o problema do "excesso de busca" em modelos de linguagem aumentados por busca, propondo a métrica Tokens Per Correctness (TPC) para avaliar o equilíbrio entre desempenho e custo, identificando fatores que agravam o fenômeno e apresentando estratégias de mitigação e um novo conjunto de dados (OverSearchQA) para pesquisas futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudo apresenta uma Arquitetura Multi-Tenant Segura (SMTA) combinada com um mecanismo inovador de "Queimar-Após-Uso" (BAU) para ambientes de LLM corporativos, demonstrando através de extensos testes que essa abordagem previne eficazmente vazamentos de dados ao garantir isolamento estrito e a destruição automática de contextos de conversação após o uso.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artigo propõe um ataque de negação de serviço econômico e furtivo que explora o protocolo MCP para induzir agentes de LLM a cadeias de chamadas de ferramentas excessivamente longas e custosas, aumentando drasticamente o consumo de recursos e custos enquanto evade detecções convencionais.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Este artigo propõe um agente de aprendizado contínuo para o jogo Dark Souls III que, ao representar o combate como um grafo direcionado de cinco habilidades especializadas e treiná-las hierarquicamente, permite a adaptação eficiente a novas fases do jogo através do ajuste seletivo de apenas um subconjunto de habilidades, mantendo a transferência do conhecimento prévio.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

O artigo apresenta o MemOCR, um agente multimodal que otimiza o raciocínio de longo prazo sob orçamentos de contexto restritos, convertendo memórias estruturadas em imagens com layout visual adaptativo para priorizar evidências cruciais e comprimir detalhes auxiliares, superando assim as abordagens baseadas em texto.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

O artigo apresenta o MHDash, uma plataforma de código aberto que oferece um pipeline unificado para o desenvolvimento, avaliação e auditoria de assistentes de IA em saúde mental, revelando que métricas agregadas tradicionais são insuficientes para detectar falhas críticas em casos de alto risco e em diálogos multi-turno.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Este artigo demonstra teoricamente e valida empiricamente que as alucinações em modelos de linguagem são uma consequência inevitável da otimização de memória sob capacidade limitada, onde a estratégia informacionalmente ótima para testes de associação em dados esparsos exige a atribuição de alta confiança a alguns fatos incorretos como resultado da compressão com perdas.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

O artigo apresenta o EverMemBench, o primeiro benchmark projetado para avaliar a memória de longo prazo em diálogos colaborativos multi-participantes, revelando limitações fundamentais dos sistemas atuais em atribuição, raciocínio temporal e consciência de memória.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

O artigo apresenta o DEFT, um gerador de trajetória baseado em difusão que permite a robôs com falhas de atuação concluírem tarefas de manipulação de forma segura e robusta, superando significativamente os métodos clássicos tanto em simulação quanto em cenários do mundo real.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

← Anterior Próximo →