cs.AI artigos | Gist.Science

CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal

O artigo apresenta o CARE, um framework de pós-treinamento para raciocínio multimodal que transforma falhas em sinal de supervisão através de um objetivo contrastivo ancorado e de uma reamostragem guiada por reflexão, resultando em ganhos significativos de precisão e suavidade no treinamento em comparação com métodos existentes.

Yongxin Wang, Zhicheng Yang, Meng Cao, Mingfei Han, Haokun Lin, Yingying Zhu, Xiaojun Chang, Xiaodan Liang2026-03-09🤖 cs.AI

LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs

Este artigo apresenta o benchmark LLMTM para avaliar e otimizar o desempenho de Grandes Modelos de Linguagem (LLMs) na análise de motivos temporais em grafos dinâmicos, propondo um agente aumentado por ferramentas e um dispatcher inteligente que equilibra alta precisão com redução de custos computacionais.

Bing Hao, Minglai Shao, Zengyi Wo, Yunlong Chu, Yuhang Liu, Ruijie Wang2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Este artigo apresenta o WBC (Window-Based Comparison), um novo método de ataque de inferência de associação que supera as abordagens globais ao utilizar janelas deslizantes para capturar sinais localizados de memorização em modelos de linguagem grandes, demonstrando superioridade significativa em precisão e taxas de detecção em diversos conjuntos de dados.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Este artigo apresenta um framework de ajuste fino para modelos de linguagem que adapta o conteúdo educacional a diferentes níveis escolares, melhorando significativamente a adequação ao grau de ensino sem comprometer a precisão factual e promovendo maior equidade na aprendizagem assistida por IA.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

O artigo apresenta o PepEDiff, um gerador inovador de ligantes peptídicos que utiliza difusão em um espaço latente de embeddings proteicos para projetar sequências de ligação zero-shot diretamente a partir de sequências de proteínas-alvo, eliminando a dependência de predições estruturais e superando métodos existentes em diversidade e desempenho.

Po-Yu Liang, Tibo Duran, Jun Bai2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

O artigo apresenta o SpatialMem, um sistema baseado em memória que utiliza uma estrutura espacial métrica 3D como índice interpretável para permitir a recuperação e perguntas e respostas (QA) fundamentadas em linguagem a partir de vídeos egocêntricos de longo alcance, demonstrando robustez em cenários reais sem a necessidade de sensores especializados.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Neural Signals Generate Clinical Notes in the Wild

O artigo apresenta o CELM, o primeiro modelo fundamental de EEG clínico para linguagem, que gera relatórios clínicos completos a partir de gravações de EEG de longa duração, alcançando melhorias significativas nas métricas de geração em comparação com métodos existentes.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

O artigo propõe o Aprendizado em Contexto Localizado (L-ICL), uma técnica que corrige iterativamente os erros de planejadores baseados em Grandes Modelos de Linguagem (LLMs) ao injetar exemplos de correção específicos para as primeiras violações de restrições, resultando em planos válidos significativamente mais frequentes do que métodos tradicionais em diversas tarefas de planejamento simbólico.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artigo apresenta estudos de caso e técnicas comuns que demonstram como a colaboração com modelos de IA avançados, especificamente o Gemini, pode acelerar a descoberta científica em áreas como ciência da computação teórica e física, atuando como um parceiro genuíno na resolução de problemas abertos, refutação de conjecturas e geração de novas provas.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Este artigo propõe uma mudança de paradigma na pesquisa de quantificação de incerteza para modelos de linguagem grandes, estabelecendo um novo framework principiante para agentes interativos que abrange fundamentos teóricos, identifica desafios técnicos específicos e aponta direções futuras para aplicações seguras e complexas.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Este artigo demonstra que, embora os métodos de atribuição sejam eficazes para explicar previsões estáticas, as abordagens baseadas em rastros (trace-based) são essenciais para diagnosticar falhas em sistemas de IA agênticos, revelando que inconsistências no rastreamento de estado são a principal causa de fracasso nesses cenários dinâmicos.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

O artigo apresenta o Aletheia, um agente de pesquisa matemática autônomo que, combinando raciocínio avançado, escalabilidade na inferência e uso intensivo de ferramentas, gera e revisa soluções em linguagem natural para problemas que vão desde olimpíadas até contribuições originais em pesquisa acadêmica, como a descoberta de constantes estruturais e a resolução de questões abertas, ao mesmo tempo que propõe novos padrões para medir autonomia e transparência na colaboração humano-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

O artigo apresenta o framework MERIT, que inclui o benchmark AgoraBench, métricas alinhadas à teoria da utilidade e um pipeline de aprendizado baseado em preferências humanas, demonstrando que essa abordagem melhora significativamente a capacidade de negociação estratégica e a adaptação a fatores humanos em Grandes Modelos de Linguagem.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Este estudo demonstra que, em ambientes de "vibe coding" colaborativo, a liderança humana na definição de instruções de alto nível é essencial para evitar falhas de desempenho e maximizar a produtividade, especialmente quando combinada com a avaliação delegada à IA.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

O artigo apresenta o DataChef-32B, um modelo que utiliza aprendizado por reforço para gerar automaticamente receitas de dados otimizadas para a adaptação de LLMs, alcançando desempenho comparável ou superior ao de especialistas humanos em diversas tarefas.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

O artigo apresenta o SWE-MiniSandbox, uma abordagem leve e sem containers que utiliza mecanismos isolados no nível do kernel e técnicas de pré-armazenamento para reduzir drasticamente a sobrecarga de disco e o tempo de configuração no treinamento de agentes de engenharia de software por aprendizado por reforço, mantendo desempenho comparável ao dos pipelines baseados em containers.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artigo propõe uma fórmula de pontuação "Pico + Acumulação" para detectar ataques de injeção de prompts em múltiplas voltas em proxies de LLM sem invocar modelos de linguagem, superando as limitações da média ponderada e alcançando 90,8% de recall com uma taxa de falsos positivos de apenas 1,20% em um conjunto de dados de mais de 10.000 conversas.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudo propõe o AHSIV, um framework adaptativo de seleção de modelos para previsão de demanda que integra métricas de erro ajustadas ao horizonte de previsão e classificação estrutural da demanda para resolver a instabilidade de rankings em ambientes heterogêneos, oferecendo uma solução operacionalmente coerente para decisões multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

← Anterior Próximo →