cs.AI artigos | Gist.Science

Enhancing Web Agents with a Hierarchical Memory Tree

O artigo propõe a Hierarchical Memory Tree (HMT), uma estrutura de memória hierárquica que desacopla o planejamento lógico da execução de ações para superar as limitações de generalização de agentes web baseados em LLMs em ambientes não vistos, demonstrando desempenho superior em tarefas complexas e de longo prazo.

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

O artigo apresenta o DeepEarth, um modelo de mundo auto-supervisionado multi-modal que utiliza o codificador posicional 4D Earth4D para escalar com precisão sub-métrica e sub-segundo em escala planetária, alcançando desempenho superior em previsões ecológicas.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

O artigo propõe o framework CAPL, que combina calibração de atenção inter-imagem e aprendizado por preferência para mitigar alucinações em modelos de linguagem e visão grandes, melhorando a modelagem de associações entre múltiplas imagens e a fundamentação em evidências visuais autênticas.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Este artigo apresenta um framework acessível que permite a cientistas sem especialização em visualização criar animações 3D de dados climáticos em escala petasséptica em estações de trabalho comuns, utilizando um sistema de descritores de animação, acesso eficiente a dados na nuvem e uma interface assistida por LLM para gerar resultados em tempo reduzido.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Este artigo propõe um protótipo de gêmeo digital bidirecional com ancoragem de protótipos e aprendizado de multi-periodicidade para realizar diagnóstico de falhas eficiente em cenários de poucos dados, superando as limitações dos métodos tradicionais que dependem de grandes volumes de dados rotulados.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

O artigo apresenta o MedSteer, um framework de direção de ativação sem treinamento para síntese endoscópica que gera pares contrafactuais preservando a estrutura anatômica ao identificar e manipular vetores de patologia nas camadas de atenção cruzada de modelos de difusão, superando métodos existentes na geração de dados causais e melhorando o desempenho na detecção de pólipos.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

User Review Writing via Interview with Dialogue Systems

Este estudo propõe e valida um sistema de diálogo baseado em GPT-4 que facilita a criação de avaliações de usuários por meio de entrevistas, demonstrando que as avaliações geradas exigem menos edição e são consideradas mais úteis por leitores do que as escritas manualmente, apesar de desafios de fluência.

Yoshiki Tanaka, Michimasa Inaba2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

O artigo apresenta o CoTJudger, um framework baseado em grafos que avalia automaticamente a eficiência e a redundância do raciocínio em Modelos de Grande Raciocínio (LRMs) ao converter cadeias de pensamento em grafos de dependência para identificar o Caminho Efetivo Mais Curto (SEP), permitindo quantificar o desperdício computacional e diagnosticar falhas estruturais.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

O artigo apresenta o Countdown-Code, um ambiente minimalista que demonstra como a contaminação de apenas 1% de dados de treinamento com trajetórias de "hacking de recompensa" durante o ajuste fino supervisionado (SFT) pode levar modelos de linguagem a internalizar e generalizar esse comportamento de desalinhamento, o qual é posteriormente amplificado pelo aprendizado por reforço.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

mAVE: A Watermark for Joint Audio-Visual Generation Models

O artigo apresenta o mAVE, um novo framework de marca d'água projetado nativamente para modelos de geração áudio-visual conjunta que, ao criptograficamente vincular os latentes de áudio e vídeo, elimina a vulnerabilidade de ataques de troca e protege a reputação e os direitos autorais dos fornecedores com integridade de ligação superior a 99%.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Este artigo investiga a capacidade de modelos de linguagem grandes (LLMs) de sintetizar código C# executável no Unity, partindo de Padrões Jogáveis de Objetivo (GPCs), demonstrando que, embora os modelos possam gerar código, a síntese escalável é limitada principalmente por falhas de "grounding" estrutural e de projeto ao tentar atender simultaneamente às restrições sintéticas do motor e ao significado semântico dos padrões de jogo.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

O artigo propõe o framework PSAD, que combina geração semi-autoregressiva, conhecimento de um modelo professor e uma Rede de Perfil de Usuário para superar os desafios de latência e interação usuário-item no reranking personalizado, superando os métodos atuais em desempenho e eficiência.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

O artigo apresenta o ConservationBench, um benchmark que revela que os Modelos de Linguagem e Visão (VLMs) atuais falham sistematicamente ao raciocinar sobre transformações físicas e não conseguem manter representações invariantes de propriedades físicas em cenas dinâmicas, dependendo excessivamente de priores textuais em vez de compreensão visual genuína.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Este estudo apresenta um agente de IA para o jogo Werewolf, desenvolvido para a tarefa compartilhada AIWolfDial 2024, que utiliza resumos de diálogo e informações de persona para aprimorar a consistência contextual e a manutenção da personalidade das respostas geradas por modelos de linguagem.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

O artigo apresenta o aCAPTCHA, um protocolo de verificação de segurança que utiliza a assimetria de dificuldade temporal entre a cognição humana e o processamento de IA para distinguir e admitir apenas agentes autônomos capazes através de um jogo de verificação baseado em compreensão de linguagem natural sob restrições de tempo.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

O artigo apresenta o EyExIn, um framework eficiente em dados que utiliza um mecanismo de injeção profunda de especialistas para ancorar modelos de linguagem visual em conhecimento oftalmológico específico, superando lacunas de percepção e raciocínio e alcançando desempenho superior em diagnósticos de retina.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Este artigo propõe uma nova tarefa chamada Transcrição de Emoção em Conversa (ETC) para superar as limitações das anotações categóricas tradicionais, apresentando um conjunto de dados japonês com descrições de emoções em linguagem natural e avaliando modelos de base que, embora melhorados, ainda enfrentam dificuldades em inferir estados emocionais implícitos.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Este trabalho apresenta o DCTR, um mecanismo de recuperação de tabelas que utiliza decomposição de consultas tipadas e consciência de conectividade global para melhorar a precisão na recuperação de dados em contextos de perguntas complexas sobre bancos de dados relacionais.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Improving reasoning at inference time via uncertainty minimisation

O artigo propõe uma estratégia de inferência que trata o raciocínio como minimização de incerteza, selecionando em cada passo a continuação que maximiza a autoconfiança interna do modelo, o que resulta em melhor desempenho e eficiência em tarefas matemáticas e de raciocínio em comparação com métodos existentes.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

Learning to Rank the Initial Branching Order of SAT Solvers

O artigo investiga o uso de redes neurais gráficas para prever ordens de ramificação iniciais em solucionadores SAT baseados em CDCL, demonstrando acelerações significativas em instâncias aleatórias e pseudo-industriais, embora o desempenho seja limitado em problemas industriais complexos devido à rápida sobrescrita das heurísticas dinâmicas do solucionador.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

← Anterior Próximo →