cs.AI artigos | Gist.Science

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Este artigo propõe um agente de aprendizado contínuo para o jogo Dark Souls III que, ao representar o combate como um grafo direcionado de cinco habilidades especializadas e treiná-las hierarquicamente, permite a adaptação eficiente a novas fases do jogo através do ajuste seletivo de apenas um subconjunto de habilidades, mantendo a transferência do conhecimento prévio.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

O artigo apresenta o MemOCR, um agente multimodal que otimiza o raciocínio de longo prazo sob orçamentos de contexto restritos, convertendo memórias estruturadas em imagens com layout visual adaptativo para priorizar evidências cruciais e comprimir detalhes auxiliares, superando assim as abordagens baseadas em texto.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

O artigo apresenta o MHDash, uma plataforma de código aberto que oferece um pipeline unificado para o desenvolvimento, avaliação e auditoria de assistentes de IA em saúde mental, revelando que métricas agregadas tradicionais são insuficientes para detectar falhas críticas em casos de alto risco e em diálogos multi-turno.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Este artigo demonstra teoricamente e valida empiricamente que as alucinações em modelos de linguagem são uma consequência inevitável da otimização de memória sob capacidade limitada, onde a estratégia informacionalmente ótima para testes de associação em dados esparsos exige a atribuição de alta confiança a alguns fatos incorretos como resultado da compressão com perdas.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

O artigo apresenta o EverMemBench, o primeiro benchmark projetado para avaliar a memória de longo prazo em diálogos colaborativos multi-participantes, revelando limitações fundamentais dos sistemas atuais em atribuição, raciocínio temporal e consciência de memória.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

O artigo apresenta o DEFT, um gerador de trajetória baseado em difusão que permite a robôs com falhas de atuação concluírem tarefas de manipulação de forma segura e robusta, superando significativamente os métodos clássicos tanto em simulação quanto em cenários do mundo real.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

O artigo apresenta o DMS2F-HAD, uma nova rede de detecção de anomalias em imagens hiperespectrais baseada em Mamba que combina aprendizado eficiente de características espaciais e espectrais em ramos duplos com um mecanismo de fusão dinâmica, alcançando desempenho superior e maior velocidade de inferência em comparação com métodos existentes.

Aayushma Pant, Lakpa Tamang, Tsz-Kwan Lee + 1 more2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Este artigo propõe o Fine-grained Group Policy Optimization (FGO), um algoritmo de Aprendizado por Reforço que comprime de forma eficiente o raciocínio passo a passo (Chain-of-Thought) de Grandes Modelos de Linguagem, superando limitações de eficiência de dados e colapso de entropia do GRPO sem degradar o desempenho em benchmarks de raciocínio.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

O artigo apresenta o UniWeTok, um tokenizador binário unificado com um código de tamanho massivo ($2^{128}$) e uma arquitetura híbrida inovadora que alcança desempenho state-of-the-art em geração e compreensão multimodal com custos computacionais significativamente reduzidos.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

O artigo apresenta o TikArt, um agente multimodal que estabiliza o raciocínio visual de alta granularidade por meio de um ciclo de "Pensar-Apertura-Observar" e aprendizado por reforço, permitindo a aquisição sequencial de evidências em regiões de interesse para superar as limitações de codificação global de imagens.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

O artigo propõe o GOT-JEPA, um framework de pré-treinamento que adapta a arquitetura JEPA para prever modelos de rastreamento em vez de apenas características visuais, combinando-o com o módulo OccuSolver para melhorar a percepção de oclusão e a generalização em ambientes dinâmicos.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Este artigo demonstra que analistas de IA autônomos podem replicar a diversidade analítica observada em estudos humanos, gerando resultados dispersos e "steeráveis" que evidenciam a necessidade de novas normas de transparência, como a divulgação de prompts e a adoção de relatórios estilo multiverso, para lidar com a incerteza analítica na ciência automatizada.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

O artigo apresenta o LAVIDA, um framework de detecção de anomalias em vídeo zero-shot que alcança desempenho superior ao estado da arte ao utilizar um Amoestrador de Exposição a Anomalias e um Modelo de Linguagem Multimodal (MLLM) para treinar exclusivamente com pseudo-anomalias, superando assim a escassez de dados reais e a falta de diversidade em cenários do mundo real.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

O artigo apresenta o PatchDenoiser, um denoiser de TC de baixa dose leve e eficiente em energia que utiliza aprendizado e fusão de patches multi-escala para superar os métodos tradicionais e baseados em deep learning, preservando detalhes anatômicos enquanto reduz significativamente parâmetros e consumo energético.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

O artigo apresenta o Hubscan, um scanner de segurança de código aberto que utiliza uma arquitetura multi-detector para identificar e mitigar ataques de envenenamento por hubness em sistemas de Geração Aumentada por Recuperação (RAG), demonstrando alta eficácia na detecção de conteúdo adversarial em diversos bancos de dados vetoriais e benchmarks.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

O artigo apresenta o AMLRIS, uma estratégia de aprendizado mascarado que melhora a segmentação de imagens referenciadas ao identificar e excluir pixels com baixa alinhamento entre visão e texto durante o treinamento, alcançando resultados state-of-the-art sem alterar a arquitetura do modelo.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

O artigo propõe e avalia uma base mínima de agente para prova automática de teoremas que, ao implementar características essenciais como refinamento iterativo e gerenciamento de contexto, alcança desempenho competitivo com arquiteturas mais simples, demonstrando vantagens significativas em eficiência de amostras e custo em comparação com métodos de geração única.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

O artigo revela que a alinhamento de segurança em modelos de linguagem de grande escala cria um "viés de recusa defensiva", fazendo com que eles neguem injustificadamente assistência a tarefas legítimas de cibersegurança quando o conteúdo contém palavras-chave sensíveis, um problema agravado por autorizações explícitas e crítico para agentes autônomos de defesa.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

O artigo apresenta o CARE, um framework agêntico que aprimora a responsabilidade clínica no raciocínio médico multimodal ao decompor a tarefa em módulos especializados com fundamentação em evidências visuais e verificação iterativa, superando significativamente os modelos de ponta em benchmarks de VQA médica.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

O artigo apresenta o SEED-SET, um framework de design experimental bayesiano que integra avaliações objetivas e julgamentos subjetivos de partes interessadas via Processos Gaussianos Hierárquicos para realizar testes éticos escaláveis e eficientes em sistemas autônomos, superando métodos existentes na geração de candidatos de teste e na cobertura de espaços de busca.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

← Anterior Próximo →

cs.AI