cs.AI artigos | Gist.Science

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

O artigo apresenta o CogitoRAG, um framework de Geração Aumentada por Recuperação (RAG) inspirado na memória episódica humana que utiliza extração de "gist" semântico, difusão global em grafos de conhecimento e um algoritmo de reclassificação cognitiva para superar as limitações de integridade semântica e melhorar o raciocínio em tarefas complexas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Este artigo apresenta o CondMedQA, o primeiro benchmark para perguntas e respostas biomédicas condicionais, e propõe o framework Condition-Gated Reasoning (CGR), que utiliza grafos de conhecimento conscientes de condições para melhorar a precisão do raciocínio médico ao adaptar as respostas às características específicas dos pacientes.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Este artigo propõe ferramentas para certificação operacional além da cobertura marginal em preditores conformais, introduzindo correções de amostra pequena e auditorias independentes para garantir limites finitos sobre métricas de implantação como frequência de compromisso e exposição a erros, mapeando assim as compensações geométricas entre esses indicadores em janelas operacionais reais.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Este artigo apresenta o ABD, um benchmark para avaliar a capacidade de modelos de linguagem de inferir fórmulas de exceção esparsas que restauram a satisfiabilidade em mundos finitos de primeira ordem, revelando que, embora os modelos atuais atinjam alta validade, ainda enfrentam desafios significativos em termos de parcimônia e generalização entre diferentes regimes de observação.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

O artigo apresenta o INDUCTION, um benchmark que avalia a capacidade de modelos de IA de sintetizar fórmulas de lógica de primeira ordem compactas e generalizáveis para explicar conceitos em estruturas relacionais finitas, revelando desafios específicos e diferenças qualitativas nas estratégias de generalização dos modelos mais recentes.

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Este artigo apresenta um novo benchmark multi-KPI no ambiente CityLearn para avaliar algoritmos de Aprendizado por Reforço Multiagente (MARL) no controle de energia urbana, demonstrando que abordagens de Treinamento Descentralizado com Execução Descentralizada (DTDE) superam consistentemente as centralizadas, enquanto o aprendizado de dependências temporais melhora a sustentabilidade da bateria e a resiliência do sistema.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

O artigo apresenta o MrBERT, uma família de codificadores multilingues modernos e eficientes, otimizados para desempenho de ponta em tarefas específicas de catalão e espanhol, bem como em domínios especializados como biomedicina e direito, com suporte a tamanhos de vetor flexíveis para reduzir custos de inferência.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Este artigo apresenta o ARLArena, um framework unificado para análise e estabilização do aprendizado por reforço agêntico, que através da decomposição do gradiente de política em quatro dimensões, deriva o método SAMPO para garantir treinamento estável e de alto desempenho em tarefas complexas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

O artigo apresenta o CryoNet.Refine, um modelo de difusão de um único passo baseado em aprendizado profundo que automatiza e acelera o refinamento de modelos estrutuais de macromoléculas contra mapas de densidade de criomicroscopia eletrônica, superando em velocidade e qualidade as ferramentas tradicionais como o Phenix.real_space_refine.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artigo introduz o conceito de "vibe researching" mediado por agentes de IA, argumentando que, embora essas ferramentas possam automatizar tarefas de alta codificabilidade e acelerar o pipeline de pesquisa, elas não substituem a originalidade teórica e o conhecimento tácito dos cientistas sociais, exigindo, em vez disso, uma abordagem de augmentação responsável que considere riscos de estratificação e crises pedagógicas.

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

O artigo propõe a "bipreditabilidade" como uma medida fundamental para distinguir a mera capacidade de agir (agência) da inteligência real, demonstrando que os sistemas de IA atuais possuem agência mas carecem de inteligência porque não monitoram e adaptam sua eficácia de aprendizado, e apresenta uma arquitetura de feedback inspirada na biologia para corrigir essa limitação.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

Autoregressive Visual Decoding from EEG Signals

O artigo apresenta o AVDE, um framework leve e eficiente que utiliza aprendizado contrastivo e um modelo autoregressivo de "predição de próxima escala" para decodificar sinais de EEG em imagens, superando os métodos atuais em precisão e reduzindo significativamente o custo computacional.

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

Decomposing Physician Disagreement in HealthBench

O estudo demonstra que a maior parte da discordância entre médicos na avaliação de IA em saúde é estrutural e inerente a casos clínicos limítrofes, embora a redução de incertezas evitáveis, como falta de contexto, possa oferecer melhorias pontuais no design da avaliação.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

O artigo apresenta o CeRA, um adaptador paralelo que supera a limitação linear do LoRA em tarefas de raciocínio complexo ao induzir expansão de variedades via portas SiLU e dropout estrutural, permitindo alcançar desempenho superior com ranks significativamente menores.

Hung-Hsuan Chen2026-03-10🤖 cs.LG

On Sample-Efficient Generalized Planning via Learned Transition Models

Este trabalho propõe formular o planejamento generalizado como um problema de aprendizado de modelos de transição explícitos, demonstrando que prever estados intermediários em vez de ações diretas resulta em maior generalização fora da distribuição e eficiência amostral com modelos menores do que as abordagens baseadas em Transformers que predizem sequências de ações diretamente.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artigo descreve como o uso de um modelo de linguagem grande (LLM) especializado e ajustado para gerar milhões de rótulos de relevância textual permitiu aprimorar o sistema de classificação da App Store, resultando em ganhos simultâneos na relevância comportamental e textual e em um aumento estatisticamente significativo na taxa de conversão, especialmente para consultas de cauda longa.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

O artigo apresenta o Attn-QAT, um método pioneiro de treinamento consciente de quantização (QAT) para atenção em FP4 que, ao corrigir instabilidades de treinamento através de recomputação de baixa precisão e ajustes nos cálculos de gradiente, permite a computação de ponta a ponta em FP4 sem heurísticas de mitigação de outliers, recuperando a qualidade do modelo e oferecendo até 1,5x de aceleração em GPUs RTX 5090.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

PEPA: a Persistently Autonomous Embodied Agent with Personalities

O artigo apresenta o PEPA, uma arquitetura cognitiva de três camadas que utiliza traços de personalidade para permitir que agentes corporificados gerem objetivos internos e operem de forma autônoma e persistente em ambientes dinâmicos, validado experimentalmente em um robô quadrúpede real.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

How Well Do Multimodal Models Reason on ECG Signals?

Este trabalho apresenta um quadro reprodutível para avaliar o raciocínio de modelos multimodais em sinais de ECG, decompondo-o em percepção (verificada via geração de código) e dedução (validada contra critérios clínicos estruturados), permitindo uma avaliação escalável e rigorosa da verdadeira capacidade de raciocínio clínico.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Este artigo apresenta um framework de previsão conformal que garante cobertura estatística para a extração de entidades médicas por modelos de linguagem, demonstrando que a calibração depende do domínio clínico e da estrutura do documento, permitindo a implantação segura com taxas de rejeição gerenciáveis.

Manil Shrestha, Edward Kim2026-03-10💬 cs.CL

← Anterior Próximo →