cs.AI artigos | Gist.Science

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Este artigo propõe um novo quadro de orientação para difusão condicional sob restrições rígidas, fundamentado na transformada h de Doob e em identidades de martingale, que permite estimar correções de deriva sem modificar a rede de pontuação pré-treinada e oferece garantias teóricas não assintóticas para a satisfação de eventos com probabilidade unitária.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

O artigo apresenta o NAAMSE, um framework evolutivo que otimiza a avaliação de segurança de agentes de IA através de mutação de prompts e exploração hierárquica para identificar vulnerabilidades complexas e adaptativas, superando as limitações dos métodos estáticos e de red-teaming manual.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Este artigo propõe um novo quadro unificado de pré-treinamento baseado em difusão para modelos fundamentais de grafos cerebrais, que supera as limitações dos métodos existentes ao utilizar a difusão para orientar estratégias de mascaramento e reconstrução que preservam padrões de conectividade semanticamente significativos e capturam informações estruturais globais, resultando em representações mais robustas validadas em grandes conjuntos de dados de neuroimagem.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

O artigo apresenta o CoCoA, um algoritmo de decodificação sem treinamento que mitiga alucinações em Grandes Modelos de Linguagem ao penalizar gerações instáveis detectadas pela desconfiança entre camadas internas, melhorando significativamente a factualidade em diversas tarefas sem necessidade de re-treinamento do modelo.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

O artigo propõe o SToRM, um novo framework de redução supervisionada de tokens para modelos de linguagem multimodal que otimiza a condução autônoma de ponta a ponta ao reduzir drasticamente o custo computacional sem comprometer o desempenho.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

O artigo apresenta o AGPS, um framework que automatiza o aprendizado por reforço em robôs substituindo supervisores humanos por um agente multimodal que atua como modelo de mundo semântico, resultando em maior eficiência de amostras e escalabilidade para tarefas de manipulação complexas.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

O artigo M2RL investiga e compara os paradigmas de RLVR misto versus separado com fusão de modelos para aprendizado por reforço em múltiplos domínios em LLMs, descobrindo que as tarefas de raciocínio intensivo exibem efeitos sinérgicos e pouca interferência mútua, conforme detalhado em sua análise de mecanismos internos.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

O artigo apresenta o SkillsBench, um benchmark que demonstra que habilidades curadas aumentam significativamente o desempenho de agentes de IA em diversas tarefas, enquanto habilidades geradas automaticamente não oferecem benefícios e modelos menores equipados com habilidades podem superar modelos maiores sem elas.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Este artigo propõe uma taxonomia geométrica de alucinações em LLMs, classificando-as em três tipos e introduzindo índices de detecção baseados em espaço de embeddings que demonstram alta eficácia na identificação de desvios de contexto e confabulações, ao mesmo tempo que expõem limitações metodológicas na detecção de erros factuais.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

O artigo apresenta o TrasMuon, um otimizador que combina a geometria quase isométrica dos métodos Muon com calibração global e um mecanismo de região de confiança baseado em energia para estabilizar magnitudes e melhorar a convergência e robustez em modelos de visão e linguagem, mesmo sem etapas de warmup.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Este trabalho demonstra que um pipeline automatizado leve, integrado a modelos de linguagem de próxima geração e otimizado para verificação baseada em citações, é capaz de gerar e resolver problemas matemáticos de nível de pesquisa, incluindo conjuntos de dados inovadores como o ICCM e o "First Proof", com soluções verificadas e código aberto disponibilizados publicamente.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Este artigo apresenta a Política de Velocidade Média (MVP), um novo método de política generativa que utiliza uma restrição de velocidade instantânea para garantir alta expressividade e permitir a geração de ações em um único passo, superando os métodos baseados em fluxo existentes em termos de precisão, velocidade de treinamento e desempenho em tarefas de manipulação robótica.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

O artigo apresenta o Pawsterior, um novo framework de correspondência de fluxo variacional que melhora a inferência baseada em simulação ao incorporar diretamente a geometria de domínios estruturados e permitir a modelagem de estruturas latentes discretas, superando as limitações dos métodos convencionais.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

O artigo apresenta o XTF, um framework de filtragem de ruído em nível de token que melhora significativamente o desempenho de modelos de linguagem grandes (LLMs) em tarefas de ajuste fino ao decompor a contribuição dos dados em atributos explicáveis e mascarar gradientes de tokens ruidosos.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

O artigo apresenta o LongAudio-RAG, um framework híbrido que responde a perguntas sobre áudios de longa duração ao converter gravações em registros de eventos estruturados para recuperação precisa e geração de respostas por modelos de linguagem, demonstrando sua eficácia e viabilidade em uma arquitetura de borda-nuvem.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

O artigo apresenta o CogitoRAG, um framework de Geração Aumentada por Recuperação (RAG) inspirado na memória episódica humana que utiliza extração de "gist" semântico, difusão global em grafos de conhecimento e um algoritmo de reclassificação cognitiva para superar as limitações de integridade semântica e melhorar o raciocínio em tarefas complexas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Este artigo apresenta o CondMedQA, o primeiro benchmark para perguntas e respostas biomédicas condicionais, e propõe o framework Condition-Gated Reasoning (CGR), que utiliza grafos de conhecimento conscientes de condições para melhorar a precisão do raciocínio médico ao adaptar as respostas às características específicas dos pacientes.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Este artigo propõe ferramentas para certificação operacional além da cobertura marginal em preditores conformais, introduzindo correções de amostra pequena e auditorias independentes para garantir limites finitos sobre métricas de implantação como frequência de compromisso e exposição a erros, mapeando assim as compensações geométricas entre esses indicadores em janelas operacionais reais.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Este artigo apresenta o ABD, um benchmark para avaliar a capacidade de modelos de linguagem de inferir fórmulas de exceção esparsas que restauram a satisfiabilidade em mundos finitos de primeira ordem, revelando que, embora os modelos atuais atinjam alta validade, ainda enfrentam desafios significativos em termos de parcimônia e generalização entre diferentes regimes de observação.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

O artigo apresenta o INDUCTION, um benchmark que avalia a capacidade de modelos de IA de sintetizar fórmulas de lógica de primeira ordem compactas e generalizáveis para explicar conceitos em estruturas relacionais finitas, revelando desafios específicos e diferenças qualitativas nas estratégias de generalização dos modelos mais recentes.

Serafim Batzoglou2026-03-10💻 cs

← Anterior Próximo →