cs.AI artigos | Gist.Science

Extended Empirical Validation of the Explainability Solution Space

Este relatório técnico valida estendida e empiricamente a Espaço de Soluções de Explicabilidade (ESS) através de uma avaliação transversal que, além da previsão de rotatividade de funcionários, incorpora um sistema heterogêneo de alocação de recursos urbanos inteligentes, demonstrando a generalidade e adaptabilidade do framework a diferentes domínios, perfis de risco e configurações de partes interessadas.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Este artigo apresenta um framework híbrido que combina um Modelo de Markov Oculto para inferir estados ocultos de rivais e uma Rede Q Profunda para otimizar a estratégia de energia em corridas de Fórmula 1 de 2026, permitindo a detecção de armadilhas estratégicas como o "counter-harvest" em um ambiente de observabilidade parcial.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

O artigo apresenta o HarmonyCell, um framework de agente autônomo que resolve as heterogeneidades semântica e estatística em estudos de perturbação de células únicas, unificando metadados via LLM e otimizando arquiteturas de modelos com busca em árvore Monte Carlo para superar deslocamentos de distribuição sem necessidade de engenharia específica por conjunto de dados.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Este artigo apresenta um novo quadro de aprendizado por reforço profundo assistido por modelos de linguagem (LLM) que mapeia instruções em linguagem natural para regras executáveis e anotações semânticas, melhorando a eficiência de dados, a conformidade com restrições e a transferabilidade entre tarefas em ambientes complexos.

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Este artigo apresenta um pipeline baseado em detecção que integra um localizador e um segmentador para extrair com precisão e generalidade a forma de onda da área glótica a partir de videoendoscopia de alta velocidade, permitindo a avaliação clínica robusta de biomarcadores funcionais em tempo real.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Este artigo propõe um framework robusto que combina a arquitetura híbrida CoAtNet com a técnica de "model soups" para classificar imagens de Patrimônio Cultural Imaterial do Delta do Mekong, alcançando resultados state-of-the-art ao reduzir a variância e melhorar a generalização em cenários com dados limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory

Este artigo apresenta um framework de diagnóstico que demonstra que, em agentes LLM com memória, a qualidade da recuperação é o fator determinante para o desempenho, superando significativamente o impacto das estratégias de escrita e sugerindo que métodos de armazenamento simples e sem perdas podem ser mais eficazes do que abordagens complexas e custosas.

Boqin Yuan, Yue Su, Kun Yao2026-03-10🤖 cs.AI

Agentified Assessment of Logical Reasoning Agents

Os autores apresentam um framework de avaliação baseado em agentes para testar raciocínio lógico, demonstrando sua eficácia ao benchmarkar um agente de auto-formalização no conjunto de dados FOLIO, onde ele superou uma linha de base de cadeia de pensamento com 86,70% de precisão.

Zhiyu Ni, Yifeng Xiao, Zheng Liang2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artigo apresenta o GramCol e o IMAP, métodos que localizam espacial e temporalmente conceitos de movimento e objetos em Transformers de Difusão de Vídeo sem necessidade de cálculo de gradiente ou atualização de parâmetros, oferecendo mapas de saliência interpretáveis para tarefas como segmentação semântica zero-shot.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Este artigo estabelece a primeira separação teórica entre o Adam e o SGD, demonstrando que a normalização do segundo momento no Adam permite uma dependência de $\delta^{-1/2}$ no parâmetro de confiança para a convergência de alta probabilidade, superando a dependência de $\delta^{-1}$ inerente ao SGD.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

O artigo apresenta a Decomposição de Sonda Composicional (CPD) para demonstrar que a alinhamento da tarefa de treinamento e a arquitetura equivariante são fatores determinantes que moldam a acessibilidade linear e a disjunção de informações geométricas e composicionais em modelos de base atômica, revelando que modelos treinados em propriedades específicas (como o gap HOMO-LUMO) organizam seus representações de forma mais eficiente do que aqueles treinados apenas em energia.

Joshua Steier2026-03-10🤖 cs.LG

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

O artigo demonstra que, para modelos de linguagem pequenos, o método de detecção de contaminação baseado na distribuição de saída (CDD) é ineficaz e supera em desempenho métodos baseados em probabilidade, como perplexidade e Min-k% Prob, pois sua eficácia depende criticamente da memorização verbatim que raramente ocorre nesses modelos.

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Este artigo explora o potencial de agentes inteligentes baseados no Protocolo de Contexto de Modelo (MCP) para facilitar consultas federadas SPARQL, propondo uma extensão de benchmarks de resposta a perguntas em grafos de conhecimento e avaliando diferentes arquiteturas que integram descoberta de endpoints, exploração de esquemas e formulação de consultas.

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

O artigo apresenta uma plataforma de avaliação espacial agnóstica ao esporte que padroniza a análise de movimentos e espaço utilizável, permitindo a comparação consistente de táticas entre Ultimate Frisbee, basquete e futebol.

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

Este artigo apresenta dois novos quadros de aprendizado por reforço, RLOP e QLBS, que priorizam a probabilidade de déficit e a sensibilidade ao risco de baixa para melhorar a cobertura de opções e a estabilidade financeira, demonstrando empiricamente que essas abordagens reduzem a frequência de déficits e melhoram a gestão de riscos de cauda em comparação com modelos paramétricos tradicionais.

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

O artigo apresenta a "Isotonic Layer", uma nova estrutura diferenciável que integra ajuste linear por partes em arquiteturas neurais para garantir viés monotônico global, permitindo calibração granular e adaptativa que mitiga vieses sistemáticos e melhora a precisão preditiva e a consistência de classificação em sistemas de recomendação em larga escala.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

Este relatório técnico apresenta um sistema baseado em transformadores que avança o desempenho no ARC-AGI ao combinar inferência neural com priores sensíveis à estrutura e adaptação online, utilizando codificação compacta de tarefas, aumento de dados baseado em simetrias, treinamento no momento do teste (TTT) com LoRA e um pipeline de pontuação para alcançar generalização próxima ao nível humano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Este artigo demonstra que os atuais juízes baseados em LLM falham em medir de forma confiável a robustez adversarial devido a deslocamentos de distribuição que degradam seu desempenho a níveis próximos do acaso, revelando que muitas "vitórias" de ataques exploram essas insuficiências em vez de gerar conteúdo genuinamente prejudicial, e propõe novos benchmarks para avaliação mais precisa.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Este artigo propõe uma abordagem neurodinâmica em dupla escala temporal para resolver problemas de otimização com restrições conjuntas geométricas robustas à distribuição, demonstrando que redes neurais podem convergir para o ótimo global sem métodos convencionais e aplicando-se com sucesso em casos de otimização de formas e telecomunicações.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

Este artigo apresenta uma arquitetura de controle de ética por design que integra raciocínios éticos em mecanismos de aplicação ao longo do ciclo de vida da IA, utilizando uma estrutura de três portões (métricos, de governança e ecológicos) para traduzir compromissos normativos em controles operacionais testáveis e integráveis aos pipelines de MLOps.

Jasper Kyle Catapang2026-03-10💻 cs

← Anterior Próximo →