cs.AI artigos | Gist.Science

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

O artigo demonstra que, para modelos de linguagem pequenos, o método de detecção de contaminação baseado na distribuição de saída (CDD) é ineficaz e supera em desempenho métodos baseados em probabilidade, como perplexidade e Min-k% Prob, pois sua eficácia depende criticamente da memorização verbatim que raramente ocorre nesses modelos.

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Este artigo explora o potencial de agentes inteligentes baseados no Protocolo de Contexto de Modelo (MCP) para facilitar consultas federadas SPARQL, propondo uma extensão de benchmarks de resposta a perguntas em grafos de conhecimento e avaliando diferentes arquiteturas que integram descoberta de endpoints, exploração de esquemas e formulação de consultas.

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

O artigo apresenta uma plataforma de avaliação espacial agnóstica ao esporte que padroniza a análise de movimentos e espaço utilizável, permitindo a comparação consistente de táticas entre Ultimate Frisbee, basquete e futebol.

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

Este artigo apresenta dois novos quadros de aprendizado por reforço, RLOP e QLBS, que priorizam a probabilidade de déficit e a sensibilidade ao risco de baixa para melhorar a cobertura de opções e a estabilidade financeira, demonstrando empiricamente que essas abordagens reduzem a frequência de déficits e melhoram a gestão de riscos de cauda em comparação com modelos paramétricos tradicionais.

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

O artigo apresenta a "Isotonic Layer", uma nova estrutura diferenciável que integra ajuste linear por partes em arquiteturas neurais para garantir viés monotônico global, permitindo calibração granular e adaptativa que mitiga vieses sistemáticos e melhora a precisão preditiva e a consistência de classificação em sistemas de recomendação em larga escala.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

Este relatório técnico apresenta um sistema baseado em transformadores que avança o desempenho no ARC-AGI ao combinar inferência neural com priores sensíveis à estrutura e adaptação online, utilizando codificação compacta de tarefas, aumento de dados baseado em simetrias, treinamento no momento do teste (TTT) com LoRA e um pipeline de pontuação para alcançar generalização próxima ao nível humano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Este artigo demonstra que os atuais juízes baseados em LLM falham em medir de forma confiável a robustez adversarial devido a deslocamentos de distribuição que degradam seu desempenho a níveis próximos do acaso, revelando que muitas "vitórias" de ataques exploram essas insuficiências em vez de gerar conteúdo genuinamente prejudicial, e propõe novos benchmarks para avaliação mais precisa.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Este artigo propõe uma abordagem neurodinâmica em dupla escala temporal para resolver problemas de otimização com restrições conjuntas geométricas robustas à distribuição, demonstrando que redes neurais podem convergir para o ótimo global sem métodos convencionais e aplicando-se com sucesso em casos de otimização de formas e telecomunicações.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

Este artigo apresenta uma arquitetura de controle de ética por design que integra raciocínios éticos em mecanismos de aplicação ao longo do ciclo de vida da IA, utilizando uma estrutura de três portões (métricos, de governança e ecológicos) para traduzir compromissos normativos em controles operacionais testáveis e integráveis aos pipelines de MLOps.

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

O artigo apresenta o FuzzingRL, uma abordagem que combina fuzzing e ajuste fino por reforço adversarial para gerar automaticamente perguntas que exploram sistematicamente as vulnerabilidades de Modelos de Linguagem e Visão (VLMs), reduzindo significativamente sua precisão e demonstrando eficácia na transferência entre diferentes modelos.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

O artigo demonstra que a duplicação de dados é dependente da escala, evidenciando que, à medida que os modelos aumentam sua capacidade, documentos semanticamente equivalentes geram gradientes cada vez mais alinhados e causam colisões semânticas aceleradas, o que degrada o desempenho de modelos grandes e exige novas leis de escala para prever com precisão o impacto da unicidade limitada do corpus de pré-treinamento.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artigo apresenta uma abordagem sistemática para avaliar algoritmos de aprendizado por reforço multiagente na alocação de recursos em redes C-V2X, utilizando um conjunto de benchmarks e dados gerados por simulação para identificar que a robustez e a generalização das políticas em topologias veiculares diversas são os principais desafios, demonstrando também a superioridade de métodos ator-crítico sobre abordagens baseadas em valor.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Este artigo apresenta o "Two-Bridge Map Suite", um novo benchmark de código aberto para StarCraft II que preenche a lacuna entre o jogo completo e os mini-jogos ao isolar habilidades táticas essenciais como navegação e combate, permitindo pesquisas de aprendizado por reforço acessíveis e eficientes em termos computacionais.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

O artigo demonstra que, ao contrário de domínios com verificadores externos, estratégias de consenso baseadas em múltiplas amostras de modelos de linguagem não melhoram a veracidade em domínios sem verificação, pois os erros dos modelos são fortemente correlacionados e as agregações tendem a reforçar concepções errôneas compartilhadas em vez de identificar a verdade.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

O artigo apresenta o OptiRoulette, um meta-otimizador estocástico que seleciona dinamicamente regras de atualização durante o treinamento, demonstrando convergência mais rápida e confiável com ganhos significativos de precisão em múltiplos conjuntos de dados de classificação de imagens em comparação ao AdamW.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

O artigo propõe o framework Annealed Co-Generation (ACG), que substitui a modelagem conjunta de alta dimensão por modelos de difusão bivariados acoplados através de um processo de recozimento em três estágios, permitindo a geração coerente de variáveis multivariadas com menor custo computacional e desequilíbrio de dados, conforme demonstrado em tarefas de completamento de campos de fluxo e geração de anticorpos.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

O artigo apresenta o RACER, um método inovador de roteamento para grandes modelos de linguagem que formula a seleção como um problema de minimização de conjunto com controle de risco, permitindo a agregação de múltiplos modelos para melhorar a precisão e garantir limites rigorosos de erro em dados não vistos.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

O artigo apresenta o Evo, um modelo de linguagem de grande escala inovador que unifica as abordagens autoregressiva e de difusão em um único fluxo latente evolutivo, permitindo um equilíbrio adaptativo entre planejamento e refinamento para alcançar resultados de ponta em diversas tarefas com eficiência de inferência.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Este artigo propõe um novo framework de aprendizado de representação consciente da topologia, que utiliza modelos fundamentais específicos de domínio, tokenização de grafos e aprendizado por contraste com distilação de conhecimento para superar as limitações atuais e realizar previsões de interação zero-shot em Redes Biológicas Multiplex.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

O artigo apresenta o NAT (Not All Tokens Are Needed), um framework de aprendizado por reforço que otimiza o custo computacional ao atualizar a política apenas com um subconjunto de tokens gerados via reponderamento de Horvitz-Thompson, mantendo o desempenho em raciocínio matemático enquanto reduz significativamente o uso de memória e tempo de treinamento.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

← Anterior Próximo →