cs.LG artigos | Gist.Science

Hindsight Credit Assignment for Long-Horizon LLM Agents

O artigo apresenta o HCAPO, um novo framework que integra atribuição de crédito retrospectiva para superar os desafios de aprendizado em tarefas de longo prazo de agentes LLM, superando métodos existentes como o GRPO em benchmarks complexos ao refinar a estimativa de valores e melhorar a eficiência exploratória.

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

Este artigo demonstra que qualquer função invariante sob um grupo agindo transitivamente em um espaço produto pode ser reduzida a uma invariância do subgrupo de isotropia agindo apenas no outro fator, permitindo assim a extensão dos Campos Neurais Equivariantes para ações grupais arbitrárias e espaços de condicionamento homogêneos, eliminando as principais restrições estruturais dos métodos existentes.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI

On the Formal Limits of Alignment Verification

Este artigo demonstra que é impossível criar um procedimento de verificação de alinhamento de IA que seja simultaneamente correto, geral e computacionalmente eficiente, estabelecendo um trilema fundamental que limita a certificação formal de sistemas de IA, embora garantias práticas ainda sejam viáveis ao relaxar uma dessas propriedades.

Ayushi Agarwal2026-03-11🤖 cs.LG

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

O artigo apresenta o SPREAD, um framework inovador para aprendizado de imitação vitalício que utiliza decomposição em valores singulares para preservar a geometria das representações de tarefas em subespaços de baixa dimensão e uma estratégia de destilação guiada por confiança, superando métodos existentes ao mitigar o esquecimento catastrófico e alcançar desempenho de ponta no benchmark LIBERO.

Kaushik Roy, Giovanni D'urso, Nicholas Lawrance, Brendan Tidd, Peyman Moghadam2026-03-11🤖 cs.LG

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

O artigo apresenta o Midicoth, um sistema de compressão sem perdas que aprimora a estimativa de probabilidade em modelos adaptativos online ao aplicar uma camada de "micro-difusão" baseada em árvores binárias para corrigir vieses de suavização em contextos esparsos.

Roberto Tacconelli2026-03-11🤖 cs.LG

Multi-level meta-reinforcement learning with skill-based curriculum

Este artigo apresenta um quadro de meta-aprendizado por reforço multinível que utiliza uma curricula baseada em habilidades para comprimir hierarquicamente processos de decisão de Markov, desacoplando subtarefas e facilitando a transferência de competências entre diferentes níveis e problemas.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

The Temporal Markov Transition Field

Este artigo apresenta o Campo de Transição de Markov Temporal (TMTF), uma extensão do método MTF que divide séries temporais em segmentos contíguos para estimar matrizes de transição locais, preservando assim a evolução dinâmica ao longo do tempo e superando as limitações de representação de regimes não estacionários do método global original.

Michael Leznik2026-03-11🤖 cs.LG

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

O artigo apresenta as bibliotecas de código aberto SoftJAX e SoftTorch, que fornecem implementações unificadas e completas de relaxações "suaves" diferenciáveis para substituir operações rígidas em JAX e PyTorch, permitindo o uso de gradientes informativos em otimização baseada em gradiente.

Anselm Paulus, A. René Geist, Vít Musil, Sebastian Hoffmann, Onur Beker, Georg Martius2026-03-11🤖 cs.LG

Are Expressive Encoders Necessary for Discrete Graph Generation?

O artigo introduz o GenGNN, um framework modular de passagem de mensagens que demonstra que backbones de redes neurais gráficas (GNNs) podem substituir arquiteturas mais complexas e caras, como transformers, na geração de grafos discretos, alcançando resultados competitivos em validade e velocidade de inferência.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

O artigo apresenta o MASEval, uma biblioteca independente de frameworks que preenche a lacuna de avaliação ao tratar sistemas de agentes LLM completos como unidade de análise, demonstrando que a escolha do framework impacta o desempenho tanto quanto a escolha do modelo.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models

Este artigo demonstra teoricamente e valida empiricamente que os modelos híbridos, ao combinar camadas de Transformers e modelos de espaço de estados, superam as limitações fundamentais de expressividade e eficiência dos modelos não híbridos, alcançando melhor desempenho com menos parâmetros e maior robustez.

John Cooper, Ilias Diakonikolas, Mingchen Ma, Frederic Sala2026-03-11🤖 cs.LG

APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model

O artigo apresenta o \textsc{applv}, um método que utiliza modelos Visão-Linguagem-Ação para prever e adaptar automaticamente os parâmetros de planejadores de navegação clássicos, superando as limitações de generalização e controle preciso de abordagens anteriores em ambientes restritos.

Yuanjie Lu, Beichen Wang, Zhengqi Wu, Yang Li, Xiaomin Lin, Chengzhi Mao, Xuesu Xiao2026-03-11🤖 cs.LG

Why Channel-Centric Models are not Enough to Predict End-to-End Performance in Private 5G: A Measurement Campaign and Case Study

Este estudo demonstra que modelos centrados apenas no canal, como simuladores de rastreamento de raios, falham em prever com precisão o desempenho de ponta a ponta em redes 5G privadas devido à superestimação das camadas espaciais MIMO, enquanto abordagens baseadas em dados, como regressão por processos gaussianos, oferecem previsões de throughput muito mais precisas ao aprender diretamente do comportamento real do sistema.

Nils Jörgensen2026-03-11🤖 cs.LG

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Este artigo apresenta o modelo FSbuHD, uma nova abordagem de seleção de características para sistemas de informação híbridos baseada na teoria de conjuntos fuzzy-rugosos que reformula o problema como uma otimização utilizando distâncias combinadas e opera em modos normal e otimista para superar desafios de eficiência e ruído em espaços de alta dimensão.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Este artigo apresenta uma ablação abrangente de nove famílias de limites para previsão seletiva com controle de risco, introduzindo o método "Transfer-Informed Betting" (TIB) que utiliza perfis de risco de domínios-fonte para obter limites mais apertados em cenários com escassez de dados, demonstrando ganhos significativos de cobertura em benchmarks como MASSIVE e NyayaBench.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

O artigo propõe o FedLECC, uma estratégia leve e guiada por clusters e perdas para a seleção de clientes em Aprendizado Federado, que melhora a precisão, reduz o número de rodadas de comunicação e diminui a sobrecarga geral em cenários de dados não-IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Quantifying Memorization and Privacy Risks in Genomic Language Models

Este artigo apresenta um quadro de avaliação de privacidade abrangente que integra múltiplos métodos para quantificar e auditar os riscos de memorização em Modelos de Linguagem Genômica, demonstrando que a exposição de dados sensíveis varia conforme a arquitetura e o regime de treinamento, exigindo assim uma abordagem de auditoria multifacetada.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman Ayday2026-03-11🤖 cs.LG

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Este artigo propõe um método totalmente diferenciável para descobrir Sub-redes de Loteria Forte (SLT) utilizando portas de Bernoulli relaxadas continuamente, permitindo a otimização eficiente de redes superparametrizadas com até 90% de esparsidade e perda mínima de precisão sem necessidade de treinamento de pesos ou estimadores de gradiente não diferenciáveis.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

O artigo apresenta o MedCBR, um framework de raciocínio baseado em conceitos que integra diretrizes clínicas e modelos de linguagem-vídeo para melhorar a interpretabilidade e a precisão no diagnóstico médico, gerando narrativas clínicas estruturadas que emulam o raciocínio de especialistas.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

Este artigo propõe um framework de aprendizado por reforço hierárquico que otimiza conjuntamente o ajuste de ângulos de inclinação de antenas e a estratégia de coleta de dados entre redes físicas e gêmeos digitais, visando maximizar as taxas de dados dos usuários enquanto reduz o atraso de comunicação em até 28,01%.

Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen2026-03-11🤖 cs.LG

← Anterior Próximo →