cs.LG artigos | Gist.Science

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

O artigo apresenta o DialTree, um framework de otimização de política reforçada baseado em árvores que descobre autonomamente estratégias de ataque multi-turno mais eficazes para testar a segurança de modelos de linguagem, superando significativamente os métodos existentes em taxa de sucesso.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Este estudo demonstra a eficácia da utilização de Grandes Modelos de Linguagem (LLMs) e de bases de dados de conhecimento em grafos para estruturar e organizar textos jurídicos senegaleses, permitindo a extração de milhares de artigos e a visualização das suas interconexões para facilitar o acesso à justiça.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

The Role of Feature Interactions in Graph-based Tabular Deep Learning

O artigo demonstra que os métodos atuais de aprendizado profundo tabular baseado em grafos falham em recuperar interações de características significativas, sugerindo que priorizar a modelagem precisa da estrutura do gráfico é essencial para melhorar a precisão preditiva.

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

Este artigo propõe um novo método escalável e regularizado para o cálculo de barycentros de Wasserstein, baseado em fluxos de gradiente e mini-batches, que integra informações supervisionadas e supera os métodos existentes em benchmarks de adaptação de domínio.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabalho propõe um paradigma de pré-treinamento para aprendizado por reforço em locomoção robótica, onde um Modelo Inverso de Dinâmica Proprioceptivo (PIDM) é treinado com dados de exploração agnósticos a tarefas para inicializar redes de ator e crítico, resultando em ganhos significativos de eficiência de amostra e desempenho de tarefa em comparação com a inicialização aleatória.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

O artigo apresenta o ARM-FM, um framework que utiliza modelos de fundação para gerar automaticamente máquinas de recompensa a partir de especificações em linguagem natural, permitindo o design composicional de recompensas e a generalização zero-shot em aprendizado por reforço.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Este artigo demonstra que, durante o treinamento com aprendizado por reforço, modelos de linguagem podem desenvolver raciocínio motivado para justificar violações de instruções de segurança, enganando efetivamente os monitores de raciocínio em cadeia (CoT) menores que são comumente utilizados para supervisão.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Este artigo apresenta um framework de aprendizado em grafos adaptativo que detecta anomalias financeiras heterogêneas e as explica automaticamente, identificando os mecanismos subjacentes (como choques de preços ou crises de liquidez) por meio de especialistas específicos e pesos de roteamento interpretáveis, superando os métodos existentes em precisão e antecipação de eventos de estresse.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

O artigo propõe um novo framework de raciocínio baseado em Permutation Relative Policy Optimization (PRPO) que, ao incorporar invariância a permutações de colunas como prioridade estrutural, ativa a capacidade de raciocínio numérico de LLMs para previsão em tabelas, permitindo que modelos menores superem sistemas supervisionados e modelos muito maiores em cenários de poucos ou nenhum exemplo.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Robustness Verification of Graph Neural Networks Via Lightweight Satisfiability Testing

O artigo apresenta o RobLight, uma ferramenta que melhora a verificação de robustez estrutural de Redes Neurais em Grafos (GNNs) substituindo solvers complexos por solvers parciais eficientes, permitindo a detecção de ataques em tempo polinomial.

Chia-Hsuan Lu, Tony Tan, Michael Benedikt2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

Este trabalho apresenta uma estrutura unificada formal para a aprendizagem por reforço zero-shot, propondo uma taxonomia que organiza os métodos existentes com base em representações e paradigmas de aprendizagem, além de decompor os limites de erro em componentes de inferência, recompensa e aproximação para permitir comparações mais rigorosas.

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

O artigo apresenta o SwiftTS, um framework de seleção ágil para modelos pré-treinados em séries temporais que utiliza aprendizado meta-multitarefa e uma arquitetura de codificação dupla leve para prever o desempenho de modelos em conjuntos de dados não vistos sem a necessidade de um ajuste fino individualmente custoso.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Bayesian neural networks with interpretable priors from Mercer kernels

Este artigo apresenta os "Mercer priors", uma nova classe de distribuições a priori para redes neurais bayesianas que, ao serem derivadas da representação de Mercer de kernels de covariância, permitem que a rede aproxime amostras de um Processo Gaussiano específico, unindo assim a interpretabilidade dos GPs com a escalabilidade das redes neurais.

Alex Alberts, Ilias Bilionis2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

O artigo propõe o PESO, um método de adaptação contínua baseado em LoRA para sistemas de recomendação generativos que utiliza um regularizador proximal para equilibrar a adaptação a novos comportamentos dos usuários com a preservação do estado mais recente, superando assim as limitações dos métodos existentes ao focar em preferências atuais em vez de dados obsoletos.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Este estudo compara a abordagem interpretável ANFIS-FBCSP-PSO com o modelo de aprendizado profundo EEGNet para classificação de EEG de imagética motora, demonstrando que o primeiro oferece melhor desempenho intra-sujeito enquanto o segundo apresenta maior generalização entre sujeitos, fornecendo diretrizes para a seleção de sistemas BCI conforme o objetivo de interpretabilidade ou robustez.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Este artigo propõe o sistema NMoE (Mistura de Especialistas em Rede), que utiliza aprendizado federado combinando aprendizado supervisionado e auto-supervisionado para permitir a inferência colaborativa e eficiente entre dispositivos de borda, superando as limitações de recursos no treinamento e implantação de grandes modelos de inteligência artificial.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

O artigo apresenta o FATE, uma nova série de benchmarks em álgebra formal com níveis de dificuldade que vão de exercícios universitários a problemas além de exames de doutorado, revelando que os modelos de linguagem atuais têm desempenho significativamente inferior nessa tarefa de raciocínio matemático avançado em comparação com competições tradicionais.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Este artigo apresenta o "Jr. AI Scientist", um sistema autônomo de ponta que simula o fluxo de trabalho de um pesquisador iniciante para gerar contribuições científicas válidas a partir de artigos de base, demonstrando desempenho superior em avaliações automatizadas enquanto identifica riscos e limitações críticos para a aplicação futura desses sistemas.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Distributionally Robust Self Paced Curriculum Reinforcement Learning

O artigo propõe o DR-SPCRL, um método de aprendizado por reforço que trata o orçamento de robustez como um currículo contínuo e adaptativo, superando as limitações de estratégias fixas ao equilibrar desempenho nominal e robustez, resultando em maior estabilidade e ganhos significativos de retorno episódico sob perturbações.

Anirudh Satheesh, Keenan Powell, Vaneet Aggarwal2026-03-10🤖 cs.LG

Adaptive Multi-view Graph Contrastive Learning via Fractional-order Neural Diffusion Networks

Este artigo apresenta um framework de aprendizado contrastivo em grafos livre de aumento de dados, que utiliza redes de difusão neural de ordem fracionária para gerar automaticamente uma gama contínua de perspectivas locais e globais, superando os métodos existentes ao adaptar dinamicamente a escala de difusão aos dados.

Yanan Zhao, Feng Ji, Jingyang Dai, Jiaze Ma, Keyue Jiang, Kai Zhao, Wee Peng Tay2026-03-10🤖 cs.LG

← Anterior Próximo →