cs.LG artigos | Gist.Science

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Este artigo identifica e prova teoricamente que o treinamento de políticas não mascaradas em ambientes com ações inválidas leva à supressão sistemática de ações válidas em estados não visitados devido ao compartilhamento de parâmetros, demonstrando que a classificação de viabilidade oferece uma solução eficaz que elimina essa falha sem a necessidade de máscaras de oráculo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Este trabalho apresenta uma abordagem baseada em dados para a previsão probabilística do fator de histerese em baterias de veículos elétricos com ânodos de silício-grafite, utilizando um framework de harmonização de dados e modelos de aprendizado profundo para melhorar a estimativa do estado de carga (SoC) com quantificação de incerteza e eficiência computacional.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

O artigo propõe o framework DCPO, que decouple os objetivos de raciocínio e calibração para resolver o conflito de gradientes inerente ao Aprendizado por Reforço com Recompensas Verificáveis (RLVR), permitindo que modelos de linguagem grandes mantenham alta precisão enquanto eliminam a superconfiança em respostas incorretas.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artigo propõe um método de regularização baseado na Probabilidade de Necessidade e Suficiência (PNS) para Aprendizagem Incremental de Classes, que utiliza geradores contrafactuais para mitigar colisões de características causadas por correlações espúrias intra e inter-tarefas, garantindo assim a completude causal e a separabilidade das representações.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

O RubiCap é um novo framework de aprendizado por reforço que utiliza rubricas escritas por LLMs para gerar sinais de recompensa estruturados e específicos, superando métodos supervisionados e anteriores de RL na geração de legendas densas de imagens e produzindo modelos de pré-treinamento mais robustos.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabalho propõe um framework de aumento de dados que aproveita a estrutura preservada em RTLs gerados por LLMs, mesmo quando funcionalmente imperfeitos, para treinar representações de netlist que superam a escassez de dados rotulados e generalizam bem para circuitos reais.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

O artigo propõe o GIAT, um novo modelo Transformer que integra priores geológicos ao mecanismo de atenção para melhorar a precisão, confiabilidade e interpretabilidade na identificação de litologia a partir de registros de poço.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Este artigo apresenta um protocolo aprimorado para o problema de especialistas distribuídos que minimiza o arrependimento e a comunicação ao calcular perdas baseadas na norma $\ell_p$ sobre múltiplos servidores.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabalho propõe um quadro de modelagem generativa baseada em física que incorpora a estocasticidade intrínseca do fluxo de tráfego através de um modelo Lighthill-Whitham-Richards com ruído browniano, permitindo a estimativa de distribuições de densidade, intervalos de credibilidade e medidas de risco de congestionamento.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

O artigo apresenta o Latent-DARM, um framework de comunicação em espaço latente que integra modelos de difusão discreta (para planejamento) e modelos autorregressivos (para execução), superando as limitações de interfaces baseadas em texto e alcançando alto desempenho em tarefas de raciocínio com uma fração mínima do orçamento de tokens.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este artigo relata uma tentativa de replicação do modelo BSRNN para separação de fontes musicais, destacando os custos de tempo e energia decorrentes da falta de código completo, propondo uma versão otimizada com desempenho superior e liberando seus recursos para promover a reprodutibilidade e práticas mais transparentes na comunidade.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

O artigo apresenta o $P^2$ GNN, uma técnica plug-and-play que utiliza dois conjuntos de protótipos para enriquecer o contexto global e mitigar ruídos nas vizinhanças locais de Redes Neurais em Grafos (GNNs), demonstrando desempenho superior em tarefas de classificação e recomendação de nós em diversos conjuntos de dados.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

O artigo apresenta o framework RAISE, argumentando que o avanço nas capacidades de raciocínio lógico dos modelos de linguagem atua como um mecanismo direto que impulsiona a consciência situacional e o engano estratégico, exigindo novas salvaguardas de segurança.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Este artigo apresenta um separador de sinais totalmente baseado em dados, que utiliza um tokenizador discreto modificado e um transformer treinado com perda de entropia cruzada para isolar sinais de interesse de interferências não gaussianas, alcançando desempenho superior e generalização zero-shot em misturas de radiofrequência e com potencial aplicação em outras áreas de sensoriamento científico.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este artigo investiga a emoção como um fator latente que molda a atenção e o raciocínio em modelos de linguagem, introduzindo o conjunto de dados AURA-QA e um framework de regularização emocional que demonstram melhorias consistentes na compreensão de leitura e robustez frente a mudanças de distribuição.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

O artigo apresenta o MM-Zero, um framework baseado em aprendizado por reforço que permite a auto-evolução de modelos de linguagem e visão (VLMs) a partir de zero dados, utilizando três papéis especializados (Propositor, Codificador e Solucionador) para gerar conceitos visuais, renderizá-los via código e realizar raciocínio multimodal sem necessidade de dados seminais.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Este artigo propõe o algoritmo \texttt{RQRE-OVI}, que utiliza aproximação linear de funções para calcular o Equilíbrio Quantal de Resposta Sensível ao Risco (RQRE) em jogos de Marko, oferecendo uma solução única, estável e robusta que supera as limitações de ineficiência computacional e fragilidade do Equilíbrio de Nash em espaços de estado grandes ou contínuos.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Este artigo apresenta a camada Test-Time Control (TTC), uma solução de hardware eficiente baseada em controle ótimo e LQR que é integrada a grandes modelos de linguagem para permitir o planejamento e raciocínio durante a inferência, superando significativamente o desempenho em tarefas matemáticas complexas sem a necessidade de treinamento adicional.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Este artigo propõe um framework unificado de amostragem generativa, baseado na reversibilidade temporal e na minimização da discrepância máxima de média (MMD) entre trajetórias de Markov, que permite amostrar distribuições complexas em espaços contínuos, discretos ou híbridos sem depender de gradientes de pontuação ou relaxações contínuas, utilizando apenas avaliações de energia.

Lei Li, Zhen Wang, Lishuo Zhang2026-03-11🤖 cs.LG

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Este artigo propõe um método de treinamento que utiliza um prior de atenção sensível ao comprimento e um controlador de ganho adaptativo para melhorar a eficiência do raciocínio em modelos Transformer sem aumentar os custos computacionais durante a inferência.

Rian Atri2026-03-11🤖 cs.LG

← Anterior Próximo →

cs.LG