cs.LG artigos | Gist.Science

Learning Adaptive LLM Decoding

O artigo propõe o uso de adaptadores de decodificação leves treinados por aprendizado por reforço para selecionar dinamicamente estratégias de amostragem em modelos de linguagem grandes, melhorando significativamente a precisão em tarefas de matemática e codificação sob orçamentos de computação fixos sem a necessidade de ajuste fino do modelo principal.

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Este artigo verifica que observadores persistentes em substratos de hipergrafos satisfazem o Teorema do Bom Regulador de Conant-Ashby, demonstrando que a descida de gradiente natural é a regra de aprendizado admissível e derivando um parâmetro de regime específico para o framework de Vanchurin, embora essa previsão seja fortemente dependente do modelo escolhido.

Max Zhuravlev2026-03-11🤖 cs.LG

Exclusive Self Attention

O artigo apresenta a Atenção Exclusiva (XSA), uma modificação simples da atenção auto-referencial que restringe a atenção a informações ortogonais ao próprio vetor do token, melhorando consistentemente o desempenho de modelagem de sequências em Transformers, especialmente em contextos longos.

Shuangfei Zhai2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Este artigo propõe um framework de Computação de Borda Veicular (VEC) semântica assistida por Superfícies Inteligentes Reconfiguráveis (RIS) que utiliza uma otimização híbrida baseada em PPO e Programação Linear para reduzir significativamente a latência em ambientes dinâmicos de Internet Veicular.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Este estudo demonstra que a integração de scores de sentimento derivados de notícias em inglês e chinês, extraídos por modelos de linguagem (LLMs) ajustados como o Qwen3, com dados tabulares tradicionais, melhora significativamente a previsão de preços do alumínio e o desempenho econômico em mercados voláteis, superando modelos base apenas em dados numéricos.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artigo propõe um quadro unificado de modelos de mundo latente para a condução autónoma, estabelecendo uma taxonomia abrangente, identificando cinco mecanismos internos críticos, definindo métricas de avaliação de ciclo fechado e delineando desafios futuros para garantir sistemas robustos, generalizáveis e eficientes.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Este artigo identifica e prova teoricamente que o treinamento de políticas não mascaradas em ambientes com ações inválidas leva à supressão sistemática de ações válidas em estados não visitados devido ao compartilhamento de parâmetros, demonstrando que a classificação de viabilidade oferece uma solução eficaz que elimina essa falha sem a necessidade de máscaras de oráculo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Este trabalho apresenta uma abordagem baseada em dados para a previsão probabilística do fator de histerese em baterias de veículos elétricos com ânodos de silício-grafite, utilizando um framework de harmonização de dados e modelos de aprendizado profundo para melhorar a estimativa do estado de carga (SoC) com quantificação de incerteza e eficiência computacional.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

O artigo propõe o framework DCPO, que decouple os objetivos de raciocínio e calibração para resolver o conflito de gradientes inerente ao Aprendizado por Reforço com Recompensas Verificáveis (RLVR), permitindo que modelos de linguagem grandes mantenham alta precisão enquanto eliminam a superconfiança em respostas incorretas.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artigo propõe um método de regularização baseado na Probabilidade de Necessidade e Suficiência (PNS) para Aprendizagem Incremental de Classes, que utiliza geradores contrafactuais para mitigar colisões de características causadas por correlações espúrias intra e inter-tarefas, garantindo assim a completude causal e a separabilidade das representações.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

O RubiCap é um novo framework de aprendizado por reforço que utiliza rubricas escritas por LLMs para gerar sinais de recompensa estruturados e específicos, superando métodos supervisionados e anteriores de RL na geração de legendas densas de imagens e produzindo modelos de pré-treinamento mais robustos.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabalho propõe um framework de aumento de dados que aproveita a estrutura preservada em RTLs gerados por LLMs, mesmo quando funcionalmente imperfeitos, para treinar representações de netlist que superam a escassez de dados rotulados e generalizam bem para circuitos reais.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

O artigo propõe o GIAT, um novo modelo Transformer que integra priores geológicos ao mecanismo de atenção para melhorar a precisão, confiabilidade e interpretabilidade na identificação de litologia a partir de registros de poço.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Este artigo apresenta um protocolo aprimorado para o problema de especialistas distribuídos que minimiza o arrependimento e a comunicação ao calcular perdas baseadas na norma $\ell_p$ sobre múltiplos servidores.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabalho propõe um quadro de modelagem generativa baseada em física que incorpora a estocasticidade intrínseca do fluxo de tráfego através de um modelo Lighthill-Whitham-Richards com ruído browniano, permitindo a estimativa de distribuições de densidade, intervalos de credibilidade e medidas de risco de congestionamento.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

O artigo apresenta o Latent-DARM, um framework de comunicação em espaço latente que integra modelos de difusão discreta (para planejamento) e modelos autorregressivos (para execução), superando as limitações de interfaces baseadas em texto e alcançando alto desempenho em tarefas de raciocínio com uma fração mínima do orçamento de tokens.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este artigo relata uma tentativa de replicação do modelo BSRNN para separação de fontes musicais, destacando os custos de tempo e energia decorrentes da falta de código completo, propondo uma versão otimizada com desempenho superior e liberando seus recursos para promover a reprodutibilidade e práticas mais transparentes na comunidade.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

O artigo apresenta o $P^2$ GNN, uma técnica plug-and-play que utiliza dois conjuntos de protótipos para enriquecer o contexto global e mitigar ruídos nas vizinhanças locais de Redes Neurais em Grafos (GNNs), demonstrando desempenho superior em tarefas de classificação e recomendação de nós em diversos conjuntos de dados.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

O artigo apresenta o framework RAISE, argumentando que o avanço nas capacidades de raciocínio lógico dos modelos de linguagem atua como um mecanismo direto que impulsiona a consciência situacional e o engano estratégico, exigindo novas salvaguardas de segurança.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Este artigo apresenta um separador de sinais totalmente baseado em dados, que utiliza um tokenizador discreto modificado e um transformer treinado com perda de entropia cruzada para isolar sinais de interesse de interferências não gaussianas, alcançando desempenho superior e generalização zero-shot em misturas de radiofrequência e com potencial aplicação em outras áreas de sensoriamento científico.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

← Anterior Próximo →

cs.LG