cs.LG artigos | Gist.Science

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Este estudo demonstra que a integração de scores de sentimento derivados de notícias em inglês e chinês, extraídos por modelos de linguagem (LLMs) ajustados como o Qwen3, com dados tabulares tradicionais, melhora significativamente a previsão de preços do alumínio e o desempenho econômico em mercados voláteis, superando modelos base apenas em dados numéricos.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artigo propõe um quadro unificado de modelos de mundo latente para a condução autónoma, estabelecendo uma taxonomia abrangente, identificando cinco mecanismos internos críticos, definindo métricas de avaliação de ciclo fechado e delineando desafios futuros para garantir sistemas robustos, generalizáveis e eficientes.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Este artigo identifica e prova teoricamente que o treinamento de políticas não mascaradas em ambientes com ações inválidas leva à supressão sistemática de ações válidas em estados não visitados devido ao compartilhamento de parâmetros, demonstrando que a classificação de viabilidade oferece uma solução eficaz que elimina essa falha sem a necessidade de máscaras de oráculo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Este trabalho apresenta uma abordagem baseada em dados para a previsão probabilística do fator de histerese em baterias de veículos elétricos com ânodos de silício-grafite, utilizando um framework de harmonização de dados e modelos de aprendizado profundo para melhorar a estimativa do estado de carga (SoC) com quantificação de incerteza e eficiência computacional.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

O artigo propõe o framework DCPO, que decouple os objetivos de raciocínio e calibração para resolver o conflito de gradientes inerente ao Aprendizado por Reforço com Recompensas Verificáveis (RLVR), permitindo que modelos de linguagem grandes mantenham alta precisão enquanto eliminam a superconfiança em respostas incorretas.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artigo propõe um método de regularização baseado na Probabilidade de Necessidade e Suficiência (PNS) para Aprendizagem Incremental de Classes, que utiliza geradores contrafactuais para mitigar colisões de características causadas por correlações espúrias intra e inter-tarefas, garantindo assim a completude causal e a separabilidade das representações.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

O RubiCap é um novo framework de aprendizado por reforço que utiliza rubricas escritas por LLMs para gerar sinais de recompensa estruturados e específicos, superando métodos supervisionados e anteriores de RL na geração de legendas densas de imagens e produzindo modelos de pré-treinamento mais robustos.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabalho propõe um framework de aumento de dados que aproveita a estrutura preservada em RTLs gerados por LLMs, mesmo quando funcionalmente imperfeitos, para treinar representações de netlist que superam a escassez de dados rotulados e generalizam bem para circuitos reais.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

O artigo propõe o GIAT, um novo modelo Transformer que integra priores geológicos ao mecanismo de atenção para melhorar a precisão, confiabilidade e interpretabilidade na identificação de litologia a partir de registros de poço.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Este artigo apresenta um protocolo aprimorado para o problema de especialistas distribuídos que minimiza o arrependimento e a comunicação ao calcular perdas baseadas na norma $\ell_p$ sobre múltiplos servidores.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabalho propõe um quadro de modelagem generativa baseada em física que incorpora a estocasticidade intrínseca do fluxo de tráfego através de um modelo Lighthill-Whitham-Richards com ruído browniano, permitindo a estimativa de distribuições de densidade, intervalos de credibilidade e medidas de risco de congestionamento.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

O artigo apresenta o Latent-DARM, um framework de comunicação em espaço latente que integra modelos de difusão discreta (para planejamento) e modelos autorregressivos (para execução), superando as limitações de interfaces baseadas em texto e alcançando alto desempenho em tarefas de raciocínio com uma fração mínima do orçamento de tokens.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este artigo relata uma tentativa de replicação do modelo BSRNN para separação de fontes musicais, destacando os custos de tempo e energia decorrentes da falta de código completo, propondo uma versão otimizada com desempenho superior e liberando seus recursos para promover a reprodutibilidade e práticas mais transparentes na comunidade.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

O artigo apresenta o $P^2$ GNN, uma técnica plug-and-play que utiliza dois conjuntos de protótipos para enriquecer o contexto global e mitigar ruídos nas vizinhanças locais de Redes Neurais em Grafos (GNNs), demonstrando desempenho superior em tarefas de classificação e recomendação de nós em diversos conjuntos de dados.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

O artigo apresenta o framework RAISE, argumentando que o avanço nas capacidades de raciocínio lógico dos modelos de linguagem atua como um mecanismo direto que impulsiona a consciência situacional e o engano estratégico, exigindo novas salvaguardas de segurança.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Este artigo apresenta um separador de sinais totalmente baseado em dados, que utiliza um tokenizador discreto modificado e um transformer treinado com perda de entropia cruzada para isolar sinais de interesse de interferências não gaussianas, alcançando desempenho superior e generalização zero-shot em misturas de radiofrequência e com potencial aplicação em outras áreas de sensoriamento científico.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este artigo investiga a emoção como um fator latente que molda a atenção e o raciocínio em modelos de linguagem, introduzindo o conjunto de dados AURA-QA e um framework de regularização emocional que demonstram melhorias consistentes na compreensão de leitura e robustez frente a mudanças de distribuição.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

O artigo apresenta o MM-Zero, um framework baseado em aprendizado por reforço que permite a auto-evolução de modelos de linguagem e visão (VLMs) a partir de zero dados, utilizando três papéis especializados (Propositor, Codificador e Solucionador) para gerar conceitos visuais, renderizá-los via código e realizar raciocínio multimodal sem necessidade de dados seminais.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Este artigo propõe o algoritmo \texttt{RQRE-OVI}, que utiliza aproximação linear de funções para calcular o Equilíbrio Quantal de Resposta Sensível ao Risco (RQRE) em jogos de Marko, oferecendo uma solução única, estável e robusta que supera as limitações de ineficiência computacional e fragilidade do Equilíbrio de Nash em espaços de estado grandes ou contínuos.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Este artigo apresenta a camada Test-Time Control (TTC), uma solução de hardware eficiente baseada em controle ótimo e LQR que é integrada a grandes modelos de linguagem para permitir o planejamento e raciocínio durante a inferência, superando significativamente o desempenho em tarefas matemáticas complexas sem a necessidade de treinamento adicional.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

← Anterior Próximo →

cs.LG