cs.LG artigos | Gist.Science

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

O artigo propõe o "In-Context RLVR", um método que utiliza a capacidade de aprendizado em contexto do próprio modelo para medir a utilidade das demonstrações e reponderar implicitamente as recompensas, priorizando traços de raciocínio de alta qualidade e melhorando assim tanto a precisão quanto a qualidade do raciocínio em benchmarks matemáticos.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Este artigo apresenta o "pseudo-projetor", uma modificação leve inspirada no paradigma multigrid que atua como um corretor de representações ocultas para reduzir a sensibilidade ao ruído e melhorar a dinâmica de treinamento e a robustez em modelos baseados em transformers, sem alterar sua arquitetura central.

Vitaly Bulgakov2026-03-11🤖 cs.AI

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Este artigo apresenta um novo framework hierárquico de aprendizado multi-tarefa e multi-fidelidade baseado em processos gaussianos que unifica a exploração de similaridades entre tarefas e a heterogeneidade dos dados para criar modelos substitutos mais precisos e eficientes em termos de dados para sistemas de manufatura.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Este artigo apresenta o HR-GAT, um modelo de rede de atenção hierárquica baseado em grafos que utiliza dados geoespaciais para prever a demanda de espectro com 21% mais precisão que modelos existentes, superando desafios de autocorrelação espacial em cinco cidades canadenses.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

O artigo apresenta o GAST, um método inovador de ajuste fino eficiente em parâmetros que otimiza simultaneamente a seleção de dados e de camadas em modelos de linguagem grandes, superando as abordagens existentes ao adaptar dinamicamente os pontos de dados mais impactantes para cada camada específica.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

O artigo apresenta o CarbonBench, o primeiro benchmark global padronizado que utiliza mais de 1,3 milhão de observações de fluxos de carbono para avaliar e comparar rigorosamente métodos de aprendizado zero-shot na generalização espacial de modelos de troca de carbono terrestre entre diferentes ecossistemas e regimes climáticos.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

O artigo propõe o MSSR, um framework de replay adaptativo que estima a força de memória em nível de amostra e agenda a reutilização de dados em intervalos dinâmicos para mitigar o esquecimento catastrófico durante o ajuste contínuo de grandes modelos de linguagem, superando os métodos existentes em eficiência e desempenho.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

O artigo apresenta o OptEMA, um otimizador adaptativo baseado em Média Móvel Exponencial que, ao eliminar a necessidade de constantes de Lipschitz e parâmetros pré-definidos, garante taxas de convergência quase ótimas no regime sem ruído e adaptativas ao nível de ruído sob condições padrão de descida de gradiente estocástica.

Ganzhao Yuan2026-03-11🤖 cs.LG

Generative Drifting is Secretly Score Matching: a Spectral and Variational Perspective

Este artigo estabelece que a modelagem generativa via derivação (drifting) é teoricamente equivalente ao *score matching*, revelando suas bases variacionais e espectrais para explicar limitações de kernels, propor um novo esquema de annealing de banda e justificar a necessidade do operador *stop-gradient* para treinamento estável.

Erkan Turan, Maks Ovsjanikov2026-03-11🤖 cs.LG

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

O artigo apresenta o SignalMC-MED, um novo benchmark multimodal baseado em dados sincronizados de ECG e PPG de longa duração para avaliar modelos fundamentais de biosinais, demonstrando que a fusão multimodal e o uso de sinais completos superam abordagens unimodais e segmentos curtos, enquanto características manuais de ECG oferecem um forte baseline complementar.

Fredrik K. Gustafsson, Xiao Gu, Mattia Carletti, Patitapaban Palo, David W. Eyre, David A. Clifton2026-03-11🤖 cs.LG

When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

Este artigo apresenta o Indicador de Superajuste-Subajuste (OUI) como um sinal estrutural precoce e eficiente para identificar taxas de aprendizado ideais em algoritmos PPO, demonstrando que a análise das ativações neuronais permite descartar execuções promissoras muito antes do término do treinamento com maior precisão do que métricas tradicionais.

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí2026-03-11🤖 cs.AI

Towards a Neural Debugger for Python

Este trabalho apresenta os "neural debuggers", modelos de linguagem que emulam depuradores tradicionais permitindo controle interativo sobre a execução de código Python, superando as limitações dos interpretadores neurais existentes e estabelecendo as bases para sistemas de codificação autônomos mais avançados.

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve2026-03-11🤖 cs.AI

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Este artigo propõe uma nova família de normas de operador normalizadas por média que permitem o controle independente da largura das constantes de Lipschitz e suavidade, resultando no otimizador MOGA, que garante transferência estável de taxas de aprendizado entre diferentes larguras de modelo e supera o Muon em regimes de baixa perda e grandes tokens.

Ruihan Xu, Jiajin Li, Yiping Lu2026-03-11🤖 cs.LG

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

O artigo apresenta o C2FMAE, um autoencoder mascarado de coarse-to-fine que resolve a tensão entre aprendizado de semântica global e detalhes locais ao aprender representações visuais hierárquicas através de um decodificador em cascata e um currículo de mascaramento progressivo, resultando em ganhos significativos em tarefas de visão computacional.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

Think Before You Lie: How Reasoning Improves Honesty

O estudo demonstra que, ao contrário do comportamento humano, o raciocínio em modelos de linguagem aumenta consistentemente a honestidade, não apenas pelo conteúdo do pensamento, mas porque o processo de geração de tokens deliberativos navega por um espaço representacional onde as respostas enganosas são metaestáveis e mais facilmente destabilizadas do que as honestas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Este artigo demonstra que, em cenários de dados realistas com características correlacionadas, a superposição em redes neurais pode organizar-se de forma a transformar interferências em efeitos construtivos, gerando agrupamentos semânticos e estruturas cíclicas que não são explicadas pelo modelo tradicional de superposição baseado em características não correlacionadas.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Task Aware Modulation Using Representation Learning for Upsaling of Terrestrial Carbon Fluxes

O artigo apresenta o framework TAM-RL, que combina aprendizado de representação espaço-temporal com restrições físicas baseadas na equação de balanço de carbono para melhorar significativamente a precisão e a generalização da escala global de fluxos de carbono terrestres.

Aleksei Rozanov, Arvind Renganathan, Vipin Kumar2026-03-11🤖 cs.LG

Online Neural Networks for Change-Point Detection

Este artigo apresenta duas abordagens de detecção de pontos de mudança baseadas em redes neurais e aprendizado online, que possuem complexidade computacional linear, superam os métodos existentes em diversos conjuntos de dados e são provadas convergir para soluções ótimas.

Mikhail Hushchyn, Kenenbek Arzymatov, Denis Derkach2026-03-10🤖 cs.LG

Accounting for shared covariates in semi-parametric Bayesian additive regression trees

Os autores propõem uma extensão do modelo semi-paramétrico BART que permite covariáveis compartilhadas entre os componentes linear e não paramétrico, resolvendo problemas de não identificabilidade e viés para capturar interações complexas, com validação em simulações e dados de avaliação educacional internacional.

Estevão B. Prado, Andrew C. Parnell, Keefe Murphy + 3 more2026-03-10🤖 cs.LG

A White-Box SVM Framework and its Swarm-Based Optimization for Supervision of Toothed Milling Cutter through Characterization of Spindle Vibrations

Este artigo apresenta um framework de Máquina de Vetores de Suporte (SVM) de caixa branca otimizado por algoritmos de enxame para a supervisão em tempo real de fresas dentadas, utilizando características de vibrações do eixo e seleção de recursos para monitorar falhas e desgaste das ferramentas.

Tejas Y. Deo, B. B. Deshmukh, Keshav H. Jatakar, Kamlesh M. Chhajed, S. S. Pardeshi, R. Jegadeeshwaran, Apoorva N. Khairnar, Hrushikesh S. Khade, A. D. Patange2026-03-10🤖 cs.LG

← Anterior Próximo →