cs.LG artículos | Gist.Science

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

El artículo presenta In-Context RLVR, un método que utiliza el "Ganancia de Evidencia" derivada del aprendizaje en contexto para reponderar implícitamente las recompensas y priorizar trazas de razonamiento de alta calidad durante el entrenamiento, mejorando así tanto la precisión como la calidad del razonamiento en modelos de lenguaje.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Este artículo presenta el "pseudo-proyector", una modificación ligera inspirada en el paradigma multigrid que corrige las representaciones ocultas de los modelos basados en transformadores para reducir la sensibilidad al ruido y mejorar la dinámica de entrenamiento y la robustez sin alterar su arquitectura central.

Vitaly Bulgakov2026-03-11🤖 cs.AI

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Este artículo presenta un marco jerárquico novedoso de aprendizaje multi-tarea y multi-fidelidad basado en procesos gaussianos que unifica la similitud entre tareas y las características de los datos de diferentes fidelidades para mejorar la precisión y la eficiencia en el modelado sustituto de sistemas de fabricación.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Este artículo presenta HR-GAT, un modelo de red de atención gráfica jerárquica que utiliza datos geoespaciales para predecir la demanda de espectro con una precisión un 21% superior a la de modelos convencionales, abordando eficazmente los patrones espaciales complejos y la autocorrelación en cinco ciudades canadienses.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

El artículo presenta GAST, un método innovador de ajuste fino eficiente en parámetros que supera las limitaciones de los enfoques existentes al realizar simultáneamente una selección adaptativa de datos y capas mediante un alineamiento de gradientes, logrando así un rendimiento superior al reducir la redundancia informativa.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

El artículo presenta CarbonBench, el primer punto de referencia global que utiliza aprendizaje cero-shot para evaluar y estandarizar la escalabilidad de los flujos de carbono en ecosistemas no observados, integrando más de 1,3 millones de datos de 567 torres de flujo para mejorar la modelización climática y la contabilidad de carbono.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

El artículo presenta MSSR, un marco de repetición de experiencias que estima la fuerza de la memoria a nivel de muestra y programa ensayos en intervalos adaptativos para mitigar el olvido catastrófico y mantener una adaptación rápida durante el ajuste fino continuo de modelos de lenguaje grandes.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

El artículo presenta OptEMA, un nuevo optimizador basado en medias móviles exponenciales adaptativas que logra tasas de convergencia óptimas en el régimen de ruido cero sin requerir conocimiento previo de constantes de Lipschitz ni reconfiguración manual de hiperparámetros.

Ganzhao Yuan2026-03-11🤖 cs.LG

Generative Drifting is Secretly Score Matching: a Spectral and Variational Perspective

Este artículo demuestra teóricamente que el modelado generativo mediante deriva es equivalente al ajuste de puntuaciones (score matching) bajo un kernel gaussiano, estableciendo un marco variacional y espectral que explica la convergencia, justifica el uso de kernels laplacianos y la importancia del operador stop-gradient, mientras propone un nuevo esquema de annealing para acelerar el entrenamiento.

Erkan Turan, Maks Ovsjanikov2026-03-11🤖 cs.LG

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

El artículo presenta SignalMC-MED, un nuevo benchmark multimodal basado en 22,256 visitas con señales sincronizadas de ECG y PPG que evalúa modelos fundacionales de biosignales, demostrando que los modelos específicos del dominio superan a los generales, la fusión multimodal mejora los resultados y las características manuales siguen siendo valiosas.

Fredrik K. Gustafsson, Xiao Gu, Mattia Carletti, Patitapaban Palo, David W. Eyre, David A. Clifton2026-03-11🤖 cs.LG

When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

Este artículo presenta el Indicador de Sobreajuste-Subajuste (OUI) como una señal estructural temprana y eficiente que, al analizar los patrones de activación de las neuronas en PPO, permite discriminar con precisión entre tasas de aprendizaje óptimas e inestables mucho antes de completar el entrenamiento, diferenciando además los comportamientos ideales de las redes actor y crítico.

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí2026-03-11🤖 cs.AI

Towards a Neural Debugger for Python

Este trabajo introduce los "neural debuggers", modelos de lenguaje que emulan las funciones de los depuradores tradicionales permitiendo la ejecución interactiva paso a paso y la inferencia de estados, lo que sienta las bases para sistemas de codificación autónomos más avanzados.

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve2026-03-11🤖 cs.AI

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Este artículo propone una nueva familia de optimizadores basados en normas de operadores normalizadas (como MOGA) que garantizan una estabilidad independiente del ancho de la red y permiten una transferencia efectiva de hiperparámetros, superando las limitaciones de métodos existentes como AdamW y Muon mediante una perspectiva geométrica de descenso de gradiente.

Ruihan Xu, Jiajin Li, Yiping Lu2026-03-11🤖 cs.LG

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

El paper presenta C2FMAE, un autoencoder enmascarado de aprendizaje auto-supervisado que resuelve la tensión entre el aprendizaje de semántica global y detalles locales mediante un enfoque jerárquico de tres niveles (semántico, de instancia y píxel) con un decodificador en cascada y un currículo de enmascaramiento progresivo, logrando mejoras significativas en tareas de visión por computadora.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

Think Before You Lie: How Reasoning Improves Honesty

El estudio demuestra que, a diferencia de los humanos, el razonamiento en los modelos de lenguaje grandes aumenta consistentemente la honestidad al navegar por un espacio de representación donde las respuestas engañosas son inestables y las honestas son más robustas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Este artículo demuestra que, en escenarios realistas con características correlacionadas, la superposición en redes neuronales puede aprovechar la interferencia constructiva mediante la organización de características según sus patrones de co-activación, lo que genera estructuras semánticas y cíclicas que no se explican mediante el modelo tradicional de superposición basado en características no correlacionadas.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Task Aware Modulation Using Representation Learning for Upsaling of Terrestrial Carbon Fluxes

El artículo presenta TAM-RL, un marco que combina el aprendizaje de representaciones espaciotemporales con restricciones físicas derivadas del balance de carbono para mejorar significativamente la precisión y la generalización en la extrapolación de flujos de carbono terrestres a escala global.

Aleksei Rozanov, Arvind Renganathan, Vipin Kumar2026-03-11🤖 cs.LG

Online Neural Networks for Change-Point Detection

Este artículo presenta dos algoritmos de detección de puntos de cambio basados en redes neuronales y aprendizaje en línea que, al demostrar complejidad computacional lineal y convergencia a soluciones óptimas, superan a los métodos existentes en diversos conjuntos de datos sintéticos y reales.

Mikhail Hushchyn, Kenenbek Arzymatov, Denis Derkach2026-03-10🤖 cs.LG

Accounting for shared covariates in semi-parametric Bayesian additive regression trees

Los autores proponen una extensión de los modelos semi-paramétricos basados en árboles de regresión bayesianos aditivos (BART) que permite compartir covariables entre los componentes paramétrico y no paramétrico mediante la modificación de las operaciones de generación de árboles, lo que resuelve problemas de no identificabilidad y sesgo mientras mejora la interpretación de efectos principales e interacciones complejas.

Estevão B. Prado, Andrew C. Parnell, Keefe Murphy + 3 more2026-03-10🤖 cs.LG

A White-Box SVM Framework and its Swarm-Based Optimization for Supervision of Toothed Milling Cutter through Characterization of Spindle Vibrations

Este artículo presenta un marco de máquina de vectores de soporte (SVM) de caja blanca optimizado mediante algoritmos de enjambre para la supervisión en tiempo real del desgaste de fresas dentadas mediante la caracterización de las vibraciones del husillo.

Tejas Y. Deo, B. B. Deshmukh, Keshav H. Jatakar, Kamlesh M. Chhajed, S. S. Pardeshi, R. Jegadeeshwaran, Apoorva N. Khairnar, Hrushikesh S. Khade, A. D. Patange2026-03-10🤖 cs.LG

← Anterior Siguiente →