cs.LG artículos | Gist.Science

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

SPAARS es un marco de aprendizaje curricular para el aprendizaje por refuerzo offline-a-online que mejora la seguridad y la eficiencia de las muestras al explorar inicialmente en un espacio latente de baja dimensión y luego transferir el control al espacio de acciones crudo, superando así las limitaciones de rendimiento de los métodos basados en decodificadores.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Este artículo propone y evalúa cuatro mejoras al algoritmo de coincidencia espaciotemporal para el mapeo de trayectorias GPS en redes viales, logrando mayores eficiencias computacionales y precisión en entornos urbanos densos mediante el uso de datos reales de Milán.

Ali Yousefian, Arianna Burzacchi, Simone Vantini2026-03-11🤖 cs.LG

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Este trabajo demuestra que el diseño cuidadoso del Proceso de Decisión de Markov, especialmente mediante el uso de modelos de dinámica basados en la física, es crucial para cerrar la brecha sim-real y lograr un control exitoso en procesos industriales físicos.

Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck2026-03-11🤖 cs.LG

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Este artículo presenta un nuevo enfoque de evaluación de políticas fuera de línea en banditos contextuales que combina un método de ponderación no paramétrica con predicciones de recompensas para lograr estimaciones de valor con menor varianza y sesgo reducido en comparación con las técnicas existentes.

Rong J. B. Zhu2026-03-11🤖 cs.LG

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

El artículo presenta VMoER, un enfoque bayesiano escalable que integra la cuantificación de incertidumbre en las capas de Mezcla de Expertos (MoE) de los modelos fundacionales mediante la inferencia variacional en la etapa de enrutamiento, logrando una mejora significativa en la estabilidad, calibración y detección de datos fuera de distribución con un costo computacional marginal.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

Este artículo presenta tcNF, un marco novedoso de flujos normalizadores condicionados temporalmente que mejora la detección de anomalías en series temporales multivariadas al modelar con precisión las dependencias temporales y la incertidumbre mediante un enfoque autoregresivo.

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

El artículo presenta TrainDeeploy, un marco que habilita la primera canalización completa de entrenamiento y ajuste fino en el dispositivo para modelos Transformer y CNN en chips de ultra bajo consumo, logrando una adaptación eficiente en el extremo mediante estrategias como LoRA que reducen significativamente el uso de memoria y el volumen de transferencia de datos.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

El estudio demuestra que los modelos de lenguaje pueden adquirir subliminalmente preferencias de un modelo generador a través de parafraseos fieles, incluso cuando el contenido semántico es irrelevante o contradice explícitamente dicha preferencia, lo que revela una vulnerabilidad crítica en los pipelines de entrenamiento con datos sintéticos que no puede detectarse mediante inspección de contenido.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

El artículo presenta EDA, un marco eficiente en parámetros y datos que restaura el rendimiento de la decodificación especulativa en modelos de lenguaje ajustados mediante una arquitectura desacoplada, una estrategia de regeneración de datos y un mecanismo de selección de muestras, logrando así una adaptación rápida y de bajo costo sin necesidad de reentrenamiento completo.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

El artículo presenta BRACE, un algoritmo para problemas de banditos con incumplimiento que permite elegir entre optimizar el bienestar de las recomendaciones o el tratamiento, ofreciendo estimaciones de efectos estructurales certificados y válidos incluso en escenarios de identificación débil o heterogeneidad.

Nicolás Della Penna2026-03-11🤖 cs.LG

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este trabajo demuestra que el algoritmo de dualidad del espacio de estados de Mamba-2 puede implementarse completamente mediante primitivas estándar compiladas por XLA sin kernels personalizados, logrando una inferencia autoregresiva con caché $O(1)$ portátil y de alto rendimiento en CPU, GPU y TPU.

Cosmo Santoni2026-03-11🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

Este estudio analiza el aprendizaje de la estructura de redes de Markov y bayesianas mediante un oráculo de independencia condicional no fiable, demostrando que las redes de Markov pueden identificarse incluso con un número moderadamente exponencial de errores bajo ciertas condiciones de conectividad, mientras que las redes bayesianas no toleran ningún error para una identificación garantizada, y propone algoritmos para los casos en que la estructura es identificable.

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma2026-03-11🤖 cs.LG

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Este artículo presenta el algoritmo a-TMFG, una solución escalable que supera las limitaciones de memoria y tiempo del Triangulated Maximally Filtered Graph tradicional mediante el uso de grafos de vecinos más cercanos aproximados y la estimación de correlaciones bajo demanda para construir representaciones gráficas en conjuntos de datos masivos.

Lionel Yelibi2026-03-11🤖 cs.LG

An Optimal Control Approach To Transformer Training

Este artículo propone un enfoque de control óptimo riguroso para el entrenamiento de Transformers, modelando la arquitectura como un sistema de partículas controlado que se transforma en un proceso de decisión de Markov sobre medidas de probabilidad, lo que permite demostrar la existencia de políticas óptimas globales y ofrecer una alternativa robusta a los métodos basados en gradientes sin requerir suavidad ni convexidad.

Ka\u{g}an Akman, Naci Saldı, Serdar Yüksel2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

El artículo presenta SCDP, un enfoque que utiliza modelos de difusión y entrenamiento con observaciones mixtas para aprender locomoción de humanoides exclusivamente a partir de sensores a bordo, eliminando la necesidad de estimación de estado explícita y logrando un rendimiento robusto tanto en simulación como en un robot real.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Routing without Forgetting

El artículo presenta "Routing without Forgetting" (RwF), una arquitectura de transformador que aborda el aprendizaje continuo en línea mediante la generación dinámica de prompts a través de recuperación asociativa basada en energía, superando a los métodos existentes sin necesidad de identificadores de tarea explícitos ni optimización iterativa.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Este trabajo demuestra teórica y experimentalmente que el algoritmo Adam converge automáticamente y de forma lineal en polinomios altamente degenerados gracias a un mecanismo de desacoplamiento que amplifica la tasa de aprendizaje, superando así a los métodos tradicionales como el descenso de gradiente y el momentum en este tipo de funciones.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Este trabajo introduce una estrategia de recorte de parámetros basada en la divergencia de Rényi para estabilizar el aprendizaje en modelos de privacidad diferencial variacional no paramétrica, logrando simultáneamente garantías de privacidad más estrictas y un mejor rendimiento en tareas posteriores.

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

Este artículo caracteriza la capacidad de memorización de las redes neuronales profundas con activación ReLU, demostrando que el producto de los cuadrados de su ancho y profundidad es óptimo hasta factores logarítmicos para memorizar $N$ puntos de datos separados por una distancia $\delta$ .

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

← Anterior Siguiente →

cs.LG