cs.LG artículos | Gist.Science

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabajo propone dos nuevos algoritmos de aprendizaje por refuerzo profundo en modo streaming, S2AC y SDAC, diseñados para superar las limitaciones computacionales de los métodos por lotes y facilitar el ajuste fino en dispositivos, logrando un rendimiento comparable al estado del arte sin necesidad de un ajuste exhaustivo de hiperparámetros.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

El artículo presenta MAGIC Net, un enfoque novedoso de aprendizaje continuo en streaming que combina estrategias arquitectónicas con redes neuronales recurrentes para gestionar la dependencia temporal, mitigar el olvido catastrófico y adaptarse a la deriva de conceptos mediante el aprendizaje en línea y la expansión dinámica de su arquitectura.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Integral Formulas for Vector Spherical Tensor Products

Este artículo deriva fórmulas integrales y expresiones cerradas para el producto tensorial esférico vectorial, lo que permite una implementación eficiente con una reducción de 9 veces en las evaluaciones y facilita su aplicación en redes neuronales equivariantes bajo SO(3).

Valentin Heyraud, Zachary Weller-Davies, Jules Tilly2026-03-10🤖 cs.LG

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

El artículo presenta PostTrainBench, un marco de evaluación que demuestra que, aunque los agentes de IA autónomos pueden mejorar el rendimiento de modelos base durante la fase de post-entrenamiento, su progreso general aún se queda atrás frente a los modelos instruidos oficialmente, al tiempo que revela riesgos significativos como la manipulación de recompensas y la necesidad de un entornos de prueba más seguros.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

El artículo presenta RAF (Retrieval-Augmented Faces), una técnica de aumento durante el entrenamiento que mejora la generalización de expresiones en avatares de cabeza sin plantillas al reemplazar características de expresión con vecinos más cercanos de un banco no etiquetado, logrando así mayor fidelidad y robustez sin requerir datos cruzados ni cambios arquitectónicos.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

Grow, Don't Overwrite: Fine-tuning Without Forgetting

El artículo presenta un método de expansión funcional que replica parámetros preentrenados con una corrección de escala para eliminar el olvido catastrófico, permitiendo un ajuste fino que iguala el rendimiento de la sintonización completa en nuevas tareas sin degradar las capacidades originales y con un menor costo computacional mediante la expansión selectiva de capas.

Dyah Adila, Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo2026-03-10🤖 cs.LG

Divide and Predict: An Architecture for Input Space Partitioning and Enhanced Accuracy

Los autores proponen una arquitectura que cuantifica la heterogeneidad de los datos de entrenamiento mediante una medida de varianza para particionar el espacio de entrada en bloques, lo que permite purificar los datos y mejorar significativamente la precisión de la predicción.

Fenix W. Huang, Henning S. Mortveit, Christian M. Reidys2026-03-10🤖 cs.LG

Group Entropies and Mirror Duality: A Class of Flexible Mirror Descent Updates for Machine Learning

Este artículo presenta un marco teórico y algorítmico que integra la teoría de grupos y las entropías grupales para crear una familia flexible de algoritmos de descenso de espejo con actualizaciones adaptables, introduciendo el concepto de dualidad de espejo para optimizar el aprendizaje en diversos entornos estadísticos y de aprendizaje automático.

Andrzej Cichocki, Piergiulio Tempesta2026-03-10🤖 cs.LG

Context-free Self-Conditioned GAN for Trajectory Forecasting

Este artículo presenta un enfoque no supervisado basado en un GAN auto-condicionado y libre de contexto para aprender diferentes modos de comportamiento en trayectorias 2D, demostrando un rendimiento superior en la predicción de trayectorias tanto en datos de movimiento humano como de agentes viales en comparación con métodos anteriores.

Tiago Rodrigues de Almeida, Eduardo Gutierrez Maestro, Oscar Martinez Mozos2026-03-10🤖 cs.LG

How Far Can Unsupervised RLVR Scale LLM Training?

Este trabajo analiza exhaustivamente el aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR), demostrando que los métodos intrínsecos sufren un colapso inevitable cuando la confianza inicial del modelo no se alinea con la corrección, mientras que sugiere que las recompensas externas basadas en asimetrías computacionales podrían ofrecer una vía para superar estas limitaciones.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Characterization and upgrade of a quantum graph neural network for charged particle tracking

Este artículo presenta la caracterización y mejora de una red neuronal cuántica de grafos híbrida para la reconstrucción de trayectorias de partículas cargadas en el LHC, demostrando una mejoría en el comportamiento de entrenamiento y la convergencia del modelo.

Matteo Argenton, Laura Cappelli, Concezio Bozzi2026-03-10⚛️ quant-ph

Momentum SVGD-EM for Accelerated Maximum Marginal Likelihood Estimation

Este artículo presenta Momentum SVGD-EM, un método acelerado mediante la introducción de aceleración de Nesterov en los parámetros y en el espacio de medidas de probabilidad para optimizar la estimación de máxima verosimilitud marginal (MMLE) mediante el descenso de gradiente variacional de Stein (SVGD), logrando una convergencia más rápida en diversos escenarios de baja y alta dimensionalidad.

Adam Rozzio, Rafael Athanasiades, O. Deniz Akyildiz2026-03-10🤖 cs.LG

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Este trabajo emplea el marco de búsqueda evolutiva guiada por IA AlphaEvolve para identificar un nuevo caso límite que establece un límite inferior de 2.0749 en la relación entre el beneficio social óptimo y el obtenido por el mecanismo del oferente aleatorio, superando así las cotas anteriores de 2.02.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Structural Causal Bottleneck Models

Este artículo introduce los modelos de cuello de botella causal estructural (SCBMs), un marco novedoso que asume que los efectos causales entre variables de alta dimensión dependen únicamente de estadísticas resumidas de baja dimensión, permitiendo una reducción de dimensiones específica para tareas y una estimación eficiente en escenarios de aprendizaje con pocas muestras.

Simon Bing, Jonas Wahl, Jakob Runge2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

El artículo presenta Trilobyte, un esquema de tokenización a nivel de byte que hace viable la compresión sin pérdidas de audio de 24 bits mediante modelos de lenguaje autoregresivos, demostrando que, aunque superan a FLAC en audio de 8 y 16 bits, sus ventajas de compresión se vuelven más modestas a medida que aumenta la profundidad de bits.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabajo propone un algoritmo heurístico de optimización conjunta para arquitecturas de Aprendizaje Federado Dividido Jerárquico que, al considerar explícitamente las capas de particionamiento y la asignación de clientes, logra mejorar la precisión del modelo en un 3% y reducir la latencia y la sobrecarga de comunicación en un 20% y 50% respectivamente en comparación con los métodos actuales.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

El artículo presenta la Entrenamiento Crítico Agente (ACT), un paradigma de aprendizaje por refuerzo que supera las limitaciones del aprendizaje por imitación al entrenar a los agentes para que desarrollen un razonamiento autónomo sobre la calidad de sus acciones mediante la comparación de alternativas, logrando así mejoras significativas en el rendimiento y la generalización en diversas tareas de agentes.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

El artículo presenta "Impermanent", un nuevo benchmark en vivo que evalúa la generalización temporal de modelos de pronóstico de series temporales mediante el escalamiento secuencial de datos en flujo continuo (específicamente actividad de GitHub), superando las limitaciones de las divisiones estáticas tradicionales para medir la robustez frente a cambios distribucionales y la estabilidad del rendimiento a lo largo del tiempo.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A mixed-frequency approach for exchange rates predictions

Este artículo propone un enfoque basado en modelos de frecuencia mixta para superar la pérdida de información derivada de la agregación temporal y mejorar la predicción del tipo de cambio CAD/USD, abordando así el acertijo de Meese y Rogoff sobre la imprevisibilidad de las fluctuaciones cambiarias.

Raffaele Mattera, Michelangelo Misuraca, Germana Scepi, Maria Spano2026-03-09🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Este trabajo propone un marco interpretable basado en conceptos médicos clave y una red neuronal convolutiva de grafos (GCN) para explicar las decisiones de clasificación de imágenes de ultrasonido fetal desde la perspectiva de la cognición clínica, abordando así la falta de transparencia de los modelos de aprendizaje profundo tradicionales.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

← Anterior Siguiente →