How Far Can Unsupervised RLVR Scale LLM Training?

Este trabajo analiza exhaustivamente el aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR), demostrando que los métodos intrínsecos sufren un colapso inevitable cuando la confianza inicial del modelo no se alinea con la corrección, mientras que sugiere que las recompensas externas basadas en asimetrías computacionales podrían ofrecer una vía para superar estas limitaciones.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Momentum SVGD-EM for Accelerated Maximum Marginal Likelihood Estimation

Este artículo presenta Momentum SVGD-EM, un método acelerado mediante la introducción de aceleración de Nesterov en los parámetros y en el espacio de medidas de probabilidad para optimizar la estimación de máxima verosimilitud marginal (MMLE) mediante el descenso de gradiente variacional de Stein (SVGD), logrando una convergencia más rápida en diversos escenarios de baja y alta dimensionalidad.

Adam Rozzio, Rafael Athanasiades, O. Deniz Akyildiz2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabajo propone un algoritmo heurístico de optimización conjunta para arquitecturas de Aprendizaje Federado Dividido Jerárquico que, al considerar explícitamente las capas de particionamiento y la asignación de clientes, logra mejorar la precisión del modelo en un 3% y reducir la latencia y la sobrecarga de comunicación en un 20% y 50% respectivamente en comparación con los métodos actuales.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

El artículo presenta la Entrenamiento Crítico Agente (ACT), un paradigma de aprendizaje por refuerzo que supera las limitaciones del aprendizaje por imitación al entrenar a los agentes para que desarrollen un razonamiento autónomo sobre la calidad de sus acciones mediante la comparación de alternativas, logrando así mejoras significativas en el rendimiento y la generalización en diversas tareas de agentes.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

El artículo presenta "Impermanent", un nuevo benchmark en vivo que evalúa la generalización temporal de modelos de pronóstico de series temporales mediante el escalamiento secuencial de datos en flujo continuo (específicamente actividad de GitHub), superando las limitaciones de las divisiones estáticas tradicionales para medir la robustez frente a cambios distribucionales y la estabilidad del rendimiento a lo largo del tiempo.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Este trabajo propone un marco interpretable basado en conceptos médicos clave y una red neuronal convolutiva de grafos (GCN) para explicar las decisiones de clasificación de imágenes de ultrasonido fetal desde la perspectiva de la cognición clínica, abordando así la falta de transparencia de los modelos de aprendizaje profundo tradicionales.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Graph Neural Networks on Factor Graphs for Robust, Fast, and Scalable Linear State Estimation with PMUs

Este artículo presenta un método escalable y robusto para la estimación de estado lineal en sistemas de potencia que utiliza redes neuronales de grafos sobre grafos de factores para aprovechar las mediciones de unidades de medición fasorial, logrando una complejidad computacional lineal y una alta tolerancia a fallos locales.

Ognjen Kundacina, Mirsad Cosovic, Dragisa Miskovic + 1 more2026-03-09⚡ eess

Expert-Aided Causal Discovery of Ancestral Graphs

Este artículo presenta Ancestral GFlowNet (AGFN), un algoritmo de aprendizaje por refuerzo que realiza inferencia distribucional sobre grafos ancestrales integrando conocimiento experto a priori y retroalimentación incierta a posteriori para refinar modelos causales bajo confusión latente.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena Ribeiro2026-03-09🤖 cs.LG

A unified framework for learning with nonlinear model classes from arbitrary linear samples

Este artículo presenta un marco unificado que establece garantías de aprendizaje óptimas para recuperar objetos desconocidos a partir de muestras lineales arbitrarias utilizando clases de modelos no lineales, introduciendo el concepto de "variación" para cuantificar la interacción entre el modelo y el proceso de medición y generalizando resultados previos en áreas como el muestreo comprimido y el escalamiento de matrices.

Ben Adcock, Juan M. Cardenas, Nick Dexter2026-03-09🤖 cs.LG

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Este artículo presenta una novedosa pipeline de aprendizaje activo en dos etapas para el reconocimiento automático del habla que combina la selección de muestras diversas mediante agrupamiento de x-vectores y la identificación de muestras informativas con un método bayesiano adaptado, logrando así un entrenamiento de modelos más eficiente con menos datos etiquetados.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess