Active Advantage-Aligned Online Reinforcement Learning with Offline Data

El artículo presenta A3RL, un nuevo método de aprendizaje por refuerzo que combina datos en línea y fuera de línea mediante una estrategia de muestreo activa y consciente de la confianza para mejorar la eficiencia de las muestras y superar el olvido catastrófico, logrando un rendimiento superior frente a técnicas existentes.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

El artículo propone el marco Texts as Time Series (TaTS), que aprovecha las propiedades periódicas de los textos emparejados con series temporales para mejorar las tareas de predicción e imputación multimodal en modelos numéricos existentes sin necesidad de modificar su arquitectura.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

El artículo presenta OrthoGrad, un método novedoso para el olvido de datos que proyecta los gradientes de los datos a eliminar en un subespacio ortogonal a los de un conjunto de retención reducido, logrando así eliminar conceptos específicos sin comprometer el rendimiento del modelo cuando no se dispone del conjunto de entrenamiento completo.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Este estudio presenta GlucoLens, un sistema de aprendizaje automático explicable que utiliza datos de wearables y dietas para predecir la hiperglucemia postprandial y descubrir vías de tratamiento conductual mediante explicaciones contrafactuales, logrando un rendimiento superior al de los modelos comparativos en un ensayo clínico.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

El artículo presenta IMPACT, un marco de planificación de movimiento que utiliza Modelos Visuales-Lingüísticos para inferir la semántica del entorno y generar mapas de costos anisotrópicos, permitiendo a los robots encontrar trayectorias estables y seguras que incluyen contactos aceptables en entornos desordenados.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

El artículo presenta las equivalencias de prototipos suaves (SPE), un marco basado en redes neuronales invertibles que caracteriza el comportamiento a largo plazo de sistemas dinámicos no lineales a partir de observaciones escasas y ruidosas, permitiendo identificar estructuras invariantes y clasificar regímenes dinámicos sin necesidad de ecuaciones explícitas.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

La investigación demuestra que, aunque los Modelos de Lenguaje Grande (LLM) pueden estimar la dificultad de ítems educativos, la estrategia que combina la extracción de características lingüísticas y cognitivas por parte del LLM con algoritmos de aprendizaje automático basados en árboles (como bosques aleatorios) supera significativamente a la estimación directa, ofreciendo una alternativa precisa y escalable para reducir la dependencia de costosas pruebas de campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabajo presenta el primer agente de aprendizaje por refuerzo basado en visión que alcanza un nivel de campeón en Gran Turismo 7, utilizando únicamente datos de sensores a bordo y vistas de cámara para superar a los conductores integrados sin depender de localización global durante la inferencia.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Este artículo presenta StablePCA, un marco de aprendizaje robusto distribucional que extrae representaciones latentes estables de datos multi-fuente mediante la maximización de la varianza explicada en el peor caso, abordando la no convexidad del problema original a través de una relajación convexa resuelta con un algoritmo Mirror-Prox y validada mediante un certificado dependiente de los datos.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG