Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

Este artículo demuestra que el estancamiento del aprendizaje en PPO se debe a que las estimaciones basadas en muestras se vuelven pobres proxies del objetivo real, y propone escalar a más de un millón de entornos paralelos como una solución robusta para reducir el ruido y el tamaño del paso, permitiendo mejoras de rendimiento monótonas hasta un billón de transiciones.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG

Agnostic learning in (almost) optimal time via Gaussian surface area

Este trabajo mejora el análisis de Klivans et al. demostrando que un grado de polinomio de O~(Γ2/ε2)\tilde O(\Gamma^2 / \varepsilon^2) es suficiente para la aproximación L1L_1 bajo distribuciones gaussianas, lo que proporciona límites (casi) óptimos para el aprendizaje agnóstico de funciones umbral polinómicas en el modelo de consultas estadísticas.

Lucas Pesenti, Lucas Slot, Manuel Wiedmer2026-03-09🤖 cs.LG

Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging

Este artículo demuestra que la dinámica de Langevin, combinada con el promediado de iteraciones, puede recuperar una dirección oculta en entornos de alta dimensión con un número de muestras óptimo (ndk/2n \gtrsim d^{k^\star/2}) sin necesidad de un suavizado explícito del paisaje, emulando dicho efecto mediante la inyección de ruido y el promediado.

Stanley Wei, Alex Damian, Jason D. Lee2026-03-09🤖 cs.LG

DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Este trabajo propone DQE, una nueva métrica de evaluación para la detección de anomalías en series temporales que, mediante una segmentación semántica de las regiones temporales y la agregación de calificaciones en todo el espectro de umbrales, supera las limitaciones de sesgo e inconsistencia de las métricas existentes para ofrecer una evaluación más estable, discriminativa e interpretable.

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

Partial Policy Gradients for RL in LLMs

Este artículo propone un enfoque de gradiente de política parcial para el aprendizaje por refuerzo en modelos de lenguaje grande, que optimiza subconjuntos de recompensas futuras para permitir el aprendizaje más fiable de políticas de distinta complejidad, demostrando empíricamente que diferentes clases de políticas (como las de planificación completa, voraces o de K pasos) sobresalen en distintos problemas de alineación conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Este trabajo demuestra que el uso de perturbaciones de entrada espacialmente coherentes, como el ruido de Perlin, en ensembles de redes neuronales gráficas permite generar pronósticos probabilísticos calibrados de la temperatura superficial del mar sin costos adicionales de entrenamiento, superando a las perturbaciones puramente aleatorias en la representación de la incertidumbre.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

El artículo presenta OMEGA, un método de búsqueda aprendida que generaliza a múltiples valores de K con alta precisión y rendimiento, utilizando un modelo base entrenado en K=1 y un procedimiento de refinamiento dinámico para reducir significativamente la latencia y los costos de preprocesamiento en comparación con los métodos actuales.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Este estudio demuestra que el uso de descriptores topológicos de la dinámica de la elevación del pie, aplicados mediante análisis de datos topológicos y aprendizaje automático, mejora significativamente el diagnóstico diferencial entre la enfermedad de Parkinson idiopática y el parkinsonismo vascular.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Este trabajo presenta FedSCS-XGB, un nuevo protocolo de aprendizaje distribuido para el reconocimiento de actividades humanas mediante sensores portátiles que, inspirado en PAX, preserva las propiedades estructurales de XGBoost y logra un rendimiento casi equivalente al entrenamiento centralizado, facilitando así la monitorización continua de la salud en pacientes con lesiones de la médula espinal.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG