DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Este trabajo propone DQE, una nueva métrica de evaluación para la detección de anomalías en series temporales que, mediante una segmentación semántica de las regiones temporales y la agregación de calificaciones en todo el espectro de umbrales, supera las limitaciones de sesgo e inconsistencia de las métricas existentes para ofrecer una evaluación más estable, discriminativa e interpretable.

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

Partial Policy Gradients for RL in LLMs

Este artículo propone un enfoque de gradiente de política parcial para el aprendizaje por refuerzo en modelos de lenguaje grande, que optimiza subconjuntos de recompensas futuras para permitir el aprendizaje más fiable de políticas de distinta complejidad, demostrando empíricamente que diferentes clases de políticas (como las de planificación completa, voraces o de K pasos) sobresalen en distintos problemas de alineación conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Este trabajo demuestra que el uso de perturbaciones de entrada espacialmente coherentes, como el ruido de Perlin, en ensembles de redes neuronales gráficas permite generar pronósticos probabilísticos calibrados de la temperatura superficial del mar sin costos adicionales de entrenamiento, superando a las perturbaciones puramente aleatorias en la representación de la incertidumbre.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

El artículo presenta OMEGA, un método de búsqueda aprendida que generaliza a múltiples valores de K con alta precisión y rendimiento, utilizando un modelo base entrenado en K=1 y un procedimiento de refinamiento dinámico para reducir significativamente la latencia y los costos de preprocesamiento en comparación con los métodos actuales.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Este estudio demuestra que el uso de descriptores topológicos de la dinámica de la elevación del pie, aplicados mediante análisis de datos topológicos y aprendizaje automático, mejora significativamente el diagnóstico diferencial entre la enfermedad de Parkinson idiopática y el parkinsonismo vascular.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Este trabajo presenta FedSCS-XGB, un nuevo protocolo de aprendizaje distribuido para el reconocimiento de actividades humanas mediante sensores portátiles que, inspirado en PAX, preserva las propiedades estructurales de XGBoost y logra un rendimiento casi equivalente al entrenamiento centralizado, facilitando así la monitorización continua de la salud en pacientes con lesiones de la médula espinal.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Este artículo presenta DeCoST, un enfoque de aprendizaje basado en dos etapas que desacopla las variables discretas y continuas del problema de orientación con ventanas de tiempo y beneficios variables, logrando una calidad de solución superior y una aceleración de inferencia de hasta 6,6 veces en comparación con los métodos existentes.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

El estudio demuestra que los pipelines de razonamiento con recuperación aumentada por agentes mejoran la robustez y el consenso entre diversos modelos de lenguaje en preguntas de radiología, aunque advierte que la precisión y el acuerdo por sí solos no son suficientes para evaluar la fiabilidad clínica de estos sistemas.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI