More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

El paper presenta EDU-PRM, un nuevo modelo de recompensa de proceso que utiliza la incertidumbre basada en entropía para segmentar automáticamente los pasos de razonamiento sin anotaciones manuales, logrando un rendimiento superior en el benchmark ProcessBench con solo el 1,5% de los datos de entrenamiento y reduciendo significativamente el uso de tokens.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

La investigación demuestra que, aunque los Modelos de Lenguaje Grande (LLM) pueden estimar la dificultad de ítems educativos, la estrategia que combina la extracción de características lingüísticas y cognitivas por parte del LLM con algoritmos de aprendizaje automático basados en árboles (como bosques aleatorios) supera significativamente a la estimación directa, ofreciendo una alternativa precisa y escalable para reducir la dependencia de costosas pruebas de campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabajo presenta el primer agente de aprendizaje por refuerzo basado en visión que alcanza un nivel de campeón en Gran Turismo 7, utilizando únicamente datos de sensores a bordo y vistas de cámara para superar a los conductores integrados sin depender de localización global durante la inferencia.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Este artículo presenta StablePCA, un marco de aprendizaje robusto distribucional que extrae representaciones latentes estables de datos multi-fuente mediante la maximización de la varianza explicada en el peor caso, abordando la no convexidad del problema original a través de una relajación convexa resuelta con un algoritmo Mirror-Prox y validada mediante un certificado dependiente de los datos.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

El artículo presenta FreeKV, un marco de co-optimización sin entrenamiento que combina técnicas de recuperación especulativa y corrección de granularidad fina con una arquitectura de sistema híbrida en CPU/GPU para lograr una aceleración de hasta 13 veces en la inferencia de LLMs manteniendo una precisión casi sin pérdidas.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

El documento presenta MAS-ZERO, un marco de diseño de sistemas multiagente autoevolutivo que, sin supervisión ni conjunto de validación, optimiza dinámicamente la descomposición de problemas y la composición de agentes en tiempo de inferencia, superando significativamente a los enfoques manuales y automáticos existentes en tareas de razonamiento, codificación y búsqueda.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

El artículo presenta HDLxGraph, un marco innovador que integra la estructura gráfica de los lenguajes de descripción de hardware (HDL) con la generación aumentada por recuperación (RAG) para superar las limitaciones de los métodos actuales en proyectos complejos, complementado con el nuevo conjunto de datos de referencia HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

El artículo presenta WikiDBGraph, una suite de benchmark a gran escala construida a partir de 100.000 bases de datos relacionales reales que revela las limitaciones de los marcos actuales de aprendizaje colaborativo al ignorar los desafíos de gestión de datos en silos fragmentados y no alineados, destacando la necesidad de mejorar las etapas de preprocesamiento para un despliegue práctico.

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Este artículo presenta AgarCL, una plataforma de investigación basada en el juego Agar.io diseñada para el aprendizaje por refuerzo continuo que, a través de sus dinámicas no episódicas y complejas, revela que los métodos actuales de aprendizaje continuo apenas superan a los algoritmos estándar, indicando que los desafíos van más allá del dilema de estabilidad-plasticidad.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG