Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

Este artículo presenta un marco de aprendizaje por refuerzo para entrenar controladores de exoesqueleto en simulación que reducen los momentos articulares biológicos, validando su consistencia con datos reales mediante un pipeline que demuestra una fuerte correlación temporal en los torques de asistencia, especialmente en la cadera, a pesar de ciertas discrepancias en velocidades e inclinaciones más extremas.

Zihang You, Xianlian Zhou2026-03-10🤖 cs.LG

Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

El artículo presenta HELIX, un marco de aprendizaje por refuerzo evolutivo jerárquico que combina el aprendizaje en contexto con la refinación iterativa de políticas para superar las limitaciones de exploración y generalización en la resolución de problemas científicos abiertos, logrando resultados de vanguardia en tareas como el empaquetado de círculos y en benchmarks de aprendizaje automático.

Chang Su, Zhongkai Hao, Zhizhou Zhang, Zeyu Xia, Youjia Wu, Hang Su, Jun Zhu2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artículo presenta una tubería de generación de datos sintéticos basada en un gemelo digital del Aeropuerto Internacional de Argel para entrenar un detector YOLO-OBB, demostrando que la combinación de estos datos con solo el 40% de las anotaciones reales iguala o supera el rendimiento de un modelo entrenado exclusivamente con datos reales completos, reduciendo así el esfuerzo de anotación entre un 25% y un 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

Compressed Proximal Federated Learning for Non-Convex Composite Optimization on Heterogeneous Data

El artículo presenta FedCEF, un algoritmo novedoso de aprendizaje federado que combina actualizaciones proximales desacopladas, mecanismos de retroalimentación de errores y estrategias de comunicación eficientes para lograr convergencia robusta y eficiente en la optimización compuesta no convexa sobre datos heterogéneos con compresión sesgada.

Pu Qiu, Chen Ouyang, Yongyang Xiong, Keyou You, Wanquan Liu, Yang Shi2026-03-10🤖 cs.LG

Partial Differential Equations in the Age of Machine Learning: A Critical Synthesis of Classical, Machine Learning, and Hybrid Methods

Este artículo presenta una revisión crítica que contrasta los métodos numéricos clásicos y los enfoques de aprendizaje automático para resolver ecuaciones en derivadas parciales, destacando sus diferencias epistemológicas y proponiendo principios para el diseño de métodos híbridos que integren sus fortalezas complementarias.

Mohammad Nooraiepour, Jakub Wiktor Both, Teeratorn Kadeethum, Saeid Sadeghnejad2026-03-10🤖 cs.LG

Scalable Training of Mixture-of-Experts Models with Megatron Core

Este informe presenta Megatron Core, un marco de código abierto que aborda los desafíos de escalabilidad en el entrenamiento de modelos de expertos mezclados (MoE) mediante optimizaciones integradas en memoria, comunicación y computación, logrando un alto rendimiento en hardware NVIDIA GB300/GB200 para modelos desde miles de millones hasta billones de parámetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Este trabajo presenta un algoritmo actor-crítico natural primal-dual que integra redes neuronales y la teoría del Kernel Tangente Neuronal para establecer garantías de convergencia global y violación de restricciones en Procesos de Decisión de Markov Constrained de recompensa promedio con políticas generales, superando las limitaciones de los análisis teóricos anteriores basados en políticas tabulares o críticos lineales.

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Reverse Distillation: Consistently Scaling Protein Language Model Representations

Este artículo presenta "Reverse Distillation", un marco que descompone las representaciones de grandes modelos de lenguaje de proteínas en subespacios ortogonales guiados por modelos más pequeños, creando incrustaciones anidadas que aseguran que los modelos más grandes superen consistentemente a los más pequeños en tareas de proteínas.

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

A Lightweight MPC Bidding Framework for Brand Auction Ads

Este artículo propone un marco ligero de Control Predictivo de Modelos (MPC) para anuncios de marca en subastas, que utiliza regresión isotonía en línea para construir modelos de oferta directos a partir de datos en tiempo real, logrando así una mayor eficiencia en el gasto y un control de costos superior a las estrategias convencionales sin necesidad de modelos complejos de aprendizaje automático.

Yuanlong Chen, Bowen Zhu, Bing Xia, Yichuan Wang2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

El artículo propone FedShift, un nuevo ataque adversarial distribuido de dos etapas ("esconder y encontrar") para el aprendizaje federado de grafos que logra una alta efectividad y sigilo al inyectar un "desplazador" oculto durante el entrenamiento y luego optimizar perturbaciones basadas en el modelo global, superando a los métodos existentes en rendimiento, evasión de defensas y eficiencia computacional.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

El artículo presenta MicroCoder-GRPO, un enfoque optimizado de RL con innovaciones como enmascaramiento de truncamiento condicional y selección de temperatura basada en diversidad, junto con un nuevo corpus de entrenamiento y un evaluador más preciso, logrando mejoras significativas en modelos de generación de código y revelando 34 hallazgos clave para superar los cuellos de botella en el entrenamiento.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Este artículo presenta un método de aprendizaje basado en ecuaciones diferenciales neuronales y máxima verosimilitud que infiere con robustez los generadores dinámicos de sistemas cuánticos abiertos de hasta seis qubits a partir de datos de mediciones transitorias, superando los desafíos de la no convexidad y el ruido en diversos modelos físicos.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

El artículo presenta MicroCoder, un conjunto de datos de programación competitiva curado mediante un marco de procesamiento de cuatro etapas y filtrado automático de dificultad, que demuestra mejoras significativas en el rendimiento de modelos de código al entrenarse con problemas frescos y desafiantes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG