cs.LG artículos | Gist.Science

Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

Este artículo presenta un marco de aprendizaje por refuerzo para entrenar controladores de exoesqueleto en simulación que reducen los momentos articulares biológicos, validando su consistencia con datos reales mediante un pipeline que demuestra una fuerte correlación temporal en los torques de asistencia, especialmente en la cadera, a pesar de ciertas discrepancias en velocidades e inclinaciones más extremas.

Zihang You, Xianlian Zhou2026-03-10🤖 cs.LG

Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

El artículo presenta HELIX, un marco de aprendizaje por refuerzo evolutivo jerárquico que combina el aprendizaje en contexto con la refinación iterativa de políticas para superar las limitaciones de exploración y generalización en la resolución de problemas científicos abiertos, logrando resultados de vanguardia en tareas como el empaquetado de círculos y en benchmarks de aprendizaje automático.

Chang Su, Zhongkai Hao, Zhizhou Zhang, Zeyu Xia, Youjia Wu, Hang Su, Jun Zhu2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Este artículo presenta una tubería de generación de datos sintéticos basada en un gemelo digital del Aeropuerto Internacional de Argel para entrenar un detector YOLO-OBB, demostrando que la combinación de estos datos con solo el 40% de las anotaciones reales iguala o supera el rendimiento de un modelo entrenado exclusivamente con datos reales completos, reduciendo así el esfuerzo de anotación entre un 25% y un 35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

Compressed Proximal Federated Learning for Non-Convex Composite Optimization on Heterogeneous Data

El artículo presenta FedCEF, un algoritmo novedoso de aprendizaje federado que combina actualizaciones proximales desacopladas, mecanismos de retroalimentación de errores y estrategias de comunicación eficientes para lograr convergencia robusta y eficiente en la optimización compuesta no convexa sobre datos heterogéneos con compresión sesgada.

Pu Qiu, Chen Ouyang, Yongyang Xiong, Keyou You, Wanquan Liu, Yang Shi2026-03-10🤖 cs.LG

Partial Differential Equations in the Age of Machine Learning: A Critical Synthesis of Classical, Machine Learning, and Hybrid Methods

Este artículo presenta una revisión crítica que contrasta los métodos numéricos clásicos y los enfoques de aprendizaje automático para resolver ecuaciones en derivadas parciales, destacando sus diferencias epistemológicas y proponiendo principios para el diseño de métodos híbridos que integren sus fortalezas complementarias.

Mohammad Nooraiepour, Jakub Wiktor Both, Teeratorn Kadeethum, Saeid Sadeghnejad2026-03-10🤖 cs.LG

Beyond Surrogates: A Quantitative Analysis for Inter-Metric Relationships

Este artículo propone un marco teórico unificado que cuantifica las relaciones entre métricas de evaluación mediante el análisis de la transferencia de arrepentimiento y el conjunto óptimo de Bayes, con el objetivo de resolver la desconexión entre las mejoras en validación offline y el rendimiento online.

Yuanhao Pu, Defu Lian, Enhong Chen2026-03-10🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Esta tesis doctoral propone superar el cuello de botella de la memoria mediante técnicas microarquitectónicas que pasan de ser ajenas a los datos a ser informadas por ellos, utilizando aprendizaje automático y características semánticas de los datos para optimizar significativamente el rendimiento y la eficiencia energética de los procesadores.

Rahul Bera2026-03-10🤖 cs.LG

Scalable Training of Mixture-of-Experts Models with Megatron Core

Este informe presenta Megatron Core, un marco de código abierto que aborda los desafíos de escalabilidad en el entrenamiento de modelos de expertos mezclados (MoE) mediante optimizaciones integradas en memoria, comunicación y computación, logrando un alto rendimiento en hardware NVIDIA GB300/GB200 para modelos desde miles de millones hasta billones de parámetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Este trabajo presenta un algoritmo actor-crítico natural primal-dual que integra redes neuronales y la teoría del Kernel Tangente Neuronal para establecer garantías de convergencia global y violación de restricciones en Procesos de Decisión de Markov Constrained de recompensa promedio con políticas generales, superando las limitaciones de los análisis teóricos anteriores basados en políticas tabulares o críticos lineales.

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Step-Size Decay and Structural Stagnation in Greedy Sparse Learning

Este artículo demuestra que el uso de calendarios de tamaño de paso con decaimiento excesivo en algoritmos voraces para aprendizaje disperso provoca un estancamiento estructural incluso en configuraciones de baja dimensión, estableciendo límites inferiores explícitos para el error residual y destacando el papel crítico de la coherencia de las características.

Pablo M. Berná2026-03-10🤖 cs.LG

Deep Incentive Design with Differentiable Equilibrium Blocks

El artículo propone el "Deep Incentive Design" (DID), un marco diferenciable que utiliza bloques de equilibrio diferenciables (DEBs) para resolver automáticamente diversos problemas de diseño de incentivos en economía y ciencias de la computación mediante el entrenamiento de una única red neuronal capaz de manejar múltiples tareas y escalas de juegos.

Vinzenz Thoma, Georgios Piliouras, Luke Marris2026-03-10🤖 cs.LG

Reverse Distillation: Consistently Scaling Protein Language Model Representations

Este artículo presenta "Reverse Distillation", un marco que descompone las representaciones de grandes modelos de lenguaje de proteínas en subespacios ortogonales guiados por modelos más pequeños, creando incrustaciones anidadas que aseguran que los modelos más grandes superen consistentemente a los más pequeños en tareas de proteínas.

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

A Lightweight MPC Bidding Framework for Brand Auction Ads

Este artículo propone un marco ligero de Control Predictivo de Modelos (MPC) para anuncios de marca en subastas, que utiliza regresión isotonía en línea para construir modelos de oferta directos a partir de datos en tiempo real, logrando así una mayor eficiencia en el gasto y un control de costos superior a las estrategias convencionales sin necesidad de modelos complejos de aprendizaje automático.

Yuanlong Chen, Bowen Zhu, Bing Xia, Yichuan Wang2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

El artículo propone FedShift, un nuevo ataque adversarial distribuido de dos etapas ("esconder y encontrar") para el aprendizaje federado de grafos que logra una alta efectividad y sigilo al inyectar un "desplazador" oculto durante el entrenamiento y luego optimizar perturbaciones basadas en el modelo global, superando a los métodos existentes en rendimiento, evasión de defensas y eficiencia computacional.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Uncertainty-Gated Generative Modeling

El artículo propone el Modelo Generativo con Puerta de Incertidumbre (UGGM), un enfoque que utiliza la incertidumbre como señal de control interna para mejorar la precisión y la robustez en la previsión de series temporales financieras, logrando una reducción del 63,5% en el error cuadrático medio en el mercado eléctrico de NYISO.

Xingrui Gu, Haixi Zhang2026-03-10🤖 cs.LG

Using GPUs And LLMs Can Be Satisfying for Nonlinear Real Arithmetic Problems

Este artículo presenta GANRA, un nuevo solver SMT que combina modelos de lenguaje grandes y aceleración por GPU para resolver problemas de aritmética real no lineal, logrando mejoras significativas en rendimiento y capacidad de resolución frente al estado del arte.

Christopher Brix, Julia Walczak, Nils Lommen, Thomas Noll2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

El artículo presenta MicroCoder-GRPO, un enfoque optimizado de RL con innovaciones como enmascaramiento de truncamiento condicional y selección de temperatura basada en diversidad, junto con un nuevo corpus de entrenamiento y un evaluador más preciso, logrando mejoras significativas en modelos de generación de código y revelando 34 hallazgos clave para superar los cuellos de botella en el entrenamiento.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Este artículo presenta un método de aprendizaje basado en ecuaciones diferenciales neuronales y máxima verosimilitud que infiere con robustez los generadores dinámicos de sistemas cuánticos abiertos de hasta seis qubits a partir de datos de mediciones transitorias, superando los desafíos de la no convexidad y el ruido en diversos modelos físicos.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

El artículo presenta MicroCoder, un conjunto de datos de programación competitiva curado mediante un marco de procesamiento de cuatro etapas y filtrado automático de dificultad, que demuestra mejoras significativas en el rendimiento de modelos de código al entrenarse con problemas frescos y desafiantes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

ProgAgent es un agente de aprendizaje por refuerzo continuo que unifica recompensas densas derivadas de videos expertos con una arquitectura nativa de alto rendimiento para mitigar el olvido catastrófico y acelerar el aprendizaje de habilidades robóticas complejas.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

← Anterior Siguiente →