Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Este artículo presenta la primera plataforma de entrenamiento distribuido en la nube basada en mil GPUs para la inteligencia encarnada, la cual optimiza integralmente el flujo de datos, el entrenamiento de modelos y la infraestructura para lograr una aceleración de 40 veces en el entrenamiento, estableciendo así una base técnica fundamental para el desarrollo de robots autónomos de próxima generación.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

Este artículo formaliza el concepto de "subtiempo" como un modo reversible de intercambio de información en sistemas entrelazados, demostrando que el tiempo clásico emerge como un límite asintótico cuando la decoherencia rompe la simetría de reversibilidad causal, unificando así diversas teorías físicas bajo el principio de que la flecha del tiempo registra la imperfección del eco causal del universo.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artículo propone una arquitectura de orquestación descentralizada para la computación fluida que habilita la coordinación multi-dominio autónoma y mejora la seguridad en escenarios de Aprendizaje Federado Descentralizado mediante un mecanismo de detección de anomalías llamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

El artículo presenta AGMARL-DKS, un planificador de Kubernetes impulsado por aprendizaje por refuerzo multiagente que utiliza redes neuronales gráficas y un ordenamiento lexicográfico sensible al estrés para superar las limitaciones de escalabilidad y adaptabilidad de los enfoques existentes, logrando mejoras significativas en tolerancia a fallos, utilización de recursos y costos.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve es un sistema de servicio distribuido de código abierto diseñado para modelos multimodales "de cualquier a cualquier" que, mediante la desagregación de componentes y un modelo de ejecución eficiente, logra aumentar el rendimiento y reducir la latencia en comparación con las soluciones existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

El artículo demuestra que los robots oblivios bajo programadores secuenciales poseen una capacidad computacional superior a la de los programadores totalmente síncronos (FSYNC), resolviendo el problema de Formación Universal de Patrones sin suposiciones adicionales y el problema de Reunión con detección débil de multiplicidad, mientras que estos mismos problemas son insolubles bajo FSYNC incluso con capacidades avanzadas.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Este artículo presenta Cylon, una solución de marcos de datos distribuidos de alto rendimiento que combina paradigmas serverless y de computación de alto rendimiento mediante un comunicador inspirado en FMI y técnicas de perforación de agujeros TCP, logrando que AWS Lambda alcance una eficiencia de escalado dentro del 6,5% de las instancias EC2 tradicionales al procesar grandes conjuntos de datos para aplicaciones de aprendizaje automático.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Este artículo analiza el fenómeno de "inflación modal" en la inferencia de modelos de lenguaje grandes multimodales (MLLM), cuantificando su impacto energético mediante un desglose por etapas en GPUs NVIDIA A100 y proponiendo la escalabilidad dinámica de voltaje y frecuencia (DVFS) por etapas como una estrategia efectiva para optimizar el consumo energético con un impacto mínimo en el rendimiento.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Este artículo presenta una clasificación completa de la complejidad computacional distribuida para problemas de optimización local en ciclos dirigidos, identificando cuatro clases de complejidad posibles tanto para modelos deterministas como aleatorizados, y ofrece un metaalgoritmo eficiente para determinar automáticamente la clase de complejidad y sintetizar un algoritmo distribuido óptimo para cualquier problema de este tipo.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

El artículo propone FedEMA-Distill, un método de aprendizaje federado que combina un promedio móvil exponencial del modelo global con la destilación de conocimiento basada en logits para lograr un entrenamiento más robusto, eficiente en comunicación y resistente a ataques adversarios sin requerir cambios en el software de los clientes.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Este trabajo presenta una implementación distribuida de algoritmos clave de grafos utilizando el sistema de ejecución HPX, demostrando que su modelo unificado de asincronía y paralelismo de grano fino supera significativamente a frameworks convencionales como GraphX y PBGL al mitigar la latencia y el desequilibrio de carga mediante la superposición transparente de comunicación y computación.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

Este informe técnico presenta una arquitectura de solver rediseñada para el sistema DuaLip que desacopla la especificación del problema del motor de optimización y aprovecha la ejecución en GPU mediante primitivas composables y técnicas de paralelismo, logrando una aceleración de al menos 10 veces en cargas de trabajo de emparejamiento a escala extrema en comparación con la versión anterior basada en CPU.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs