cs.DC artículos | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Este artículo presenta la primera plataforma de entrenamiento distribuido en la nube basada en mil GPUs para la inteligencia encarnada, la cual optimiza integralmente el flujo de datos, el entrenamiento de modelos y la infraestructura para lograr una aceleración de 40 veces en el entrenamiento, estableciendo así una base técnica fundamental para el desarrollo de robots autónomos de próxima generación.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

Este artículo formaliza el concepto de "subtiempo" como un modo reversible de intercambio de información en sistemas entrelazados, demostrando que el tiempo clásico emerge como un límite asintótico cuando la decoherencia rompe la simetría de reversibilidad causal, unificando así diversas teorías físicas bajo el principio de que la flecha del tiempo registra la imperfección del eco causal del universo.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artículo propone una arquitectura de orquestación descentralizada para la computación fluida que habilita la coordinación multi-dominio autónoma y mejora la seguridad en escenarios de Aprendizaje Federado Descentralizado mediante un mecanismo de detección de anomalías llamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

El artículo presenta AGMARL-DKS, un planificador de Kubernetes impulsado por aprendizaje por refuerzo multiagente que utiliza redes neuronales gráficas y un ordenamiento lexicográfico sensible al estrés para superar las limitaciones de escalabilidad y adaptabilidad de los enfoques existentes, logrando mejoras significativas en tolerancia a fallos, utilización de recursos y costos.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve es un sistema de servicio distribuido de código abierto diseñado para modelos multimodales "de cualquier a cualquier" que, mediante la desagregación de componentes y un modelo de ejecución eficiente, logra aumentar el rendimiento y reducir la latencia en comparación con las soluciones existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Este artículo presenta el diseño, análisis y rendimiento de una lista saltatoria determinista concurrente en nodos NUMA de muchos núcleos, evaluando además implementaciones de colas y tablas hash concurrentes frente a la biblioteca TBB de Intel, e introduciendo estrategias de gestión de memoria y uso jerárquico de estructuras de datos para reducir las latencias y los fallos de página.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

El artículo presenta GPSL, un esquema impulsado por el servidor para el aprendizaje dividido paralelo que fija el tamaño del lote global mediante muestreo global sin reemplazo, eliminando sesgos de redondeo y estabilizando el entrenamiento en entornos no IID para lograr una precisión similar a la centralizada sin aumentar la carga computacional.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

El artículo demuestra que los robots oblivios bajo programadores secuenciales poseen una capacidad computacional superior a la de los programadores totalmente síncronos (FSYNC), resolviendo el problema de Formación Universal de Patrones sin suposiciones adicionales y el problema de Reunión con detección débil de multiplicidad, mientras que estos mismos problemas son insolubles bajo FSYNC incluso con capacidades avanzadas.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Este artículo presenta Cylon, una solución de marcos de datos distribuidos de alto rendimiento que combina paradigmas serverless y de computación de alto rendimiento mediante un comunicador inspirado en FMI y técnicas de perforación de agujeros TCP, logrando que AWS Lambda alcance una eficiencia de escalado dentro del 6,5% de las instancias EC2 tradicionales al procesar grandes conjuntos de datos para aplicaciones de aprendizaje automático.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Este artículo analiza el fenómeno de "inflación modal" en la inferencia de modelos de lenguaje grandes multimodales (MLLM), cuantificando su impacto energético mediante un desglose por etapas en GPUs NVIDIA A100 y proponiendo la escalabilidad dinámica de voltaje y frecuencia (DVFS) por etapas como una estrategia efectiva para optimizar el consumo energético con un impacto mínimo en el rendimiento.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Este artículo presenta una clasificación completa de la complejidad computacional distribuida para problemas de optimización local en ciclos dirigidos, identificando cuatro clases de complejidad posibles tanto para modelos deterministas como aleatorizados, y ofrece un metaalgoritmo eficiente para determinar automáticamente la clase de complejidad y sintetizar un algoritmo distribuido óptimo para cualquier problema de este tipo.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Este artículo presenta el diseño, implementación y evaluación de una API de comunicación MPI basada en GPU que elimina al CPU de la ruta rápida de comunicación, logrando reducciones significativas en la latencia y mejoras en el rendimiento al escalar en supercomputadoras como Frontier y Tuolumne.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

Este trabajo presenta un algoritmo distribuido aleatorio de una ronda para colorear ciclos con dos colores que reduce la fracción esperada de aristas monocromáticas a menos de 0.24118, establece un límite inferior de 0.23879 para cualquier algoritmo de una ronda, y destaca que sus demostraciones fueron descubiertas principalmente por modelos de lenguaje grandes y formalizadas en Lean 4.

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

El artículo propone FedEMA-Distill, un método de aprendizaje federado que combina un promedio móvil exponencial del modelo global con la destilación de conocimiento basada en logits para lograr un entrenamiento más robusto, eficiente en comunicación y resistente a ataques adversarios sin requerir cambios en el software de los clientes.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

El artículo presenta AMV-L, un marco de gestión de memoria para agentes LLM que utiliza puntuaciones de utilidad y niveles de ciclo de vida para controlar la latencia de cola, logrando mejoras significativas en el rendimiento y la estabilidad en comparación con las políticas tradicionales basadas en tiempo o LRU.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Este trabajo presenta una implementación distribuida de algoritmos clave de grafos utilizando el sistema de ejecución HPX, demostrando que su modelo unificado de asincronía y paralelismo de grano fino supera significativamente a frameworks convencionales como GraphX y PBGL al mitigar la latencia y el desequilibrio de carga mediante la superposición transparente de comunicación y computación.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

Este informe técnico presenta una arquitectura de solver rediseñada para el sistema DuaLip que desacopla la especificación del problema del motor de optimización y aprovecha la ejecución en GPU mediante primitivas composables y técnicas de paralelismo, logrando una aceleración de al menos 10 veces en cargas de trabajo de emparejamiento a escala extrema en comparación con la versión anterior basada en CPU.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Este artículo propone un enfoque híbrido que combina modelado teórico con pruebas empíricas para determinar la asignación óptima de recursos de hardware en la inferencia de LLMs con desagregación de prellenado y decodificación, garantizando el cumplimiento de los objetivos de nivel de servicio (SLO) y las características de las solicitudes.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Este artículo argumenta que la semántica de finalización de RDMA comete un error de categoría al garantizar la colocación de datos sin asegurar su compromiso semántico por parte de la aplicación, lo que genera una "falacia de finalización" con consecuencias críticas a escala industrial que solo pueden resolverse mediante una arquitectura de protocolo con una fase de reflexión obligatoria.

Paul Borrill2026-03-06💻 cs

← Anterior Siguiente →