cs.DC artigos | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Este artigo apresenta a primeira plataforma de treinamento distribuído em nuvem com mil GPUs para inteligência corporificada, que otimiza todo o pipeline de dados, treinamento e infraestrutura, reduzindo o tempo de treinamento do modelo GR00T-N1.5 em 40 vezes e estabelecendo uma base técnica crucial para o desenvolvimento de robôs autônomos de próxima geração.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

O artigo formaliza o conceito de "subtempo" como um modo reversível de intercâmbio de informação em sistemas emaranhados, demonstrando como o tempo clássico emerge como um limite assintótico através da decoerência, unificando teorias de absorção, computação reversível e teoria da comunicação sob um princípio de simetria onde a seta do tempo surge da imperfeição do eco causal.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artigo propõe uma arquitetura de orquestração descentralizada e agnóstica para ambientes de Computação Fluida que, ao elevar os serviços de controle de domínio a capacidades de primeira classe, viabiliza a implantação segura de Aprendizado Federado Descentralizado (DFL) multi-domínio sob ameaças bizantinas por meio de um mecanismo de detecção de anomalias chamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

O artigo propõe o AGMARL-DKS, um escalonador de Kubernetes baseado em aprendizado por reforço multiagente aprimorado por grafos e ordenação lexicográfica adaptativa, que supera o escalonador padrão ao melhorar a tolerância a falhas, a utilização de recursos e a redução de custos em ambientes dinâmicos e heterogêneos.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

O artigo apresenta o Cornserve, um sistema de serviço distribuído de código aberto baseado em Kubernetes para modelos multimodais "qualquer-para-qualquer", que utiliza abstração de tarefas flexível, desagregação de componentes e um modelo de execução eficiente para alcançar até 3,81 vezes maior vazão e 5,79 vezes menor latência em comparação com abordagens existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabalho apresenta o WORKSWORLD, um novo domínio para planejadores numéricos independentes de domínio que automatiza o planejamento e agendamento integrados de fluxos de trabalho de dados distribuídos, permitindo a construção e alocação de grafos de fluxo em recursos de rede sem a necessidade de declarar explicitamente o grafo completo como objetivo.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Este artigo apresenta o projeto, análise e desempenho de uma lista de saltos determinística concorrente em nós NUMA de muitos núcleos, avaliando também filas e tabelas hash concorrentes em comparação com a biblioteca TBB da Intel, enquanto propõe estratégias de gerenciamento de memória e uso hierárquico de estruturas de dados para reduzir latências e acessos remotos.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

O artigo apresenta o GPSL, um esquema de aprendizado dividido paralelo que, ao fixar o tamanho do lote global e utilizar amostragem global, elimina vieses de arredondamento e estabiliza o treinamento em cenários de dados não-IID, alcançando precisão comparável à centralizada com overhead negligenciável.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Este artigo demonstra que robôs oblívios operando sob agendadores sequenciais possuem poder computacional ortogonal ao dos agendadores totalmente síncronos (FSYNC), sendo capazes de resolver o problema de Formação de Padrão Universal (exceto a reunião) sem suposições adicionais, enquanto a reunião torna-se solúvel sob agendadores sequenciais apenas se houver detecção fraca de multiplicidade.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Este artigo apresenta o Cylon, uma solução de data frame distribuído de alto desempenho que integra paradigmas de computação sem servidor e HPC, demonstrando que o uso de comunicação direta via NAT Traversal em funções AWS Lambda permite atingir uma eficiência de escalabilidade próxima à de clusters tradicionais (EC2) para aplicações intensivas em dados de aprendizado de máquina.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Este artigo analisa a "inflação de modalidade" como uma fonte crítica de ineficiência energética na inferência de modelos de linguagem multimodais (MLLMs), quantificando o aumento de consumo de energia em comparação com modelos baseados apenas em texto, identificando gargalos específicos por estágio e propondo o escalonamento dinâmico de tensão e frequência (DVFS) como uma estratégia eficaz para otimização.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Este artigo apresenta uma classificação completa da complexidade computacional distribuída de problemas de otimização local em ciclos direcionados, demonstrando que, para qualquer problema e razão de aproximação, a complexidade pertence a uma de quatro classes específicas e pode ser determinada automaticamente por um meta-algoritmo eficiente que também sintetiza algoritmos distribuídos assintoticamente ótimos.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Este artigo descreve o projeto, implementação e avaliação de uma API de comunicação MPI baseada em GPU que elimina a necessidade do processador no caminho de comunicação, demonstrando reduções significativas de latência e melhorias de desempenho em supercomputadores como o Frontier e o Tuolumne.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

Este artigo apresenta um algoritmo distribuído aleatório de uma rodada para 2-coloração de ciclos que reduz a fração esperada de arestas monocromáticas para abaixo de 0,24118 (com um limite inferior de 0,23879), superando os melhores resultados anteriores e tendo sua prova desenvolvida principalmente por modelos de linguagem grande e formalizada em Lean 4.

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

O artigo apresenta o FedEMA-Distill, um método de aprendizado federado que combina uma média móvel exponencial do modelo global com destilação de conhecimento baseada em logits, permitindo treinamento robusto e eficiente em termos de comunicação em cenários com dados não-IID e presença de clientes maliciosos, sem exigir alterações no software dos clientes ou transmissão de pesos completos do modelo.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

O artigo apresenta o AMV-L, um framework de gerenciamento de memória para agentes LLM que utiliza uma pontuação de utilidade contínua e tiers de ciclo de vida para limitar o conjunto de trabalho de recuperação, resultando em melhorias significativas na latência de cauda e na taxa de transferência em comparação com políticas baseadas em tempo (TTL) ou LRU.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Este artigo apresenta uma implementação distribuída de três algoritmos de grafos (BFS, PageRank e contagem de triângulos) utilizando o sistema de tempo de execução HPX, demonstrando que sua abordagem baseada em execução assíncrona e paralelismo de memória compartilhada supera significativamente frameworks convencionais como GraphX e PBGL ao mitigar limitações de latência e sobrecarga de sincronização.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

Este relatório técnico apresenta uma reestruturação do solver DuaLip para execução em GPU, que desacopla a especificação do problema do motor de otimização e utiliza técnicas de paralelismo massivo para resolver programas lineares em larga escala, alcançando um aceleramento de 10 vezes em comparação com a versão anterior baseada em CPU.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Este artigo propõe uma abordagem híbrida que combina modelagem teórica e medições empíricas para determinar a alocação ótima de recursos computacionais em sistemas de inferência de LLM com desagregação Prefill-Decode, garantindo o cumprimento de objetivos de nível de serviço (SLOs) relacionados ao tempo de primeiro token e ao tempo por token de saída.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Este artigo argumenta que o RDMA, apesar de ser a tecnologia de movimentação de dados de maior desempenho, contém uma falácia de conclusão ao garantir apenas a colocação física dos dados e não o seu compromisso semântico pela aplicação, demonstrando que apenas uma arquitetura de protocolo com uma fase de reflexão obrigatória pode resolver essa lacuna.

Paul Borrill2026-03-06💻 cs

← Anterior Próximo →