Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Este artigo apresenta a primeira plataforma de treinamento distribuído em nuvem com mil GPUs para inteligência corporificada, que otimiza todo o pipeline de dados, treinamento e infraestrutura, reduzindo o tempo de treinamento do modelo GR00T-N1.5 em 40 vezes e estabelecendo uma base técnica crucial para o desenvolvimento de robôs autônomos de próxima geração.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

O artigo formaliza o conceito de "subtempo" como um modo reversível de intercâmbio de informação em sistemas emaranhados, demonstrando como o tempo clássico emerge como um limite assintótico através da decoerência, unificando teorias de absorção, computação reversível e teoria da comunicação sob um princípio de simetria onde a seta do tempo surge da imperfeição do eco causal.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artigo propõe uma arquitetura de orquestração descentralizada e agnóstica para ambientes de Computação Fluida que, ao elevar os serviços de controle de domínio a capacidades de primeira classe, viabiliza a implantação segura de Aprendizado Federado Descentralizado (DFL) multi-domínio sob ameaças bizantinas por meio de um mecanismo de detecção de anomalias chamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

O artigo apresenta o Cornserve, um sistema de serviço distribuído de código aberto baseado em Kubernetes para modelos multimodais "qualquer-para-qualquer", que utiliza abstração de tarefas flexível, desagregação de componentes e um modelo de execução eficiente para alcançar até 3,81 vezes maior vazão e 5,79 vezes menor latência em comparação com abordagens existentes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabalho apresenta o WORKSWORLD, um novo domínio para planejadores numéricos independentes de domínio que automatiza o planejamento e agendamento integrados de fluxos de trabalho de dados distribuídos, permitindo a construção e alocação de grafos de fluxo em recursos de rede sem a necessidade de declarar explicitamente o grafo completo como objetivo.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Este artigo demonstra que robôs oblívios operando sob agendadores sequenciais possuem poder computacional ortogonal ao dos agendadores totalmente síncronos (FSYNC), sendo capazes de resolver o problema de Formação de Padrão Universal (exceto a reunião) sem suposições adicionais, enquanto a reunião torna-se solúvel sob agendadores sequenciais apenas se houver detecção fraca de multiplicidade.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Este artigo apresenta o Cylon, uma solução de data frame distribuído de alto desempenho que integra paradigmas de computação sem servidor e HPC, demonstrando que o uso de comunicação direta via NAT Traversal em funções AWS Lambda permite atingir uma eficiência de escalabilidade próxima à de clusters tradicionais (EC2) para aplicações intensivas em dados de aprendizado de máquina.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Este artigo analisa a "inflação de modalidade" como uma fonte crítica de ineficiência energética na inferência de modelos de linguagem multimodais (MLLMs), quantificando o aumento de consumo de energia em comparação com modelos baseados apenas em texto, identificando gargalos específicos por estágio e propondo o escalonamento dinâmico de tensão e frequência (DVFS) como uma estratégia eficaz para otimização.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Este artigo apresenta uma classificação completa da complexidade computacional distribuída de problemas de otimização local em ciclos direcionados, demonstrando que, para qualquer problema e razão de aproximação, a complexidade pertence a uma de quatro classes específicas e pode ser determinada automaticamente por um meta-algoritmo eficiente que também sintetiza algoritmos distribuídos assintoticamente ótimos.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

O artigo apresenta o FedEMA-Distill, um método de aprendizado federado que combina uma média móvel exponencial do modelo global com destilação de conhecimento baseada em logits, permitindo treinamento robusto e eficiente em termos de comunicação em cenários com dados não-IID e presença de clientes maliciosos, sem exigir alterações no software dos clientes ou transmissão de pesos completos do modelo.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Este artigo apresenta uma implementação distribuída de três algoritmos de grafos (BFS, PageRank e contagem de triângulos) utilizando o sistema de tempo de execução HPX, demonstrando que sua abordagem baseada em execução assíncrona e paralelismo de memória compartilhada supera significativamente frameworks convencionais como GraphX e PBGL ao mitigar limitações de latência e sobrecarga de sincronização.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Este artigo propõe uma abordagem híbrida que combina modelagem teórica e medições empíricas para determinar a alocação ótima de recursos computacionais em sistemas de inferência de LLM com desagregação Prefill-Decode, garantindo o cumprimento de objetivos de nível de serviço (SLOs) relacionados ao tempo de primeiro token e ao tempo por token de saída.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math