Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Questo lavoro presenta la prima piattaforma di addestramento distribuito su cloud basata su mille GPU per l'intelligenza incarnata, che ottimizza l'intera pipeline dai dati all'infrastruttura per ridurre i tempi di addestramento del modello GR00T-N1.5 di 40 volte e creare un sistema di valutazione end-to-end che accelera lo sviluppo di robot autonomi.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Questo articolo propone un'architettura di orchestrazione decentralizzata e agnostica per il calcolo fluido che, elevando i servizi di controllo di dominio a funzionalità primarie, abilita un deployment sicuro di apprendimento federato decentralizzato in ambienti multi-dominio, integrando un meccanismo di rilevamento delle anomalie basato su SDN per mitigare le minacce bizantine.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Il paper propone AGMARL-DKS, un pianificatore Kubernetes basato sull'apprendimento per rinforzo multi-agente potenziato da grafi che supera i limiti delle soluzioni attuali grazie a un'architettura scalabile, una rappresentazione dello stato globale tramite GNN e una politica di ottimizzazione adattiva basata sull'ordine lessicografico, dimostrando prestazioni superiori in termini di tolleranza ai guasti, utilizzo delle risorse e costi.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Il paper presenta Cornserve, un sistema di serving distribuito open-source basato su Kubernetes che ottimizza l'esecuzione dei modelli multimodali "Any-to-Any" attraverso la disaggregazione dei componenti e un modello di esecuzione record-and-replay, ottenendo un aumento significativo del throughput e una riduzione della latenza.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

Concurrent Deterministic Skiplist and Other Data Structures

Questo articolo presenta la progettazione, l'analisi e le prestazioni di una skip list deterministica concorrente su nodi NUMA many-core, valutando inoltre code senza lock e tabelle hash concorrenti confrontate con la libreria Intel TBB, mentre introduce strategie di gestione della memoria e un uso gerarchico delle strutture dati per ridurre i fault di pagina, i miss nella cache e le latenze di accesso alla memoria remota.

Aparna Sasidharan2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Il documento dimostra che, sebbene il problema della Formazione Universale di Pattern sia irrisolvibile nel modello FSYNC anche con capacità avanzate, i robot obliqui operanti sotto schedulatori sequenziali possiedono una potenza computazionale ortogonale e superiore, risolvendo tale problema (e il Gathering con rilevamento debole delle molteplicità) senza alcuna assunzione aggiuntiva.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Il paper presenta Cylon, una soluzione distribuita ad alte prestazioni che combina il computing serverless con tecniche di comunicazione diretta (NAT Traversal TCP Hole Punching) per ridurre il divario di efficienza tra le funzioni AWS Lambda e i cluster tradizionali, raggiungendo un'efficienza di scalatura pari al 93,5% rispetto alle istanze EC2.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Questo studio analizza l'"inflazione modale" come fonte di inefficienza energetica nell'inferenza dei modelli linguistici multimodali (MLLM), quantificando i costi energetici aggiuntivi rispetto ai modelli testuali, identificando colli di bottiglia specifici nelle diverse fasi di elaborazione e dimostrando che la scalabilità dinamica di tensione e frequenza (DVFS) a livello di fase può ridurre significativamente il consumo energetico con un impatto minimo sulle prestazioni.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Questo lavoro presenta una classificazione completa della complessità computazionale distribuita per i problemi di ottimizzazione locale nei cicli diretti, identificando quattro possibili classi di complessità e fornendo un algoritmo centrale efficiente per determinare automaticamente la classe di un dato problema e sintetizzare un algoritmo distribuito asintoticamente ottimale.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Il paper propone FedEMA-Distill, un metodo di apprendimento federato robusto ed efficiente che combina una media mobile esponenziale con la distillazione della conoscenza basata sui logit aggregati per mitigare l'eterogeneità dei dati, ridurre il carico di comunicazione e resistere ad attacchi avversari senza richiedere modifiche ai client.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Questo lavoro presenta un'implementazione distribuita di tre algoritmi fondamentali per l'elaborazione di grafi (BFS, PageRank e conteggio dei triangoli) basata sul runtime HPX, che supera le limitazioni di latenza e sovraccarico di sincronizzazione dei framework esistenti sfruttando l'esecuzione asincrona e il parallelismo a grana fine.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Questo terzo articolo della serie "La Freccia Semantica del Tempo" dimostra che le semantica di completamento dell'RDMA, nonostante le prestazioni elevate, contengono un errore categoriale noto come "fallacia del completamento", poiché garantiscono la consegna fisica dei dati senza assicurare l'integrazione semantica da parte dell'applicazione ricevente, un difetto che richiede un protocollo con una fase di riflessione obbligatoria per essere risolto.

Paul Borrill2026-03-06💻 cs