cs.DC articoli | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Questo lavoro presenta la prima piattaforma di addestramento distribuito su cloud basata su mille GPU per l'intelligenza incarnata, che ottimizza l'intera pipeline dai dati all'infrastruttura per ridurre i tempi di addestramento del modello GR00T-N1.5 di 40 volte e creare un sistema di valutazione end-to-end che accelera lo sviluppo di robot autonomi.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

Il documento formalizza il concetto di "subtime" come scambio di informazioni reversibile in sistemi entangled, dimostrando come il tempo classico emerga come limite asintotico attraverso la decoerenza e unificando teorie della comunicazione, calcolo reversibile e formalismo delle matrici di processo sotto un unico principio di simmetria.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Questo articolo propone un'architettura di orchestrazione decentralizzata e agnostica per il calcolo fluido che, elevando i servizi di controllo di dominio a funzionalità primarie, abilita un deployment sicuro di apprendimento federato decentralizzato in ambienti multi-dominio, integrando un meccanismo di rilevamento delle anomalie basato su SDN per mitigare le minacce bizantine.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Il paper propone AGMARL-DKS, un pianificatore Kubernetes basato sull'apprendimento per rinforzo multi-agente potenziato da grafi che supera i limiti delle soluzioni attuali grazie a un'architettura scalabile, una rappresentazione dello stato globale tramite GNN e una politica di ottimizzazione adattiva basata sull'ordine lessicografico, dimostrando prestazioni superiori in termini di tolleranza ai guasti, utilizzo delle risorse e costi.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Il paper presenta Cornserve, un sistema di serving distribuito open-source basato su Kubernetes che ottimizza l'esecuzione dei modelli multimodali "Any-to-Any" attraverso la disaggregazione dei componenti e un modello di esecuzione record-and-replay, ottenendo un aumento significativo del throughput e una riduzione della latenza.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Questo lavoro presenta WORKSWORLD, un nuovo dominio per pianificatori numerici indipendenti dal dominio che automatizza la pianificazione e la schedulazione congiunta di flussi di lavoro distribuiti, permettendo di costruire e schedulare grafici di workflow su risorse di rete senza dichiarare esplicitamente l'intero grafo come obiettivo.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Questo articolo presenta la progettazione, l'analisi e le prestazioni di una skip list deterministica concorrente su nodi NUMA many-core, valutando inoltre code senza lock e tabelle hash concorrenti confrontate con la libreria Intel TBB, mentre introduce strategie di gestione della memoria e un uso gerarchico delle strutture dati per ridurre i fault di pagina, i miss nella cache e le latenze di accesso alla memoria remota.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

Il paper presenta GPSL, un metodo server-driven per l'apprendimento diviso parallelo che, campionando globalmente i dati, risolve i problemi di dimensione del batch e distribuzione non-IID, garantendo stabilità, precisione e scalabilità con overhead trascurabile.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Il documento dimostra che, sebbene il problema della Formazione Universale di Pattern sia irrisolvibile nel modello FSYNC anche con capacità avanzate, i robot obliqui operanti sotto schedulatori sequenziali possiedono una potenza computazionale ortogonale e superiore, risolvendo tale problema (e il Gathering con rilevamento debole delle molteplicità) senza alcuna assunzione aggiuntiva.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Il paper presenta Cylon, una soluzione distribuita ad alte prestazioni che combina il computing serverless con tecniche di comunicazione diretta (NAT Traversal TCP Hole Punching) per ridurre il divario di efficienza tra le funzioni AWS Lambda e i cluster tradizionali, raggiungendo un'efficienza di scalatura pari al 93,5% rispetto alle istanze EC2.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Questo studio analizza l'"inflazione modale" come fonte di inefficienza energetica nell'inferenza dei modelli linguistici multimodali (MLLM), quantificando i costi energetici aggiuntivi rispetto ai modelli testuali, identificando colli di bottiglia specifici nelle diverse fasi di elaborazione e dimostrando che la scalabilità dinamica di tensione e frequenza (DVFS) a livello di fase può ridurre significativamente il consumo energetico con un impatto minimo sulle prestazioni.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Questo lavoro presenta una classificazione completa della complessità computazionale distribuita per i problemi di ottimizzazione locale nei cicli diretti, identificando quattro possibili classi di complessità e fornendo un algoritmo centrale efficiente per determinare automaticamente la classe di un dato problema e sintetizzare un algoritmo distribuito asintoticamente ottimale.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Questo articolo presenta la progettazione, l'implementazione e la valutazione di un'API MPI per comunicazioni GPU senza CPU, che sfrutta le capacità della scheda di rete HPE Slingshot 11 per ridurre la latenza e migliorare le prestazioni su supercomputer come Frontier e Tuolumne.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

Questo lavoro presenta un algoritmo distribuito randomizzato in un singolo round per la 2-colorazione dei cicli che riduce la frazione attesa di spigoli monocromatici a meno di 0,24118, stabilendo nuovi limiti superiori e inferiori e dimostrando che la maggior parte della prova è stata scoperta e formalizzata in Lean 4 da modelli linguistici di grandi dimensioni.

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Il paper propone FedEMA-Distill, un metodo di apprendimento federato robusto ed efficiente che combina una media mobile esponenziale con la distillazione della conoscenza basata sui logit aggregati per mitigare l'eterogeneità dei dati, ridurre il carico di comunicazione e resistere ad attacchi avversari senza richiedere modifiche ai client.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Il paper presenta AMV-L, un framework di gestione della memoria per agenti LLM a lungo termine che, sostituendo le tradizionali politiche basate sull'età con un ciclo di vita guidato dal valore e un set di candidati limitato, garantisce un controllo preciso della latenza di coda e migliora significativamente il throughput e la stabilità rispetto ai sistemi esistenti.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Questo lavoro presenta un'implementazione distribuita di tre algoritmi fondamentali per l'elaborazione di grafi (BFS, PageRank e conteggio dei triangoli) basata sul runtime HPX, che supera le limitazioni di latenza e sovraccarico di sincronizzazione dei framework esistenti sfruttando l'esecuzione asincrona e il parallelismo a grana fine.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

Questo rapporto tecnico presenta una nuova architettura di solver per programmi lineari su larga scala che, decouplando la specifica del problema dal motore di ottimizzazione e sfruttando l'esecuzione GPU con tecniche specifiche per vincoli di matching sparsi, supera di almeno 10 volte le prestazioni del precedente solver CPU basato su Scala/Spark mantenendo le garanzie di convergenza.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Questo articolo propone un approccio ibrido che combina modellazione teorica e benchmark empirico per determinare l'allocazione ottimale delle risorse hardware nella disaggregazione Prefill-Decode per l'inferenza di LLM, garantendo il rispetto degli obiettivi di livello di servizio (SLO) relativi a throughput e latenza.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Questo terzo articolo della serie "La Freccia Semantica del Tempo" dimostra che le semantica di completamento dell'RDMA, nonostante le prestazioni elevate, contengono un errore categoriale noto come "fallacia del completamento", poiché garantiscono la consegna fisica dei dati senza assicurare l'integrazione semantica da parte dell'applicazione ricevente, un difetto che richiede un protocollo con una fase di riflessione obbligatoria per essere risolto.

Paul Borrill2026-03-06💻 cs

← Precedente Successivo →