cs.DC papers | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Dit paper introduceert een cloudgebaseerd, duizend-GPU trainingsplatform voor embodied intelligence dat, door optimalisaties op het gebied van data, training, modelarchitectuur en infrastructuur, de trainingstijd van het GR00T-N1.5-model met een factor 40 heeft verkort en zo een cruciale basis legt voor de ontwikkeling van autonome robots.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

Dit artikel introduceert het concept van 'subtime' als een reversibele informatiewisseling in verstrengelde systemen en toont aan hoe de klassieke tijdsrichting ontstaat als een asymptotisch limiet door decoherentie, waarbij entropie de mate van imperfecte causale echo's kwantificeert.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Dit paper introduceert een gedecentraliseerde, domein-agnostische orkestratiearchitectuur voor Fluid Computing die multi-domein samenwerking mogelijk maakt en Byzantine-beveiliging verbetert via een SDN-gestuurde anomaliedetectie (FU-HST) voor decentrale federatief leren.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Deze paper introduceert AGMARL-DKS, een adaptieve, graf-gebaseerde multi-agent reinforcement learning-scheduler voor Kubernetes die schaalbaarheid, contextbewustzijn en stress-gevoelige doelwitradingen verbetert om fault tolerance, resourcegebruik en kosten te optimaliseren.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve is een open-source, gedistribueerd serversysteem dat Any-to-Any multimodale modellen ondersteunt door flexibele taakabstractie en een efficiënte record-and-replay-uitvoeringsmodus te gebruiken, wat resulteert in tot 3,81 keer hogere doorvoer en 5,79 keer lagere tail-latency.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Dit paper introduceert WORKSWORLD, een nieuw domein voor geautomatiseerd plannen en plannen van gedistribueerde data-pipelines, waarbij een geavanceerde numerieke planner op standaard hardware in staat is om workflows van maximaal 14 componenten over acht locaties te bouwen en te plotten.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Dit artikel presenteert het ontwerp, de analyse en de prestaties van een concurrerende deterministische skiplist voor many-core NUMA-nodes, vergeleken met andere lock-free datastructuren en Intel TBB, en introduceert strategieën voor geheugenbeheer en hiërarchisch gebruik om cache-misses en remote NUMA-toegang te verminderen.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

Dit paper introduceert GPSL, een server-gedreven split learning-methode die door globale steekproefneming de effectieve batchgrootte onafhankelijk maakt van het aantal clients en niet-IID-data bias elimineert, waardoor stabilisatie en centralisatie-achtige nauwkeurigheid worden bereikt met minimale overhead.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Dit artikel bewijst dat vergetelijke robots onder sequentiële schedulers een orthogonale en over het algemeen sterkere rekenkracht bezitten dan onder volledig synchrone schedulers, waardoor het Universele Patroonvormingsprobleem (behalve bij verzameling) zonder extra aannames oplosbaar is, terwijl verzameling juist zwakke multipliciteitsdetectie vereist.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Dit paper introduceert Cylon, een oplossing die serverless computing en high-performance computing combineert door middel van een op NAT Traversal gebaseerde communicator, waardoor de schaalbaarheid van AWS Lambda binnen 6,5% van traditionele EC2-instanties komt voor data-intensieve machine learning-taken.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Dit artikel analyseert voor het eerst de energie-efficiëntie van multimodale grote taalmodellen (MLLM's) door 'modality inflation' te onderzoeken, waarbij het verschillende energieknelpunten identificeert en aantoont dat dynamische spannings- en frequentieschaling (DVFS) aanzienlijke energiebesparingen mogelijk maakt met slechts een beperkte impact op de prestaties.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Dit artikel presenteert een volledige classificatie van de gedistribueerde complexiteit voor lokale optimalisatieproblemen in gerichte cycli, waarbij het aantoont dat de complexiteit voor zowel deterministische als probabilistische modellen valt binnen één van vier specifieke klassen en dat deze klasse automatisch kan worden bepaald en een optimale algoritme kan worden gegenereerd.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Dit artikel beschrijft het ontwerp, de implementatie en evaluatie van een MPI-gebaseerde GPU-communicatie-API die CPU-vrije communicatie mogelijk maakt, wat leidt tot aanzienlijke prestatiewinst in halo-uitwisselingstaken op supercomputers zoals Frontier en Tuolumne.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

De auteurs presenteren een één-rond randomiseerde distributieve algoritme dat cycli 2-kleurt met een verwachte fractie monochrome randen onder de 0,24118, waarbij zowel de boven- als ondergrenzen zijn bewezen met behulp van grote taalmodellen en geformaliseerd in Lean 4.

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Het artikel introduceert FedEMA-Distill, een serverzijde methode voor federatief leren die exponentiële voortschrijdende gemiddelden en kennisdistillatie op basis van client-logits combineert om de nauwkeurigheid te verhogen, de communicatiekosten te verlagen en de weerstand tegen Byzantijnse aanvallen te vergroten, zonder aanpassingen aan de client-zijde of modelhomogeniteit te vereisen.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Het artikel introduceert AMV-L, een framework voor agentgeheugenbeheer dat door middel van waardegedreven promotie en demotie de zoekruimte beperkt en zo de prestaties van langlopende LLM-systemen aanzienlijk verbetert door de tail-latentie te reduceren en de doorvoer te verhogen ten opzichte van traditionele TTL- en LRU-baselines.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Dit artikel presenteert een prototype voor een gedistribueerde bibliotheek die drie kerngrafiekalgoritmen implementeert met behulp van het HPX-runtime-systeem, waarmee door middel van asynchrone uitvoering en latency-hiding een aanzienlijke prestatieverbetering wordt bereikt ten opzichte van bestaande frameworks zoals GraphX en PBGL.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

Dit paper introduceert een herschreven GPU-gebaseerde solver voor grote lineaire programmeringsproblemen die de schaalbaarheid en doorvoersnelheid van eerdere CPU-gebaseerde systemen aanzienlijk verbetert door een operatorcentrisch model, geoptimaliseerde GPU-technieken en geavanceerde regularisatiemethoden te combineren, wat resulteert in een snelheidswinst van minimaal 10x.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Dit artikel presenteert een hybride aanpak die theoretische modellering en empirische benchmarking combineert om de optimale verdeling van hardwarebronnen voor Prefill-Decode-disaggregatie in LLM-inferentie te bepalen, waarbij rekening wordt gehouden met SLO's en request-karakteristieken.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Dit artikel toont aan dat RDMA's voltooiingssemantiek een categorische fout bevat die de kloof tussen data-overdracht en semantische integratie over het hoofd ziet, en pleit voor een protocolarchitectuur met een verplicht reflectiefase om dit 'voltooiingsdwaalbegrip' op industriële schaal op te lossen.

Paul Borrill2026-03-06💻 cs

← Vorige Volgende →