cs.DC Arbeiten | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Dieses Paper stellt eine bahnbrechende, auf tausend GPUs basierte Cloud-Infrastruktur für das Training von Embodied Intelligence vor, die durch optimierte Datenpipelines, fortschrittliche Modelltechniken und eine hochleistungsfähige Netzwerkinfrastruktur die Trainingszeit für das GR00T-N1.5-Modell um das 40-fache auf nur 22 Minuten reduziert und so eine geschlossene Evaluierungsschleife für die nächste Generation autonomer Roboter schafft.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

Die Arbeit formalisiert das Konzept der „Subzeit" als reversiblen Informationsaustausch in verschränkten Systemen und zeigt, wie die klassische Zeit als asymptotischer Grenzfall durch Dekohärenz entsteht, wobei der Zeitpfeil als Folge unvollkommener kausaler Rückkopplung interpretiert wird.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Diese Arbeit stellt eine dezentrale Orchestrierungsarchitektur für Fluid Computing vor, die durch die Nutzung domänenspezifischer Fähigkeiten und eines SDN-basierten Anomalieerkennungsmechanismus (FU-HST) eine sichere, mehrdomänige Verteilung von Federated Learning unter Byzantinischen Bedrohungen ermöglicht.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Die Studie stellt AGMARL-DKS vor, einen adaptiven, graphenbasierten Multi-Agenten-Verstärkungslern-Scheduler für Kubernetes, der durch dezentrale Ausführung, globale Kontextmodellierung mittels Graph Neural Networks und stressbewusste lexikografische Priorisierung die Skalierbarkeit, Fehlertoleranz und Ressourcennutzung im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve ist ein verteiltes Serving-System, das auf Kubernetes basiert und durch flexible Aufgabenabstraktion sowie eine effiziente Record-and-Replay-Ausführung die Skalierbarkeit und Leistung von beliebigen Any-to-Any-Multimodalmodellen mit bis zu 3,81-fach höherem Durchsatz und 5,79-fach niedrigerer Tail-Latenz verbessert.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Die Arbeit stellt WORKSWORLD vor, eine neue Domäne für numerische, domänenunabhängige Planer, die die automatische Generierung und Terminierung verteilter Datenpipelines auf einer Ressourcenstruktur ermöglicht, indem sie Datenquellen, Komponenten und Ziele ohne explizite Vorgabe des gesamten Workflow-Graphen als Ziel definiert.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Diese Arbeit stellt den Entwurf, die Analyse und die Leistung eines deterministischen, nebenläufigen Skiplists auf vielen NUMA-Kernen vor, bewertet weitere nebenläufige Datenstrukturen im Vergleich zu Intels TBB-Bibliothek und schlägt Strategien für das Speichermanagement sowie eine hierarchische Nutzung dieser Strukturen vor, um Speicherlatenzen durch die Reduzierung von Zugriffen auf entfernte NUMA-Knoten zu verringern.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

Das Paper stellt GPSL vor, eine servergesteuerte Methode für Parallel Split Learning, die durch globales Sampling die Batch-Größe unabhängig von der Client-Anzahl hält, Verzerrungen bei nicht-IID-Daten eliminiert und so eine zentralisierte Genauigkeit mit geringem Overhead erreicht.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Die Arbeit zeigt, dass vergessliche Roboter unter sequenziellen Scheduling-Verfahren ein höheres Lösungsvermögen für das universelle Musterbildungsproblem besitzen als unter dem vollständig synchronen FSYNC-Modell, wobei die Lösung des Gatherings allein durch schwache Multiplicitätsdetektion ermöglicht wird.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Die Arbeit stellt Cylon vor, eine hochperformante, verteilte Datenframe-Lösung, die durch die Implementierung einer serverlosen Kommunikator-Architektur mit NAT-Traversal-Techniken die Kommunikationsengpässe bei ML-Datenverarbeitung überbrückt und damit eine Skalierungseffizienz von AWS Lambda erreicht, die innerhalb von 6,5 % der Leistung traditioneller EC2-Cluster liegt.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Diese Arbeit analysiert erstmals den Energieverbrauch von multimodalen Large Language Models (MLLMs) auf GPU-Basis, identifiziert „Modality Inflation" als wesentliche Ineffizienzquelle, die je nach Modell zu einem Energieoverhead von 17 % bis 94 % führt, und demonstriert, dass eine stufenweise dynamische Spannungs- und Frequenzregelung (DVFS) erhebliche Energieeinsparungen bei nur geringen Leistungseinbußen ermöglicht.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Diese Arbeit präsentiert eine vollständige Klassifizierung der verteilten Komplexität lokaler Optimierungsprobleme in gerichteten Zyklen, die zeigt, dass die Komplexität für jede Approximation in deterministischen und randomisierten LOCAL-Modellen genau eine von vier möglichen Stufen annimmt, und bietet zudem einen effizienten Algorithmus zur automatischen Bestimmung dieser Komplexitätsklasse sowie zur Synthese optimaler verteilter Algorithmen.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Dieser Beitrag stellt ein neuartiges, CPU-freies MPI-Kommunikations-API für GPUs vor, das auf dem HPE Slingshot 11 aufbaut und durch eine Implementierung im Cabana/Kokkos-Framework sowie Evaluierungen auf den Supercomputern Frontier und Tuolumne Latenzreduktionen von bis zu 50 % und Geschwindigkeitssteigerungen von 28 % bei halo-exchange-Operationen demonstriert.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

Diese Arbeit präsentiert einen einrundenigen randomisierten verteilten Algorithmus zum 2-Färben von Zyklen, der einen erwarteten Anteil monochromer Kanten unter 0,24118 erreicht, und verbessert damit die bisherigen Schranken, wobei die Beweise maßgeblich von großen Sprachmodellen entwickelt und in Lean 4 formalisiert wurden.

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Die Arbeit stellt FedEMA-Distill vor, eine serverseitige Methode für robustes und kommunikationseffizientes Federated Learning, die durch die Kombination von Exponential Moving Average und Ensemble-Knowledge-Distillation auf Basis von Client-Logits die Genauigkeit unter nicht-IID-Datenbedingungen und Byzantine-Angriffen verbessert, ohne Änderungen an der Client-Software zu erfordern.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Die Studie stellt AMV-L vor, ein Framework für das lebenszyklusgesteuerte Speichermanagement von LLM-Agenten, das durch wertbasierte Promotion und Entlassung sowie eine auf die Arbeitsmenge beschränkte Suche die Tail-Latenz und den Durchsatz in langlaufenden Systemen im Vergleich zu herkömmlichen TTL- und LRU-Ansätzen signifikant verbessert.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Diese Arbeit stellt eine HPX-basierte verteilte Bibliothek vor, die durch asynchrone Ausführung und feinkörnige Parallelität die Latenzgrenzen bestehender Graph-Frameworks überwindet und damit signifikant höhere Leistungen bei der Verarbeitung von BFS, PageRank und Triangle Counting erzielt.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

Dieser technische Bericht stellt eine neuarchitektonisierte, GPU-basierte Version des DuaLip-Lösers für großskalige lineare Programme vor, die durch eine operatorzentrierte Programmierung, spezialisierte GPU-Techniken und verbesserte Optimierungsmethoden eine mindestens zehnfache Beschleunigung gegenüber der vorherigen CPU-basierten Implementierung bei gleichbleibenden Konvergenzgarantien erreicht.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Diese Arbeit schlägt einen hybriden Ansatz vor, der theoretische Modellierung mit empirischem Benchmarking kombiniert, um die optimale Anzahl von Prefill- und Decode-Ressourcen für die LLM-Inferenz unter Berücksichtigung von Durchsatzanforderungen, SLOs und Anfragecharakteristika zu bestimmen.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Dieser dritte Teil der Reihe „The Semantic Arrow of Time" untersucht, wie die RDMA-Technologie durch die „Completion Fallacy" – die irrtümliche Annahme, dass eine erfolgreiche Datenübertragung automatisch eine semantische Integration durch die Anwendung bedeute – einen kritischen zeitlichen Bruch aufweist, der nur durch eine Protokollarchitektur mit einer obligatorischen Reflexionsphase überbrückt werden kann.

Paul Borrill2026-03-06💻 cs

← Zurück Weiter →