Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Dieses Paper stellt eine bahnbrechende, auf tausend GPUs basierte Cloud-Infrastruktur für das Training von Embodied Intelligence vor, die durch optimierte Datenpipelines, fortschrittliche Modelltechniken und eine hochleistungsfähige Netzwerkinfrastruktur die Trainingszeit für das GR00T-N1.5-Modell um das 40-fache auf nur 22 Minuten reduziert und so eine geschlossene Evaluierungsschleife für die nächste Generation autonomer Roboter schafft.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Diese Arbeit stellt eine dezentrale Orchestrierungsarchitektur für Fluid Computing vor, die durch die Nutzung domänenspezifischer Fähigkeiten und eines SDN-basierten Anomalieerkennungsmechanismus (FU-HST) eine sichere, mehrdomänige Verteilung von Federated Learning unter Byzantinischen Bedrohungen ermöglicht.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Die Studie stellt AGMARL-DKS vor, einen adaptiven, graphenbasierten Multi-Agenten-Verstärkungslern-Scheduler für Kubernetes, der durch dezentrale Ausführung, globale Kontextmodellierung mittels Graph Neural Networks und stressbewusste lexikografische Priorisierung die Skalierbarkeit, Fehlertoleranz und Ressourcennutzung im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve ist ein verteiltes Serving-System, das auf Kubernetes basiert und durch flexible Aufgabenabstraktion sowie eine effiziente Record-and-Replay-Ausführung die Skalierbarkeit und Leistung von beliebigen Any-to-Any-Multimodalmodellen mit bis zu 3,81-fach höherem Durchsatz und 5,79-fach niedrigerer Tail-Latenz verbessert.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

Concurrent Deterministic Skiplist and Other Data Structures

Diese Arbeit stellt den Entwurf, die Analyse und die Leistung eines deterministischen, nebenläufigen Skiplists auf vielen NUMA-Kernen vor, bewertet weitere nebenläufige Datenstrukturen im Vergleich zu Intels TBB-Bibliothek und schlägt Strategien für das Speichermanagement sowie eine hierarchische Nutzung dieser Strukturen vor, um Speicherlatenzen durch die Reduzierung von Zugriffen auf entfernte NUMA-Knoten zu verringern.

Aparna Sasidharan2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Die Arbeit stellt Cylon vor, eine hochperformante, verteilte Datenframe-Lösung, die durch die Implementierung einer serverlosen Kommunikator-Architektur mit NAT-Traversal-Techniken die Kommunikationsengpässe bei ML-Datenverarbeitung überbrückt und damit eine Skalierungseffizienz von AWS Lambda erreicht, die innerhalb von 6,5 % der Leistung traditioneller EC2-Cluster liegt.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Diese Arbeit analysiert erstmals den Energieverbrauch von multimodalen Large Language Models (MLLMs) auf GPU-Basis, identifiziert „Modality Inflation" als wesentliche Ineffizienzquelle, die je nach Modell zu einem Energieoverhead von 17 % bis 94 % führt, und demonstriert, dass eine stufenweise dynamische Spannungs- und Frequenzregelung (DVFS) erhebliche Energieeinsparungen bei nur geringen Leistungseinbußen ermöglicht.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Diese Arbeit präsentiert eine vollständige Klassifizierung der verteilten Komplexität lokaler Optimierungsprobleme in gerichteten Zyklen, die zeigt, dass die Komplexität für jede Approximation in deterministischen und randomisierten LOCAL-Modellen genau eine von vier möglichen Stufen annimmt, und bietet zudem einen effizienten Algorithmus zur automatischen Bestimmung dieser Komplexitätsklasse sowie zur Synthese optimaler verteilter Algorithmen.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Dieser Beitrag stellt ein neuartiges, CPU-freies MPI-Kommunikations-API für GPUs vor, das auf dem HPE Slingshot 11 aufbaut und durch eine Implementierung im Cabana/Kokkos-Framework sowie Evaluierungen auf den Supercomputern Frontier und Tuolumne Latenzreduktionen von bis zu 50 % und Geschwindigkeitssteigerungen von 28 % bei halo-exchange-Operationen demonstriert.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Die Arbeit stellt FedEMA-Distill vor, eine serverseitige Methode für robustes und kommunikationseffizientes Federated Learning, die durch die Kombination von Exponential Moving Average und Ensemble-Knowledge-Distillation auf Basis von Client-Logits die Genauigkeit unter nicht-IID-Datenbedingungen und Byzantine-Angriffen verbessert, ohne Änderungen an der Client-Software zu erfordern.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

DuaLip-GPU Technical Report

Dieser technische Bericht stellt eine neuarchitektonisierte, GPU-basierte Version des DuaLip-Lösers für großskalige lineare Programme vor, die durch eine operatorzentrierte Programmierung, spezialisierte GPU-Techniken und verbesserte Optimierungsmethoden eine mindestens zehnfache Beschleunigung gegenüber der vorherigen CPU-basierten Implementierung bei gleichbleibenden Konvergenzgarantien erreicht.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

Dieser dritte Teil der Reihe „The Semantic Arrow of Time" untersucht, wie die RDMA-Technologie durch die „Completion Fallacy" – die irrtümliche Annahme, dass eine erfolgreiche Datenübertragung automatisch eine semantische Integration durch die Anwendung bedeute – einen kritischen zeitlichen Bruch aufweist, der nur durch eine Protokollarchitektur mit einer obligatorischen Reflexionsphase überbrückt werden kann.

Paul Borrill2026-03-06💻 cs