Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Ce papier présente la première plateforme de formation distribuée sur le cloud utilisant mille GPU pour l'intelligence incarnée, qui, grâce à des optimisations logicielles et matérielles complètes, a réduit le temps d'entraînement d'un modèle de 15 heures à 22 minutes tout en établissant un écosystème complet de données, d'infrastructure et d'évaluation pour accélérer le développement de l'AGI.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Cet article propose une architecture d'orchestration décentralisée et agnostique pour le calcul fluide, validée par une étude de cas sur l'apprentissage fédéré distribué sécurisé contre les menaces byzantines grâce à un mécanisme de détection d'anomalies multi-domaines nommé FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

L'article propose AGMARL-DKS, un planificateur Kubernetes dynamique basé sur l'apprentissage par renforcement multi-agents et les réseaux de neurones graphiques, qui améliore la tolérance aux pannes, l'utilisation des ressources et la réduction des coûts grâce à une approche décentralisée et une politique d'ordonnancement lexicographique adaptée au stress du système.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Le papier présente Cornserve, un système de service distribué open-source conçu pour les modèles multimodaux « any-to-any » qui permet le découplage des composants et une mise à l'échelle indépendante, offrant ainsi une augmentation significative du débit et une réduction de la latence grâce à un modèle d'exécution efficace basé sur Kubernetes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Ce papier présente WORKSWORLD, un nouveau domaine pour les planificateurs numériques indépendants du domaine, conçu pour automatiser conjointement la planification et l'ordonnancement de pipelines de données distribués en générant dynamiquement les graphes de flux de travail et de ressources sans nécessiter une définition complète du graphe cible.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Cet article présente la conception, l'analyse et les performances d'une liste sautante déterministe concurrente sur des nœuds NUMA many-core, tout en évaluant des implémentations de files d'attente et de tables de hachage concurrentes comparées à la bibliothèque Intel TBB, et propose des stratégies de gestion de la mémoire et une utilisation hiérarchique des structures de données pour réduire les défauts de page, les ratés de cache et les accès mémoire distants.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

Ce papier présente GPSL, une méthode de type « drop-in » pour l'apprentissage fractionné parallèle qui, en fixant la taille du lot global via un échantillonnage mondial, élimine les biais d'arrondi et les distorsions liées aux données non-IID, garantissant ainsi une précision et une stabilité comparables à celles d'un échantillonnage centralisé tout en réduisant le temps d'entraînement.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

Cet article démontre que, contrairement au modèle entièrement synchrone FSYNC où la formation universelle de motifs est impossible, les robots aveugles fonctionnant sous des planificateurs séquentiels peuvent résoudre ce problème (et le problème de rassemblement avec détection de multiplicité) sans hypothèses supplémentaires, révélant ainsi une puissance computationnelle orthogonale à celle du modèle FSYNC.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Ce papier présente Cylon, une solution de traitement de données distribuées qui combine les paradigmes serverless et HPC en utilisant le perçage de trous TCP (NAT Traversal) pour permettre une communication directe entre les fonctions AWS Lambda, atteignant ainsi une efficacité de mise à l'échelle à 64 nœuds qui ne diffère que de 6,5 % de celle des instances EC2 traditionnelles.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

Cet article analyse le phénomène d'inflation modale dans les grands modèles de langage multimodaux (MLLM), quantifie pour la première fois ses coûts énergétiques à l'échelle des différentes étapes d'inférence, identifie les goulots d'étranglement spécifiques selon l'architecture et propose l'échelle de tension et de fréquence dynamique (DVFS) par étape comme solution efficace pour réduire la consommation d'énergie.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

Cet article établit une classification complète de la complexité computationnelle distribuée des problèmes d'optimisation locale dans les cycles orientés, démontrant que leur résolution se situe dans l'une des quatre classes de complexité distinctes (O(1), Θ(log* n) ou Θ(n)) et fournissant un algorithme centralisé capable d'identifier automatiquement cette classe ainsi que de synthétiser un algorithme distribué asymptotiquement optimal.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

L'article propose FedEMA-Distill, une méthode de distillation de connaissances guidée par une moyenne mobile exponentielle qui améliore la robustesse et l'efficacité des communications de l'apprentissage fédéré face aux données hétérogènes et aux attaques malveillantes en n'exigeant que l'envoi de logits compressés depuis les clients.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Ce papier présente AMV-L, un cadre de gestion de mémoire pour agents LLM à longue durée de vie qui remplace les politiques de rétention basées sur l'âge par une gestion de cycle de vie pilotée par la valeur, permettant ainsi de borner la taille de l'ensemble de travail de récupération et de réduire considérablement la latence extrême tout en maintenant la qualité des réponses.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

Cet article présente une bibliothèque distribuée implémentant des algorithmes de graphes clés (BFS, PageRank, comptage de triangles) via le système d'exécution HPX, démontrant que l'exploitation de l'exécution asynchrone et du masquage de la latence permet de surpasser significativement les cadres conventionnels comme GraphX et PBGL.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs