cs.DC articles | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Cet article propose une méthode d'agrégation de modèles de mélanges d'experts distribués basée sur le transport optimal, qui permet de reconstruire un estimateur global cohérent avec une seule étape de communication tout en garantissant des performances comparables à un entraînement centralisé.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Ce papier propose MFedMC, un cadre d'apprentissage fédéré multimodal économe en communication qui utilise une architecture découplée et une sélection conjointe des clients et des modalités pour surmonter l'hétérogénéité des données et les limitations de bande passante tout en maintenant une haute précision.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Cet article établit les conditions nécessaires et suffisantes pour assurer une communication fiable dans des réseaux dynamiques soumis à des pannes byzantines, tout en étendant son analyse aux pertes de messages, aux délais de calcul locaux et aux messages authentifiés.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Cette étude présente l'intégration de MPI dans les benchmarks QED-C pour évaluer l'impact des interconnexions sur la simulation de circuits quantiques multi-GPU, démontrant que les progrès des réseaux (avec plus de 16x d'amélioration) surpassent désormais les gains d'architecture GPU (4,5x) pour réduire le temps de résolution.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Ce papier présente RedFuser, un cadre de fusion automatique d'opérateurs conçu pour optimiser les réductions en cascade sur les accélérateurs d'IA en générant des noyaux exécutables qui surpassent les compilateurs actuels et rivalisent avec des implémentations manuelles.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Ce papier présente dmaplane, un module noyau Linux qui orchestre la gestion des buffers et l'exportation DMA pour optimiser les flux de données IA, en permettant notamment l'inférence désagrégée via des transferts RDMA entre machines.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Cette étude présente une évaluation comparative de l'inférence de grands modèles de langage sur les GPU AMD Instinct MI325X, démontrant que l'optimisation adaptée à l'architecture est cruciale pour maximiser le débit et la stabilité, tout en validant des performances élevées et une fiabilité totale sur des modèles allant jusqu'à 1 trillion de paramètres.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Ce papier propose d'utiliser un pool de mémoire CXL pour stocker la mémoire conditionnelle des engrammes dans les grands modèles de langage, offrant une solution de stockage évolutive et rentable qui maintient des performances d'inférence proches de celles de la DRAM grâce à l'intégration dans SGLang.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

Ce papier présente ACE Runtime, une couche d'exécution blockchain native ZKP qui sépare l'identité de l'autorisation pour remplacer les vérifications de signatures par transaction par des attestations HMAC légères et une preuve de finalité agrégée, permettant ainsi une finalité cryptographique en moins d'une seconde avec des coûts de vérification constants et une meilleure résistance post-quantique.

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Le papier présente AgentServe, un système de service conçu pour une seule carte graphique grand public qui améliore la stabilité et les performances du service d'IA agentique en isolant les phases de préremplissage et de décodage et en allouant dynamiquement les ressources GPU pour résoudre les conflits de contention.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Ce papier propose S-HPLB, une nouvelle stratégie de déploiement qui équilibre la charge entre les têtes d'attention en adaptant dynamiquement leur budget de parcimonie, permettant ainsi de réduire la latence de calcul de 2,88 fois sans dégrader la qualité des inférences sur les grands modèles de langage.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Le papier présente COHORT, un cadre d'inférence collaborative de réseaux de neurones profonds pour systèmes multi-robots qui utilise une stratégie d'apprentissage par renforcement hybride (offline AWR et online MAPPO) pour optimiser la répartition des tâches, réduisant ainsi la consommation d'énergie et augmentant l'utilisation du GPU tout en respectant les contraintes temps réel.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Cet article présente une méthode pour estimer de manière précise et peu coûteuse le nombre de conditionnement des vecteurs filtrés par Chebyshev, permettant ainsi d'optimiser automatiquement le choix de l'algorithme de factorisation QR dans la bibliothèque ChASE pour améliorer ses performances sans sacrifier la précision.

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

Ce papier présente CD-Raft, un protocole Raft optimisé pour les sites inter-domaines qui réduit significativement la latence de consensus grâce à une gestion améliorée du temps aller-retour et un positionnement stratégique du nœud leader, tout en garantissant une cohérence forte vérifiée formellement.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Cet article propose une méthode novatrice pour émuler la multiplication matricielle en double précision (FP64) en utilisant des unités de calcul FP8 via le schéma Ozaki-II, surmontant ainsi les limitations des approches précédentes et réduisant significativement le nombre d'opérations nécessaires pour les architectures GPU émergentes.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Le papier présente CacheSolidarity, un système qui sécurise les environnements d'inférence de grands modèles de langage multi-locataires contre les canaux latéraux de mise en cache de préfixes en isolant sélectivement les préfixes suspects, permettant ainsi de préserver l'efficacité et la performance sans sacrifier la sécurité.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Le papier présente Aceso, une solution de placement adaptatif de microservices conçue pour les PME qui optimise simultanément les émissions de carbone, les coûts et la latence dans des infrastructures régionales limitées, réduisant ainsi les émissions de carbone de 37,4 % et les coûts opérationnels de 3,6 % par rapport aux déploiements statiques tout en respectant les objectifs de service.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Cet article propose une analyse topologique des flux dans les plateformes serverless utilisant la décomposition de Hodge pour distinguer les erreurs locales des modes harmoniques structurels, permettant ainsi de développer des stratégies de remédiation pratiques comme l'introduction d'effets de « drainage » pour contenir les inefficacités sans restructurer l'architecture.

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Cette étude analyse l'influence des architectures de réseaux de neurones convolutifs sur la précision des modèles et l'efficacité computationnelle dans les environnements d'apprentissage distribués, comblant ainsi un vide dans la compréhension de l'impact de ces modèles sur les ressources informatiques.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Cet article présente une architecture de référence et une feuille de route pour les supercalculateurs centrés sur le quantum (QCSC), qui visent à intégrer de manière transparente les unités de traitement quantique, graphique et centrale afin de surmonter les limites actuelles de l'orchestration manuelle et d'accélérer la découverte d'algorithmes hybrides pour des applications critiques.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← Précédent Suivant →