Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Ce papier propose MFedMC, un cadre d'apprentissage fédéré multimodal économe en communication qui utilise une architecture découplée et une sélection conjointe des clients et des modalités pour surmonter l'hétérogénéité des données et les limitations de bande passante tout en maintenant une haute précision.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Cette étude présente l'intégration de MPI dans les benchmarks QED-C pour évaluer l'impact des interconnexions sur la simulation de circuits quantiques multi-GPU, démontrant que les progrès des réseaux (avec plus de 16x d'amélioration) surpassent désormais les gains d'architecture GPU (4,5x) pour réduire le temps de résolution.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Cette étude présente une évaluation comparative de l'inférence de grands modèles de langage sur les GPU AMD Instinct MI325X, démontrant que l'optimisation adaptée à l'architecture est cruciale pour maximiser le débit et la stabilité, tout en validant des performances élevées et une fiabilité totale sur des modèles allant jusqu'à 1 trillion de paramètres.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Ce papier propose d'utiliser un pool de mémoire CXL pour stocker la mémoire conditionnelle des engrammes dans les grands modèles de langage, offrant une solution de stockage évolutive et rentable qui maintient des performances d'inférence proches de celles de la DRAM grâce à l'intégration dans SGLang.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

Ce papier présente ACE Runtime, une couche d'exécution blockchain native ZKP qui sépare l'identité de l'autorisation pour remplacer les vérifications de signatures par transaction par des attestations HMAC légères et une preuve de finalité agrégée, permettant ainsi une finalité cryptographique en moins d'une seconde avec des coûts de vérification constants et une meilleure résistance post-quantique.

Jian Sheng WangThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Le papier présente COHORT, un cadre d'inférence collaborative de réseaux de neurones profonds pour systèmes multi-robots qui utilise une stratégie d'apprentissage par renforcement hybride (offline AWR et online MAPPO) pour optimiser la répartition des tâches, réduisant ainsi la consommation d'énergie et augmentant l'utilisation du GPU tout en respectant les contraintes temps réel.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Cet article propose une méthode novatrice pour émuler la multiplication matricielle en double précision (FP64) en utilisant des unités de calcul FP8 via le schéma Ozaki-II, surmontant ainsi les limitations des approches précédentes et réduisant significativement le nombre d'opérations nécessaires pour les architectures GPU émergentes.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Le papier présente CacheSolidarity, un système qui sécurise les environnements d'inférence de grands modèles de langage multi-locataires contre les canaux latéraux de mise en cache de préfixes en isolant sélectivement les préfixes suspects, permettant ainsi de préserver l'efficacité et la performance sans sacrifier la sécurité.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Le papier présente Aceso, une solution de placement adaptatif de microservices conçue pour les PME qui optimise simultanément les émissions de carbone, les coûts et la latence dans des infrastructures régionales limitées, réduisant ainsi les émissions de carbone de 37,4 % et les coûts opérationnels de 3,6 % par rapport aux déploiements statiques tout en respectant les objectifs de service.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Cette étude analyse l'influence des architectures de réseaux de neurones convolutifs sur la précision des modèles et l'efficacité computationnelle dans les environnements d'apprentissage distribués, comblant ainsi un vide dans la compréhension de l'impact de ces modèles sur les ressources informatiques.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Cet article présente une architecture de référence et une feuille de route pour les supercalculateurs centrés sur le quantum (QCSC), qui visent à intégrer de manière transparente les unités de traitement quantique, graphique et centrale afin de surmonter les limites actuelles de l'orchestration manuelle et d'accélérer la découverte d'algorithmes hybrides pour des applications critiques.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess