Optimal Transport Aggregation for Distributed Mixture-of-Experts

Der Artikel stellt ein effizientes, auf Optimaler Transport basierendes Aggregationsverfahren für verteilte Mixture-of-Experts-Modelle vor, das durch Minimierung einer Transportdivergenz eine globale Schätzung mit nur einem Kommunikationsschritt ermöglicht und dabei statistische Konsistenz sowie eine dem zentralen Training vergleichbare Leistung bei deutlich reduzierter Rechenzeit garantiert.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Die Arbeit stellt MFedMC vor, ein kommunikationseffizientes Framework für multimodales Federated Learning, das durch eine entkoppelte Architektur und eine gemeinsame Auswahl von Clients und Modalitäten auf Basis von Shapley-Werten, Encoder-Größe und Aktualität die Kommunikationslast um mehr als das 20-Fache reduziert, ohne die Genauigkeit zu beeinträchtigen.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Diese Arbeit stellt die Integration von MPI in die QED-C-Benchmarks vor und zeigt, dass Fortschritte in der Interconnect-Technologie für Multi-GPU-Quantenschaltungssimulationen einen größeren Einfluss auf die Lösungszeit haben (über 16-fache Verbesserung) als reine GPU-Architektur-Updates (4,5-fache Verbesserung).

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Diese Studie präsentiert eine umfassende Benchmark- und Deployment-Analyse der LLM-Inferenz auf AMD Instinct MI325X-GPUs, die zeigt, dass architekturspezifische Optimierungen wie die selektive Nutzung des AITER-Runtimes und angepasste Blockgrößen entscheidend für die Leistung sind, während alle getesteten Modelle bei hohen Parallelitätsgraden an eine Speicherbandbreitenbegrenzung stoßen, aber dennoch eine hohe Zuverlässigkeit aufweisen.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Die vorgestellte Arbeit schlägt vor, Engramm-basierte konditionelle Gedächtnisstrukturen für Large Language Models über einen CXL-Memory-Pool auszulagern, um durch feingranularen Zugriff und Prefetching eine skalierbare, kosteneffiziente Lösung zu bieten, die die Inferenzleistung im Vergleich zu DRAM kaum beeinträchtigt.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Das Paper stellt COHORT vor, ein auf ROS basierendes Framework für multi-robotische Systeme, das durch eine hybride Strategie aus Offline- und Online-Reinforcement-Learning die kollaborative Inferenz ressourcenintensiver Deep-Learning-Modelle unter Echtzeitbedingungen optimiert und dabei den Energieverbrauch senkt sowie die GPU-Auslastung und Termintreue signifikant verbessert.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Diese Arbeit stellt eine neuartige Methode vor, die es ermöglicht, die Ozaki-II-Scheme zur Emulation von FP64-Matrixmultiplikation auf FP8-MMA-Einheiten anzuwenden, wodurch im Vergleich zum Ozaki-I-Ansatz die Anzahl der erforderlichen FP8-Multiplikationen signifikant reduziert und eine effiziente Berechnung auf zukünftigen GPU-Architekturen ermöglicht wird.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Die Arbeit stellt CacheSolidarity vor, ein System, das in Multi-Tenant-LLM-Umgebungen Seitenkanalangriffe durch Prefix-Caching verhindert, indem es verdächtige Cache-Wiederverwendung erkennt und selektiv isoliert, wodurch die Sicherheit ohne die bei bisherigen Lösungen üblichen Leistungseinbußen gewährleistet wird.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Die Arbeit stellt Aceso vor, ein adaptives System zur kohlenstoff- und kosteneffizienten Platzierung von Microservices für KMU in regional begrenzten Infrastrukturen, das durch dynamische Optimierung und Suchraumverkleinerung im Vergleich zu statischen Bereitstellungen die CO₂-Emissionen um 37,4 % und die Betriebskosten um 3,6 % senkt, ohne dabei Service-Level-Vereinbarungen zu verletzen.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Der Artikel stellt eine Referenzarchitektur und einen Fahrplan für Quanten-zentrierte Supercomputer (QCSC) vor, die durch die nahtlose Integration von Quanten-, Grafik- und Prozessoren in drei Entwicklungsphasen die manuelle Orchestrierung überwinden und hybride Quanten-Klassische Algorithmen für komplexe Anwendungen in Chemie und Materialwissenschaft beschleunigen sollen.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess