cs.DC Arbeiten | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Der Artikel stellt ein effizientes, auf Optimaler Transport basierendes Aggregationsverfahren für verteilte Mixture-of-Experts-Modelle vor, das durch Minimierung einer Transportdivergenz eine globale Schätzung mit nur einem Kommunikationsschritt ermöglicht und dabei statistische Konsistenz sowie eine dem zentralen Training vergleichbare Leistung bei deutlich reduzierter Rechenzeit garantiert.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Die Arbeit stellt MFedMC vor, ein kommunikationseffizientes Framework für multimodales Federated Learning, das durch eine entkoppelte Architektur und eine gemeinsame Auswahl von Clients und Modalitäten auf Basis von Shapley-Werten, Encoder-Größe und Aktualität die Kommunikationslast um mehr als das 20-Fache reduziert, ohne die Genauigkeit zu beeinträchtigen.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Dieses Paper untersucht die notwendigen und hinreichenden Bedingungen für zuverlässige Kommunikation in dynamischen Netzwerken mit byzantinischen Fehlern und erweitert die Analyse auf Szenarien mit Paketverlusten, verzögerter Berechnung und authentisierten Nachrichten.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Diese Arbeit stellt die Integration von MPI in die QED-C-Benchmarks vor und zeigt, dass Fortschritte in der Interconnect-Technologie für Multi-GPU-Quantenschaltungssimulationen einen größeren Einfluss auf die Lösungszeit haben (über 16-fache Verbesserung) als reine GPU-Architektur-Updates (4,5-fache Verbesserung).

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Das Paper stellt RedFuser vor, ein automatisches Framework, das mithilfe einer formalen theoretischen Methode kaskadierte Reduktionsoperationen in AI-Beschleunigern effizient fusioniert und damit im Vergleich zu aktuellen Compilern Geschwindigkeitssteigerungen von bis zu 5-fach erzielt.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Die Arbeit stellt dmaplane vor, ein Linux-Kernel-Modul, das durch explizite Puffer-Orchestrierung, NUMA-bewusste Verwaltung und RDMA-Integration eine stabile Schnittstelle für hochperformante, sicherheitskritische Datenpfade in KI-Anwendungen bereitstellt.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Diese Studie präsentiert eine umfassende Benchmark- und Deployment-Analyse der LLM-Inferenz auf AMD Instinct MI325X-GPUs, die zeigt, dass architekturspezifische Optimierungen wie die selektive Nutzung des AITER-Runtimes und angepasste Blockgrößen entscheidend für die Leistung sind, während alle getesteten Modelle bei hohen Parallelitätsgraden an eine Speicherbandbreitenbegrenzung stoßen, aber dennoch eine hohe Zuverlässigkeit aufweisen.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Die vorgestellte Arbeit schlägt vor, Engramm-basierte konditionelle Gedächtnisstrukturen für Large Language Models über einen CXL-Memory-Pool auszulagern, um durch feingranularen Zugriff und Prefetching eine skalierbare, kosteneffiziente Lösung zu bieten, die die Inferenzleistung im Vergleich zu DRAM kaum beeinträchtigt.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

Die Arbeit stellt ACE Runtime vor, eine ZKP-native Blockchain-Laufzeitumgebung, die durch die Trennung von Identität und Autorisierung sowie die Verwendung von HMAC-Attestierungen und aggregierten Zero-Knowledge-Beweisen eine kryptografische Endgültigkeit unter einer Sekunde bei konstanten Verifizierungskosten und geringerem Hardwarebedarf ermöglicht.

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Der Artikel stellt AgentServe vor, ein auf einem Consumer-GPU basierendes System, das durch eine Co-Design-Strategie von Algorithmus und System die Stabilität und Latenz bei der Inferenz mehrerer KI-Agenten durch die Isolation von Prefill- und Decode-Phasen sowie dynamisches Ressourcenmanagement signifikant verbessert.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Die Arbeit stellt S-HPLB vor, eine neue Strategie zur lastausgleichenden Verteilung von Aufmerksamkeits-Head-Parallelismus, die die heterogenen, aber stabilen Sparsitäts-Elastizitäten von LLM-Köpfen nutzt, um die Berechnungslatenz um das 2,88-fache zu verringern, ohne die Inferenzqualität zu beeinträchtigen.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Das Paper stellt COHORT vor, ein auf ROS basierendes Framework für multi-robotische Systeme, das durch eine hybride Strategie aus Offline- und Online-Reinforcement-Learning die kollaborative Inferenz ressourcenintensiver Deep-Learning-Modelle unter Echtzeitbedingungen optimiert und dabei den Energieverbrauch senkt sowie die GPU-Auslastung und Termintreue signifikant verbessert.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Diese Arbeit stellt eine Methode zur präzisen und kostengünstigen Abschätzung der Konditionszahl von Chebyshev-gefilterten Vektoren vor, um im ChASE-Algorithmus die optimale QR-Zerlegung automatisch auszuwählen und so die Leistung zu steigern, ohne die Genauigkeit zu beeinträchtigen.

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

Die Arbeit stellt CD-Raft vor, ein optimiertes Raft-Protokoll für cross-domänische Standorte, das durch die Optimierung der Round-Trip-Zeiten und eine intelligente Leader-Positionierung die Konsenslatenz signifikant reduziert und dabei die starke Konsistenz mittels TLA+ formal verifiziert wurde.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Diese Arbeit stellt eine neuartige Methode vor, die es ermöglicht, die Ozaki-II-Scheme zur Emulation von FP64-Matrixmultiplikation auf FP8-MMA-Einheiten anzuwenden, wodurch im Vergleich zum Ozaki-I-Ansatz die Anzahl der erforderlichen FP8-Multiplikationen signifikant reduziert und eine effiziente Berechnung auf zukünftigen GPU-Architekturen ermöglicht wird.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Die Arbeit stellt CacheSolidarity vor, ein System, das in Multi-Tenant-LLM-Umgebungen Seitenkanalangriffe durch Prefix-Caching verhindert, indem es verdächtige Cache-Wiederverwendung erkennt und selektiv isoliert, wodurch die Sicherheit ohne die bei bisherigen Lösungen üblichen Leistungseinbußen gewährleistet wird.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Die Arbeit stellt Aceso vor, ein adaptives System zur kohlenstoff- und kosteneffizienten Platzierung von Microservices für KMU in regional begrenzten Infrastrukturen, das durch dynamische Optimierung und Suchraumverkleinerung im Vergleich zu statischen Bereitstellungen die CO₂-Emissionen um 37,4 % und die Betriebskosten um 3,6 % senkt, ohne dabei Service-Level-Vereinbarungen zu verletzen.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Diese Arbeit stellt ein topologisches Modell für serverlose Plattformen vor, das mithilfe der Hodge-Zerlegung harmonische Flusskomponenten als strukturelle Systemeigenschaften identifiziert und iterative Strategien zur Fehlerbehebung sowie zur Eindämmung von Ineffizienzen durch „Dumping-Effekte" entwickelt.

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Diese Studie untersucht den Einfluss von CNN-Architekturen und Daten-Augmentierung auf die Genauigkeit und Recheneffizienz in verteilten Lernumgebungen, um Optimierungsansätze für ressourcenintensive Szenarien zu liefern.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Der Artikel stellt eine Referenzarchitektur und einen Fahrplan für Quanten-zentrierte Supercomputer (QCSC) vor, die durch die nahtlose Integration von Quanten-, Grafik- und Prozessoren in drei Entwicklungsphasen die manuelle Orchestrierung überwinden und hybride Quanten-Klassische Algorithmen für komplexe Anwendungen in Chemie und Materialwissenschaft beschleunigen sollen.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← Zurück Weiter →