cs.DC papers | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Deze paper introduceert een efficiënt, op optimale transport gebaseerd aggregatiekader voor het combineren van lokaal getrainde Mixture-of-Experts-modellen in een decentrale omgeving, waarbij met slechts één communicatiestap een globaal model wordt verkregen dat prestaties vergelijkbaar met centrale training bereikt.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Dit paper introduceert MFedMC, een communicatie-efficiënt framework voor multimodaal federatief leren dat een gedecoupeerde architectuur en een gezamenlijke selectie van clients en modaliteiten combineert om de uitdagingen van heterogene netwerken en bandbreedtebeperkingen aan te pakken, wat resulteert in een aanzienlijke reductie van communicatie-overhead zonder in te leveren op nauwkeurigheid.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Dit artikel onderzoekt de noodzakelijke en voldoende voorwaarden voor betrouwbare communicatie in dynamische netwerken met Byzantijnse fouten, en identificeert specifieke netwerkklassen waar deze aan de eisen voldoen, zelfs bij het optreden van berichtenverlies, onbeperkte vertraging en het gebruik van geverifieerde berichten.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Dit artikel introduceert MPI in de QED-C-benchmarks om de prestaties van multi-GPU quantumcircuit-simulaties te evalueren en toont aan dat verbeteringen in interconnect-technologie (met meer dan 16x versnelling) een grotere impact hebben op de oplossingstijd dan alleen de evolutie van GPU-architectuur.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

RedFuser is een automatisch framework dat cascaderende reductie-operaties in AI-modellen efficiënt samenvoegt tot een enkele lus, waardoor een snelheidsverhoging van 2 tot 5 keer wordt bereikt ten opzichte van bestaande compilers.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Dit paper introduceert dmaplane, een Linux-kernmodule die buffer-orkestratie voor AI-datastromen expliciet maakt via een stabiele kernel-gebruikersinterface, en daarmee functies zoals NUMA-bewuste toewijzing, DMA-bufferbeheer en RDMA-gebaseerde gedistribueerde inferentie mogelijk maakt.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Deze studie presenteert een uitgebreide benchmark van LLM-inferentie op AMD Instinct MI325X-GPU's, waarbij wordt aangetoond dat architectuurbewuste optimalisaties, zoals het selectief toepassen van de AITER-runtime en het aanpassen van blokgroottes, essentieel zijn voor het maximaliseren van de doorvoer en stabiliteit van diverse modelarchitecturen.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Dit paper introduceert een schaalbare en kostenefficiënte oplossing voor Engram-gebaseerde conditionele geheugen in grote taalmodellen door het gebruik van CXL-geheugenpools, wat naadloze integratie met SGLang mogelijk maakt en prestaties dicht bij die van DRAM behoudt.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

Dit artikel introduceert ACE Runtime, een ZKP-native blockchain-uitvoeringslaag die door het scheiden van identiteit en autorisatie en het vervangen van transactiesignaturen door geaggregeerde zero-knowledge-bewijzen, cryptografische finaliteit in minder dan een seconde bereikt met constante verificatiekosten en verbeterde post-kwantumbestendigheid.

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

AgentServe is een systeem voor het bedienen van AI-agenten op consumentengpu's dat door middel van co-design van algoritme en systeem de prestaties verbetert door prefills en decodes te isoleren en GPU-bronnen dynamisch te beheren, wat leidt tot aanzienlijk stabielere latenties en hogere doorvoersnelheden.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Dit paper introduceert S-HPLB, een nieuwe strategie voor head-parallelle load balancing die gebruikmaakt van de heterogene sparsiteit van LLM-attention heads om de berekeningstijd op meerdere GPU's te optimaliseren en de latentie met een factor 2,88 te verminderen zonder kwaliteitsverlies.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Dit paper introduceert COHORT, een hybride reinforcement learning-framework voor multi-robotsystemen dat de inferentie van grote deep neural networks efficiënt coördineert door offline en online leertechnieken te combineren, waardoor batterijverbruik wordt verminderd, GPU-gebruik wordt geoptimaliseerd en real-time deadlines in missiekritische scenario's worden gehaald.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Dit artikel presenteert een methode om de voorwaardegetallen van door Chebyshev-gefilterde vectoren nauwkeurig en goedkoop te schatten, waarmee in de ChASE-bibliotheek een efficiëntere keuze voor QR-factorisatie-algoritmen mogelijk wordt gemaakt zonder in te leveren op nauwkeurigheid.

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

In dit paper wordt CD-Raft voorgesteld, een geoptimaliseerd Raft-protocol dat de consensuslatentie tussen verschillende domeinen aanzienlijk verlaagt door het optimaliseren van de round-trip-tijd en de positie van de leader-node, wat resulteert in een gemiddelde latentiereductie van 32,90% en een vermindering van de tail-latentie met 49,24%.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Dit paper introduceert een nieuwe techniek om dubbelprecisie-matrixvermenigvuldiging te emuleren met FP8-hardware via het Ozaki-II-schema, wat een efficiëntere oplossing biedt dan bestaande methoden door het aantal benodigde FP8-matrixvermenigvuldigingen aanzienlijk te verminderen.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Dit paper introduceert CacheSolidarity, een systeem dat timing-kantekanaal-aanvallen via automatische prefix-caching in multi-tenant LLM-systemen voorkomt door verdachte cache-deling selectief te isoleren, waardoor de prestaties en efficiëntie behouden blijven ten opzichte van bestaande, volledig isolerende verdedigingsmechanismen.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Dit paper introduceert Aceso, een adaptief systeem voor het plaatsen van microservices dat specifiek is ontworpen voor kleine en middelgrote bedrijven om koolstofuitstoot en operationele kosten te verlagen zonder in te leveren op latentie-eisen, zelfs binnen regionaal beperkte infrastructuur.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Dit paper introduceert een topologisch model met Hodge-decompositie voor serverloze platforms om operationele stromen te analyseren, waarbij harmonische modi worden geïdentificeerd als structurele eigenschappen in plaats van configuratiefouten, en een iteratieve methode biedt voor het afleiden van praktische herstelstrategieën zoals het invoeren van 'dumping effects'.

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Dit onderzoek analyseert hoe CNN-architecturen en data-augmentatie de nauwkeurigheid en computerefficiëntie beïnvloeden in gedistribueerde leeromgevingen, met als doel de implementatie van deze modellen in bronnenintensieve scenario's te optimaliseren.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Dit artikel presenteert een referentiearchitectuur en een roadmap voor Quantum-Centrische Supercomputing (QCSC), die QPUs, GPUs en CPUs integreert om de huidige barrières in het handmatig coördineren van hybride workflows te overwinnen en de ontwikkeling van quantumcomputing voor kritieke toepassingen in drie fasen te versnellen.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← Vorige Volgende →