cs.DC articoli | Gist.Science

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Questo articolo propone un metodo di aggregazione basato sul trasporto ottimo per combinare modelli Mixture-of-Experts distribuiti in un unico stimatore globale, garantendo efficienza computazionale, bassi costi di comunicazione e prestazioni statistiche comparabili all'addestramento centralizzato.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

Il paper presenta MFedMC, un framework di apprendimento federato multimodale efficiente nelle comunicazioni che, attraverso un'architettura disaccoppiata e un algoritmo di selezione congiunta di client e modalità basato su valori di Shapley, riduce l'overhead di comunicazione di oltre 20 volte mantenendo prestazioni comparabili ai metodi esistenti.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Questo articolo investiga le condizioni necessarie e sufficienti per garantire comunicazioni affidabili in reti dinamiche soggette a guasti bizantini, estendendo l'analisi anche a scenari con perdita di messaggi, ritardi computazionali e messaggi autenticati.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)Thu, 12 Ma💻 cs

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Questo studio introduce l'uso di MPI nei benchmark QED-C per simulare circuiti quantistici su più GPU, dimostrando che i progressi nelle tecnologie di interconnessione hanno un impatto sulla velocità di calcolo superiore (oltre 16 volte) rispetto ai soli miglioramenti dell'architettura GPU.

W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal NeiraThu, 12 Ma⚛️ quant-ph

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Il paper presenta RedFuser, un framework automatico che ottimizza le prestazioni degli acceleratori AI fondendo in un singolo ciclo le operazioni di riduzione concatenate, superando i limiti dei compilatori esistenti e raggiungendo velocità fino a 5 volte superiori.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Questo articolo presenta dmaplane, un modulo del kernel Linux che orchestra la gestione dei buffer a livello di sistema per ottimizzare i percorsi dei dati nell'IA, abilitando funzionalità avanzate come la condivisione cross-device tramite dma-buf, il controllo di flusso basato su crediti e l'inferenza disaggregata end-to-end su RDMA.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Questo studio presenta una valutazione trasversale dell'inferenza di LLM su GPU AMD Instinct MI325X, dimostrando che l'ottimizzazione consapevole dell'architettura è fondamentale per massimizzare il throughput e la stabilità, evidenziando come modelli MoE+MLA e GQA richiedano configurazioni specifiche del runtime AITER e blocchi di cache diversi per raggiungere prestazioni competitive.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Questo articolo propone l'utilizzo di un pool di memoria CXL per archiviare la memoria engramma condizionale nei grandi modelli linguistici, integrandolo in SGLang per ottenere prestazioni end-to-end vicine a quelle della DRAM e offrire una soluzione di storage scalabile ed economica senza compromettere l'inferenza.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

ACE Runtime - A ZKP-Native Blockchain Runtime with Sub-Second Cryptographic Finality

Il documento presenta ACE Runtime, un'architettura blockchain nativa ZKP che separa l'autenticazione dell'identità dall'autorizzazione per sostituire le verifiche delle firme per transazione con attestazioni HMAC leggere e una singola prova aggregata, consentendo una finalità crittografica sub-seconda con costi di verifica costanti e una migliore efficienza hardware.

Jian Sheng WangThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Il paper presenta AgentServe, un sistema di serving per AI agenti su GPU consumer che, attraverso la co-progettazione algoritmo-sistema e l'isolamento delle fasi di prefill e decode, garantisce un'esecuzione multi-agente stabile con riduzioni fino a 2,8 volte nel tempo di primo token e 2,7 volte nel tempo per token rispetto alle soluzioni attuali.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

Il paper propone S-HPLB, una strategia di bilanciamento del carico parallelo a livello di testa che sfrutta l'eterogeneità stabile della sparsità nelle teste di attenzione degli LLM per ridurre i tempi di calcolo fino a 2,88 volte senza compromettere la qualità dell'inferenza.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi GuoThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Il paper presenta COHORT, un framework basato su ROS che utilizza un approccio ibrido di apprendimento per rinforzo (offline e online) per ottimizzare l'inferenza collaborativa di grandi reti neurali su sistemi multi-robot, riducendo il consumo energetico e migliorando l'utilizzo della GPU nel rispetto dei vincoli temporali reali.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

Estimating the condition number of Chebyshev filtered vectors with application to the ChASE library

Questo lavoro presenta un metodo per stimare con precisione e basso costo il numero di condizione dei vettori filtrati di Chebyshev, implementando tale stima nella libreria ChASE per ottimizzare automaticamente la scelta dell'algoritmo di fattorizzazione QR e migliorare le prestazioni senza compromettere l'accuratezza.

Edoardo Di Napoli, Xinzhe WuThu, 12 Ma🔢 math

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

Il paper presenta CD-Raft, un protocollo Raft ottimizzato per ridurre la latenza del consenso nei siti cross-dominio attraverso la minimizzazione del RTT e il posizionamento strategico del leader, garantendo la coerenza forte e dimostrando sperimentalmente una significativa riduzione della latenza rispetto all'implementazione classica.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen XuThu, 12 Ma💻 cs

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Questo articolo propone un metodo innovativo per emulare la moltiplicazione di matrici in doppia precisione (FP64) utilizzando unità di calcolo FP8 attraverso una tecnica adattata dello schema Ozaki-II, superando i limiti delle implementazioni precedenti e riducendo il numero di operazioni necessarie rispetto allo schema Ozaki-I.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki ImamuraThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Il paper presenta CacheSolidarity, un sistema che protegge i sistemi di serving LLM multi-tenant dagli attacchi side-channel derivanti dalla cache dei prefissi, monitorando e isolando selettivamente le condivisioni sospette per garantire sicurezza senza sacrificare le prestazioni.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Il paper presenta Aceso, un sistema adattivo che ottimizza il posizionamento dei microservizi per le PMI considerando vincoli di carbonio, costi e latenza, riducendo le emissioni di carbonio del 37,4% e i costi operativi del 3,6% rispetto alle distribuzioni statiche.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Questo paper introduce un modello topologico basato sulla decomposizione di Hodge per analizzare i flussi operativi nelle piattaforme serverless, distinguendo tra errori locali e armoniche strutturali, e propone strategie di mitigazione come l'effetto "dumping" per gestire le inefficienze senza dover ristrutturare completamente l'architettura.

Gianluca Reali, Mauro FemminellaThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Questo studio analizza come le architetture delle reti neurali convoluzionali influenzino l'accuratezza del modello e l'efficienza computazionale nell'apprendimento distribuito, fornendo indicazioni per ottimizzare il loro dispiegamento in scenari ad alta intensità di risorse.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

Questo articolo presenta un'architettura di riferimento e una roadmap per i supercomputer centrati sul quantum (QCSC), sistemi co-progettati che integrano unità di elaborazione quantistica, GPU e CPU per superare le limitazioni attuali e accelerare la scoperta di algoritmi ibridi in ambiti come la chimica e la scienza dei materiali.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

← Precedente Successivo →