cs.DC articoli | Gist.Science

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Il paper presenta Nezha, un archivio distribuito chiave-valore che risolve le sovrapposizioni di I/O tra il protocollo di consenso Raft e i motori di storage integrando la separazione chiave-valore e una raccolta spazzatura a livelli, ottenendo così significativi miglioramenti nelle prestazioni di throughput mantenendo la coerenza forte.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Questo articolo propone un framework gerarchico basato sul ciclo OODA (Osserva-Orienta-Decidi-Agisci) distribuito su livelli cloud-edge-terminal e potenziato dalla virtualizzazione delle funzioni di rete, per migliorare l'adattabilità, l'efficienza e il processo decisionale cooperativo degli sciami di droni in ambienti incerti.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Il paper introduce PIM-SHERPA, un metodo software che risolve le inconsistenze negli attributi e nel layout della memoria per abilitare un'efficiente inferenza di modelli linguistici di grandi dimensioni (LLM) su dispositivi edge tramite Processing-in-Memory (PIM), ottenendo risparmi significativi nella capacità di memoria senza compromettere le prestazioni.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Il paper presenta Flash-KMeans, un'implementazione GPU ottimizzata che supera i colli di bottiglia di I/O e di contenzione delle versioni esistenti tramite le innovazioni FlashAssign e sort-inverse update, ottenendo speedup fino a 17,9 volte rispetto ai migliori baseline e fino a 200 volte rispetto alle librerie industriali come FAISS.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Questo lavoro dimostra che l'implementazione di Mamba-2 utilizzando esclusivamente primitive standard XLA, senza kernel personalizzati, abilita un caching autoregressivo portatile e a complessità $O(1)$ che raggiunge prestazioni elevate su CPU, GPU NVIDIA e TPU mantenendo la compatibilità numerica con le implementazioni CUDA di riferimento.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Questo studio presenta un'analisi delle prestazioni dell'architettura frontend virtualizzata XRootD di T2_BR_SPRACE, che ha dimostrato di sostenere un throughput aggregato di 51,3 Gb/s e picchi di 41,5 Gb/s verso Fermilab durante trasferimenti dati ad alta intensità su WAN.

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Questo lavoro introduce il framework RDFC per la computazione distribuita randomizzata, dimostrando come la comunicazione semantica possa garantire privacy locale e ridurre drasticamente il tasso di trasmissione rispetto ai metodi tradizionali, anche in assenza di casualità condivisa.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

Il paper introduce SparseLoom, un sistema dimostrativo che utilizza la "model stitching" per ricombinare sottografi di modelli sparsi senza riaddestramento, permettendo l'inferenza multi-DNN su SoC edge e riducendo significativamente le violazioni degli SLO, migliorando il throughput e diminuendo l'overhead di memoria rispetto agli stati dell'arte.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Questo articolo propone un framework di scheduling basato su offset temporali che, decomponendo i grafi di dipendenza dei dati e sincronizzando i produttori attraverso un algoritmo di ricerca del consenso, garantisce la freschezza dei dati nei sistemi autonomi critici eliminando la latenza artificiale del paradigma LET e l'inefficienza del sovracampionamento.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Questo articolo introduce un quadro teorico di rate-distortion a blocco finito per campi aleatori eterogenei su reticoli finiti, stabilendo limiti non asintotici e un'espansione del secondo ordine che quantificano l'impatto di correlazione spaziale, eterogeneità e vincoli di tassellazione sulle prestazioni di compressione lossy in ambito scientifico.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Il documento propone un sistema di coerenza delle capacità (CCS) che mappa i modelli di consistenza della memoria sui meccanismi di revoca dell'autorizzazione, dimostrando tramite simulazione che la strategia RCC riduce drasticamente le operazioni non autorizzate rispetto ai metodi basati su TTL, eliminando la dipendenza dalla velocità di esecuzione degli agenti.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

Questo articolo analizza teoricamente e sperimentalmente la convergenza dell'errore di approssimazione verso zero in due schemi di calcolo codificato generale (BACC e LeTCC) in presenza di un regime probabilistico di server lenti, dimostrando che l'indipendenza delle interruzioni permette di ottenere risultati precisi anche quando il numero medio di server lenti scala con la dimensione totale del sistema.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Il paper presenta EROICA, il primo sistema di risoluzione dei problemi di prestazioni online per l'addestramento di modelli su larga scala, che combina profilazione dettagliata e osservabilità differenziale per diagnosticare con successo sia problemi hardware che software su cluster di GPU di produzione.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Il paper propone Co-LoRA, un metodo di apprendimento federato personalizzato che affronta l'eterogeneità sia dei dati che delle architetture dei modelli attraverso una strategia di aggregazione consapevole della rilevanza del compito e un modulo dimensionale-invariante, validato su un nuovo benchmark multi-modale che dimostra prestazioni superiori rispetto agli stati dell'arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Il paper presenta NANOMIND, un framework di co-progettazione hardware-software che ottimizza l'inferenza di modelli multimodali su dispositivi portatili alimentati a batteria suddividendo i modelli in moduli eseguiti su acceleratori eterogenei, ottenendo così un'efficienza energetica superiore e un funzionamento completamente offline.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

Il paper sostiene che l'integrazione tra risorse HPC e QPU richieda modelli e metriche di resilienza quantitativa, definiti come vincoli progettuali a priori, per valutare l'impatto delle vulnerabilità e il rapporto costo-beneficio delle migliorie tecnologiche.

Santiago Núñez-CorralesTue, 10 Ma⚛️ quant-ph

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Il paper presenta NEST, un framework di posizionamento dei dispositivi per l'addestramento distribuito di deep learning che unifica la parallelizzazione, la modellazione della topologia di rete e la fattibilità della memoria tramite programmazione dinamica strutturata, ottenendo fino a 2,43 volte una maggiore velocità di elaborazione rispetto alle soluzioni esistenti.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

Questo articolo presenta un framework di orchestrazione runtime basato su configurazione che genera dinamicamente grafi di esecuzione per l'aggregazione efficiente e a bassa latenza di dati da sistemi distribuiti eterogenei, eliminando la necessità di ridistribuire il codice quando le integrazioni evolvono.

Abhiram KandirajuTue, 10 Ma💻 cs

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Il paper presenta AIReSim, un simulatore a eventi discreti progettato per valutare sistematicamente le scelte di progettazione, i parametri e le strategie di recupero nei cluster su larga scala per carichi di lavoro AI, al fine di ottimizzare l'affidabilità complessiva e supportare la pianificazione della capacità.

Karthik Pattabiraman, Mihir Patel, Fred LinTue, 10 Ma💻 cs

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

Il documento presenta l'architettura di failover di Uber (UFA), un sistema che ottimizza l'affidabilità e l'efficienza dei costi su larga scala sostituendo il modello di ridondanza 2x con un approccio differenziato basato sulla criticità del servizio, riducendo così il provisioning di base da 2x a 1,3x e liberando oltre un milione di core CPU mantenendo un'uptime del 99,97%.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs

← Precedente Successivo →

cs.DC