cs.DC articles | Gist.Science

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Le papier présente Nezha, un système de stockage distribué qui intègre la séparation clé-valeur avec le protocole Raft pour éliminer les surcharges d'E/S liées aux opérations de persistance redondantes et ainsi améliorer considérablement le débit tout en garantissant une forte cohérence.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Cet article propose un cadre hiérarchique basé sur la boucle OODA (Observer-Orienter-Déterminer-Agir) réparti sur les couches cloud-edge-terminal et utilisant la virtualisation des fonctions réseau, afin d'améliorer l'autonomie décisionnelle et la coopération des essaims de drones dans des environnements incertains.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Ce papier présente PIM-SHERPA, une méthode logicielle qui résout les incohérences d'attributs et de mise en page de la mémoire dans les systèmes PIM pour permettre une inférence efficace de grands modèles de langage sur appareil, en utilisant des techniques de double tamponnage ou de réorganisation en ligne pour économiser jusqu'à 49,7 % de capacité mémoire tout en maintenant des performances optimales.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Ce papier présente Flash-KMeans, une implémentation GPU optimisée qui transforme l'algorithme K-Means en primitive en ligne en éliminant les goulots d'étranglement d'E/S et de contention matérielle grâce à des innovations de noyau comme FlashAssign et la mise à jour par inversion de tri, permettant ainsi des accélérations allant jusqu'à 17,9 fois par rapport aux meilleures solutions existantes.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Ce papier présente une implémentation de Mamba-2 entièrement compilée via XLA, éliminant la dépendance aux noyaux CUDA personnalisés pour permettre un cache autorégressif portable en $O(1)$ et des performances élevées sur CPU, GPU NVIDIA et TPU à partir d'une seule source JAX.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Cette étude de cas analyse les performances d'une architecture frontend XRootD virtualisée et hétérogène du T2_BR_SPRACE, démontrant sa capacité à maintenir un débit agrégé de 51,3 Gb/s et des pics de 41,5 Gb/s vers le Fermilab lors de transferts de données à grande échelle sur un WAN.

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Cet article propose le cadre de calcul de fonction distribué randomisé (RDFC), une forme de communication sémantique qui garantit la confidentialité locale sans nécessiter de hasard commun, tout en réduisant considérablement le taux de communication par rapport aux méthodes traditionnelles.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

Ce papier présente SparseLoom, un système d'inférence multi-DNN pour SoCs de bord qui utilise une technique de « model stitching » pour recombiner des sous-graphes de modèles épars sans réentraînement, réduisant ainsi les violations d'objectifs de niveau de service et améliorant le débit par rapport aux systèmes existants.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Cet article propose un cadre d'ordonnancement basé sur des contraintes de fraîcheur des données, utilisant un algorithme de recherche d'offsets de consensus pour synchroniser les tâches en flux Juste-À-Temps et garantir la fraîcheur des données dans les systèmes critiques sans la latération artificielle du paradigme LET ni le gaspillage de ressources dû au sur-échantillonnage.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Cet article établit un cadre de théorie du taux-distorsion en blocs finis pour les champs aléatoires hétérogènes sur des treillis finis, en intégrant explicitement les contraintes de tuilage des compresseurs scientifiques pour dériver des bornes non asymptotiques et une expansion du second ordre quantifiant l'impact de la corrélation spatiale, de l'hétérogénéité et de la taille des tuiles.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Cet article propose un système de cohérence des capacités (CCS) qui établit une équivalence structurelle entre les modèles de cohérence mémoire et la révocation d'autorisations multi-agents, démontrant que la stratégie RCC réduit drastiquement les opérations non autorisées par rapport aux méthodes basées sur le temps, indépendamment de la vitesse d'exécution des agents.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

Cet article analyse théoriquement et expérimentalement la convergence de l'erreur d'approximation vers zéro pour les schémas de calcul codé général BACC et LeTCC dans un régime de stragglers probabilistes, démontrant que l'indépendance des défaillances permet une convergence même lorsque le nombre moyen de stragglers évolue avec la taille du système.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Ce papier présente EROICA, le premier système de débogage en ligne capable de diagnostiquer avec un impact minimal les problèmes de performance matériels et logiciels dans les clusters de GPU à grande échelle utilisés pour l'entraînement de modèles massifs.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Le papier propose Co-LoRA, une méthode de fédéré personnalisé qui surmonte l'hétérogénéité des données et des architectures via une agrégation consciente de la pertinence des tâches et un module invariant en dimension, validée sur un nouveau benchmark multi-modal de 40 tâches.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Ce papier présente NANOMIND, une approche de co-conception matériel-logiciel qui optimise l'inférence des modèles multimodaux sur des appareils autonomes à batterie en décomposant les modèles en modules exécutés dynamiquement sur les accélérateurs appropriés, réduisant ainsi la consommation d'énergie de 42,3 % et permettant une autonomie de près de 20,8 heures.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

Cet article plaide pour l'intégration de modèles et de métriques de résilience quantitatifs dès la conception des systèmes hybrides HPC-QPU, en s'inspirant de l'ingénierie civile pour évaluer la valeur des utilisateurs et optimiser le rapport coût-bénéfice des améliorations technologiques.

Santiago Núñez-CorralesTue, 10 Ma⚛️ quant-ph

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Le papier présente NEST, un cadre de placement de dispositifs pour l'apprentissage profond distribué qui unifie la modélisation du parallélisme, de la mémoire et de la topologie réseau via une programmation dynamique structurée, permettant d'optimiser conjointement la latence, la viabilité mémoire et le débit jusqu'à 2,43 fois supérieur aux méthodes de l'état de l'art.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

Cet article présente un cadre d'orchestration piloté par la configuration qui génère dynamiquement des graphes d'exécution à la demande pour permettre une récupération de données efficace et évolutive dans des systèmes distribués hétérogènes, sans nécessiter de redéploiement du code lors de l'évolution des intégrations.

Abhiram KandirajuTue, 10 Ma💻 cs

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Ce papier présente AIReSim, un simulateur à événements discrets conçu pour modéliser la fiabilité des clusters d'IA à grande échelle, permettant aux concepteurs d'évaluer systématiquement les paramètres de récupération et de planification afin d'optimiser la capacité et de gérer les compromis dans des scénarios de défaillance.

Karthik Pattabiraman, Mihir Patel, Fred LinTue, 10 Ma💻 cs

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

L'article présente l'architecture de basculement d'Uber (UFA), qui optimise la fiabilité et l'efficacité de son infrastructure microservices à grande échelle en remplaçant le modèle de capacité uniforme par une approche différenciée selon la criticité des services, permettant ainsi de réduire la provisionnement de 2x à 1,3x tout en maintenant une disponibilité de 99,97 %.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs

← Précédent Suivant →

cs.DC