cs.DC articles | Gist.Science

A Survey on Decentralized Federated Learning

Ce sondage examine systématiquement les méthodes d'apprentissage fédéré décentralisé (DFL) jusqu'en 2026, en les classant selon deux architectures, en proposant une taxonomie centrée sur les défis, en évaluant les pratiques actuelles et en identifiant des axes de recherche prioritaires pour renforcer la sécurité, la vie privée et les mécanismes d'incitation dans des environnements sans coordinateur central.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Cet article présente un cadre d'apprentissage profond combinant la découverte de coordonnées et de cartes de flux pour améliorer l'efficacité computationnelle et la précision des simulations de systèmes multi-échelles complexes, comme démontré sur les modèles de FitzHugh-Nagumo et de Kuramoto-Sivashinsky.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

Ce papier présente SPDL, une bibliothèque open-source agnostique aux frameworks qui surmonte les goulots d'étranglement du chargement de données pour l'IA en libérant le verrou global de l'interpréteur (GIL) de Python, permettant ainsi d'accélérer considérablement l'entraînement des modèles tout en réduisant l'utilisation du CPU et de la mémoire.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Cette thèse de doctorat présente des méthodes novatrices et économiques pour évaluer et améliorer la fiabilité des accélérateurs matériels de réseaux de neurones profonds, notamment par le développement d'outils d'analyse, l'optimisation des compromis entre efficacité et tolérance aux pannes, et la création de la technique AdAM pour une amélioration de la fiabilité en temps réel sans surcoût matériel.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Ce papier présente ARKV, un cadre adaptatif et léger qui optimise la gestion du cache KV pour l'inférence de grands modèles de langage à contexte long en allouant dynamiquement des niveaux de précision aux tokens, permettant ainsi de réduire l'utilisation de la mémoire GPU par un facteur quatre tout en préservant la précision du modèle sans nécessiter de réentraînement.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

L'article présente RSH-SpMM, un cadre hybride de multiplication matrice-matrice creuse optimisé pour les GPU, qui améliore significativement les performances et la stabilité sur des matrices irrégulières grâce à une partitionnement adaptatif des lignes, une représentation RS-Tile compatible avec les Tensor Cores et un réordonnancement local.

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Cet article présente une revue systématique et une évaluation comparative des techniques d'apprentissage fédéré dans les environnements de calcul en périphérie, en analysant cinq algorithmes majeurs sur des métriques clés et en identifiant les défis persistants pour orienter les recherches futures.

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Ce papier présente Auralink SDC, une architecture d'agents IA autonomes déployés en périphérie pour gérer les infrastructures de recharge de véhicules électriques, permettant une résolution autonome des incidents avec une haute précision et une latence ultra-faible grâce à des modèles spécialisés et des mécanismes de raisonnement adaptatif.

Mohammed CherifiWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Cet article présente un cadre de compression pour le calcul en réservoir qui utilise un mécanisme d'élagage basé sur la sensibilité pour optimiser les compromis entre précision, efficacité matérielle et consommation de ressources dans les implémentations FPGA, tout en maintenant des performances élevées sur diverses tâches de séries temporelles.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

L'article présente Kareto, un optimiseur adaptatif qui résout le problème d'optimisation multi-objectif de la configuration du stockage en couches pour le cache KV des LLM en naviguant efficacement dans l'espace des configurations pour identifier la frontière de Pareto, permettant ainsi d'améliorer le débit, de réduire la latence ou de diminuer les coûts par rapport aux stratégies statiques.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Ce papier présente Zipage, un moteur d'inférence LLM qui utilise la méthode Compressed PagedAttention pour maintenir une forte concurrence de requêtes lors du raisonnement tout en préservant 95 % des performances et en offrant un gain de vitesse de plus de 2,1 fois par rapport aux moteurs à cache KV complet.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

Cet article présente une extension du générateur de code C ACETONE, initialement limité au séquentiel, afin de permettre la génération de code parallèle pour les architectures multi-cœurs, notamment pour les systèmes critiques intégrant l'apprentissage automatique.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Serving Compound Inference Systems on Datacenter GPUs

Le papier présente JigsawServe, un cadre de service innovant pour les systèmes d'inférence composés sur les GPU de centre de données qui optimise conjointement la latence, la précision et les coûts en sélectionnant dynamiquement des variantes de modèles et en allouant des ressources GPU de manière spatiale et fine, permettant ainsi d'augmenter la demande de service maximale de 11,3 fois par rapport aux travaux antérieurs.

Sriram Devata, Rahul Singh, Sarita AdveWed, 11 Ma💻 cs

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

Le papier présente deZent, une implémentation décentralisée de l'anonymisation z qui utilise des structures de comptage stochastiques et des sommes sécurisées pour assurer la confidentialité des flux de données de capteurs tout en réduisant la charge de communication et la confiance requise envers une entité centrale.

Carolin Brunn, Florian TschorschWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Le papier présente FedLECC, une stratégie légère de sélection de clients pour l'apprentissage fédéré qui regroupe les appareils par similarité de distribution d'étiquettes et privilégie ceux ayant une perte locale élevée, améliorant ainsi la précision et réduisant les coûts de communication dans des environnements aux données non indépendantes et non identiquement distribuées (non-IID).

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Ce papier présente Guardian, un système end-to-end coordonnant plusieurs modèles de langage spécialisés et un moteur de consensus pour extraire et traiter intelligemment les informations lors des premières heures critiques d'une enquête sur une personne disparue, tout en garantissant une approche auditable et conservatrice.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité $qs$ pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

Ce papier présente Lockbox, une architecture Zero Trust conçue pour permettre le traitement sécurisé de charges de travail cloud sensibles en appliquant une vérification explicite, une isolation stricte et un contrôle d'accès minimaliste tout au long du cycle de vie de l'application.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Le papier présente EPIC, un cadre d'apprentissage scientifique machine distribué guidé par le matériel et la physique qui réduit considérablement la latence et la consommation d'énergie tout en préservant la fidélité physique pour des tâches comme l'inversion de forme d'onde complète.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Ce papier présente la première utilisation des cœurs tensoriels FP64 des GPU NVIDIA, combinée à des optimisations de fusion de noyaux, pour accélérer significativement les simulations d'éléments finis d'ordre élevé à l'échelle exascale, offrant jusqu'à un doublement des performances et des gains d'efficacité énergétique de 83 % sur les architectures Grace Hopper et Grace Blackwell.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

cs.DC