A Survey on Decentralized Federated Learning

Ce sondage examine systématiquement les méthodes d'apprentissage fédéré décentralisé (DFL) jusqu'en 2026, en les classant selon deux architectures, en proposant une taxonomie centrée sur les défis, en évaluant les pratiques actuelles et en identifiant des axes de recherche prioritaires pour renforcer la sécurité, la vie privée et les mécanismes d'incitation dans des environnements sans coordinateur central.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Cet article présente un cadre d'apprentissage profond combinant la découverte de coordonnées et de cartes de flux pour améliorer l'efficacité computationnelle et la précision des simulations de systèmes multi-échelles complexes, comme démontré sur les modèles de FitzHugh-Nagumo et de Kuramoto-Sivashinsky.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

Ce papier présente SPDL, une bibliothèque open-source agnostique aux frameworks qui surmonte les goulots d'étranglement du chargement de données pour l'IA en libérant le verrou global de l'interpréteur (GIL) de Python, permettant ainsi d'accélérer considérablement l'entraînement des modèles tout en réduisant l'utilisation du CPU et de la mémoire.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Cette thèse de doctorat présente des méthodes novatrices et économiques pour évaluer et améliorer la fiabilité des accélérateurs matériels de réseaux de neurones profonds, notamment par le développement d'outils d'analyse, l'optimisation des compromis entre efficacité et tolérance aux pannes, et la création de la technique AdAM pour une amélioration de la fiabilité en temps réel sans surcoût matériel.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Ce papier présente ARKV, un cadre adaptatif et léger qui optimise la gestion du cache KV pour l'inférence de grands modèles de langage à contexte long en allouant dynamiquement des niveaux de précision aux tokens, permettant ainsi de réduire l'utilisation de la mémoire GPU par un facteur quatre tout en préservant la précision du modèle sans nécessiter de réentraînement.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

L'article présente RSH-SpMM, un cadre hybride de multiplication matrice-matrice creuse optimisé pour les GPU, qui améliore significativement les performances et la stabilité sur des matrices irrégulières grâce à une partitionnement adaptatif des lignes, une représentation RS-Tile compatible avec les Tensor Cores et un réordonnancement local.

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Cet article présente un cadre de compression pour le calcul en réservoir qui utilise un mécanisme d'élagage basé sur la sensibilité pour optimiser les compromis entre précision, efficacité matérielle et consommation de ressources dans les implémentations FPGA, tout en maintenant des performances élevées sur diverses tâches de séries temporelles.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

L'article présente Kareto, un optimiseur adaptatif qui résout le problème d'optimisation multi-objectif de la configuration du stockage en couches pour le cache KV des LLM en naviguant efficacement dans l'espace des configurations pour identifier la frontière de Pareto, permettant ainsi d'améliorer le débit, de réduire la latence ou de diminuer les coûts par rapport aux stratégies statiques.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Ce papier présente Zipage, un moteur d'inférence LLM qui utilise la méthode Compressed PagedAttention pour maintenir une forte concurrence de requêtes lors du raisonnement tout en préservant 95 % des performances et en offrant un gain de vitesse de plus de 2,1 fois par rapport aux moteurs à cache KV complet.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Serving Compound Inference Systems on Datacenter GPUs

Le papier présente JigsawServe, un cadre de service innovant pour les systèmes d'inférence composés sur les GPU de centre de données qui optimise conjointement la latence, la précision et les coûts en sélectionnant dynamiquement des variantes de modèles et en allouant des ressources GPU de manière spatiale et fine, permettant ainsi d'augmenter la demande de service maximale de 11,3 fois par rapport aux travaux antérieurs.

Sriram Devata, Rahul Singh, Sarita AdveWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Le papier présente FedLECC, une stratégie légère de sélection de clients pour l'apprentissage fédéré qui regroupe les appareils par similarité de distribution d'étiquettes et privilégie ceux ayant une perte locale élevée, améliorant ainsi la précision et réduisant les coûts de communication dans des environnements aux données non indépendantes et non identiquement distribuées (non-IID).

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité qsqs pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Ce papier présente la première utilisation des cœurs tensoriels FP64 des GPU NVIDIA, combinée à des optimisations de fusion de noyaux, pour accélérer significativement les simulations d'éléments finis d'ordre élevé à l'échelle exascale, offrant jusqu'à un doublement des performances et des gains d'efficacité énergétique de 83 % sur les architectures Grace Hopper et Grace Blackwell.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs