cs.DC articles | Gist.Science

{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Le papier présente {\lambda}Scale, un système d'inférence serverless pour les grands modèles de langage qui accélère la mise à l'échelle en exploitant les réseaux RDMA pour le multicast rapide de modèles et en permettant une exécution distribuée pendant le chargement, réduisant ainsi la latence et les coûts par rapport aux solutions existantes.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Le papier présente FAST, un planificateur efficace pour les communications All-to-All(v) sur GPU qui résout les problèmes de déséquilibre de charge et de congestion dans les modèles MoE dynamiques en réduisant considérablement le temps de synthèse tout en surpassant les solutions existantes sur des clusters NVIDIA et AMD.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Ce papier présente « Linear Layouts », une approche novatrice modélisant les agencements de tenseurs via l'algèbre linéaire sur $\mathbb{F}_2$ pour permettre une définition générique et des conversions efficaces, réduisant ainsi l'effort d'ingénierie et les bogues dans le backend du compilateur Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

Ce papier présente PyloChain, une blockchain à sharding hiérarchique qui équilibre performance et disponibilité en combinant l'exécution spéculative de transactions locales sur des chaînes secondaires avec un consensus BFT efficace sur une chaîne principale, surpassant ainsi les solutions existantes en débit et en latence.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Cette étude démontre que l'exploitation de la tolérance au délai, de l'interruption et de l'évolutivité des workflows scientifiques permet de réduire leurs émissions de carbone de plus de 80 % grâce au décalage temporel et de 67 % grâce à l'ajustement des ressources.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Ce papier présente A-3PO, une méthode qui accélère l'entraînement asynchrone des grands modèles de langage en approximant la politique proximale par interpolation simple pour éliminer le surcoût computationnel des passes avant supplémentaires, tout en maintenant des performances comparables.

Xiaocan Li, Shiliang Wu, Zheng ShenMon, 09 Ma🤖 cs.AI

Reexamining Paradigms of End-to-End Data Movement

En s'appuyant sur des déploiements à l'échelle de la production, cette étude remet en cause la vision centrée sur le réseau en démontrant que les goulots d'étranglement de la performance résident souvent dans les facteurs hôtes et logiciels, et propose le modèle conceptuel du « Drainage Basin Pattern » pour optimiser le mouvement de données de bout en bout au-delà de la simple bande passante brute.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

L'analyse empirique de la paper montre que la proportion de validateurs Ethereum agissant de manière altruiste est insuffisante pour garantir l'équité et la décentralisation, soulignant ainsi la nécessité de mécanismes de pénalité ou d'incitation indépendants de l'altruisme des participants.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Cette étude examine les stratégies de parallélisation pour le déploiement de modèles de langage denses, démontrant que la parallélisation tensorielle optimise la latence tandis que la parallélisation pipeline favorise le débit, permettant ainsi de maîtriser le compromis entre les deux via une configuration hybride.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Cet article présente un nouvel algorithme de vol de travail sans verrou, optimisé pour un cadre maître-ouvrier dédié à la résolution de problèmes d'optimisation par programmation en nombres entiers, qui offre des performances constantes lors des opérations par lots et une latence stable lors du vol, surpassant ainsi les solutions génériques existantes comme Taskflow.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Cet article propose une nouvelle méthode de gradient commuté pondéré par softmax pour l'optimisation minimax stochastique distribuée sous contraintes stochastiques, garantissant une convergence efficace et stable en boucle unique pour l'apprentissage fédéré, même en présence de participation partielle des clients.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Cet article propose deux algorithmes distribués garantissant la convergence déterministe et en temps fini d'un essaim de robots mobiles autonomes vers un point inconnu, même en présence de défauts de vision adverses et de mouvements non rigides, sous des modèles de synchronisation FSYNC et ASYNC.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Le papier présente StreamWise, un système de service adaptatif et modulaire conçu pour orchestrer efficacement des modèles génératifs multimodaux hétérogènes afin de produire des vidéos de podcasts en temps réel à grande échelle, en optimisant dynamiquement les compromis entre latence, coût et qualité.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Cet article propose un cadre de raisonnement piloté par la connaissance pour l'IA mobile autonome, qui extrait et synchronise des structures décisionnelles réutilisables pour optimiser les performances sur des plateformes aux ressources limitées, tout en identifiant qu'une exposition excessive à la connaissance peut être contre-productive.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Domain-Adaptive Model Merging across Disconnected Modes

Ce papier présente DMM, un cadre de fusion de modèles sans données qui synthétise des pseudo-données à partir des statistiques de normalisation pour fusionner efficacement des modèles spécialisés divergents tout en préservant les connaissances critiques et en évitant le partage de données.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian WuMon, 09 Ma🤖 cs.AI

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

L'article présente LegalEdge, un cadre d'intelligence en périphérie combinant l'apprentissage fédéré et les réseaux d'agents profonds (DQN) via des contrats intelligents sur blockchain pour optimiser de manière transparente et privée la tarification dynamique et l'allocation d'énergie des infrastructures de recharge de véhicules électriques.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

Le papier présente Provuse, une optimisation transparente côté plateforme pour les environnements FaaS qui fusionne automatiquement les fonctions indépendamment déployées à l'exécution afin de réduire la latence et la consommation de ressources sans modifier le code des utilisateurs.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

Le papier présente MoEless, un cadre de service sans serveur pour les modèles de langage à mélange d'experts (MoE) qui résout les déséquilibres de charge et réduit la latence d'inférence ainsi que les coûts grâce à des prédictions de charge dynamiques et une mise à l'échelle optimisée des experts.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

Comparative Analysis of Cross-Chain Token Standards

Ce papier présente une analyse comparative approfondie de cinq normes et cadres de tokens interchaînes majeurs, en examinant leurs architectures, mécanismes de messagerie, modèles de confiance et écosystèmes cibles pour évaluer leurs approches distinctes visant à assurer la fongibilité unifiée des actifs sur plusieurs blockchains.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

Le papier présente OrchMLLM, un cadre d'entraînement qui résout le problème de l'incohérence de la composition des modalités et des déséquilibres de mini-lots grâce à un équilibrage post-lot et un orchestrateur global, permettant ainsi d'accélérer significativement l'entraînement des grands modèles de langage multimodaux et d'atteindre un taux d'utilisation des FLOPs (MFU) de 41,6 %.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI

← Précédent Suivant →

cs.DC