{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Le papier présente {\lambda}Scale, un système d'inférence serverless pour les grands modèles de langage qui accélère la mise à l'échelle en exploitant les réseaux RDMA pour le multicast rapide de modèles et en permettant une exécution distribuée pendant le chargement, réduisant ainsi la latence et les coûts par rapport aux solutions existantes.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Le papier présente FAST, un planificateur efficace pour les communications All-to-All(v) sur GPU qui résout les problèmes de déséquilibre de charge et de congestion dans les modèles MoE dynamiques en réduisant considérablement le temps de synthèse tout en surpassant les solutions existantes sur des clusters NVIDIA et AMD.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Ce papier présente « Linear Layouts », une approche novatrice modélisant les agencements de tenseurs via l'algèbre linéaire sur F2\mathbb{F}_2 pour permettre une définition générique et des conversions efficaces, réduisant ainsi l'effort d'ingénierie et les bogues dans le backend du compilateur Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

En s'appuyant sur des déploiements à l'échelle de la production, cette étude remet en cause la vision centrée sur le réseau en démontrant que les goulots d'étranglement de la performance résident souvent dans les facteurs hôtes et logiciels, et propose le modèle conceptuel du « Drainage Basin Pattern » pour optimiser le mouvement de données de bout en bout au-delà de la simple bande passante brute.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Cette étude examine les stratégies de parallélisation pour le déploiement de modèles de langage denses, démontrant que la parallélisation tensorielle optimise la latence tandis que la parallélisation pipeline favorise le débit, permettant ainsi de maîtriser le compromis entre les deux via une configuration hybride.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Cet article présente un nouvel algorithme de vol de travail sans verrou, optimisé pour un cadre maître-ouvrier dédié à la résolution de problèmes d'optimisation par programmation en nombres entiers, qui offre des performances constantes lors des opérations par lots et une latence stable lors du vol, surpassant ainsi les solutions génériques existantes comme Taskflow.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Cet article propose une nouvelle méthode de gradient commuté pondéré par softmax pour l'optimisation minimax stochastique distribuée sous contraintes stochastiques, garantissant une convergence efficace et stable en boucle unique pour l'apprentissage fédéré, même en présence de participation partielle des clients.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Le papier présente StreamWise, un système de service adaptatif et modulaire conçu pour orchestrer efficacement des modèles génératifs multimodaux hétérogènes afin de produire des vidéos de podcasts en temps réel à grande échelle, en optimisant dynamiquement les compromis entre latence, coût et qualité.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Cet article propose un cadre de raisonnement piloté par la connaissance pour l'IA mobile autonome, qui extrait et synchronise des structures décisionnelles réutilisables pour optimiser les performances sur des plateformes aux ressources limitées, tout en identifiant qu'une exposition excessive à la connaissance peut être contre-productive.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

L'article présente LegalEdge, un cadre d'intelligence en périphérie combinant l'apprentissage fédéré et les réseaux d'agents profonds (DQN) via des contrats intelligents sur blockchain pour optimiser de manière transparente et privée la tarification dynamique et l'allocation d'énergie des infrastructures de recharge de véhicules électriques.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

Le papier présente OrchMLLM, un cadre d'entraînement qui résout le problème de l'incohérence de la composition des modalités et des déséquilibres de mini-lots grâce à un équilibrage post-lot et un orchestrateur global, permettant ainsi d'accélérer significativement l'entraînement des grands modèles de langage multimodaux et d'atteindre un taux d'utilisation des FLOPs (MFU) de 41,6 %.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI