{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Das Paper stellt {\lambda}Scale vor, ein effizientes serverloses Inferenzsystem für große Sprachmodelle, das durch die Kombination von RDMA-basiertem Multicast und einer „execute-while-load"-Strategie die Skalierungsgeschwindigkeit drastisch erhöht und im Vergleich zu bestehenden Lösungen die Tail-Latenz um bis zu 5-fach sowie die Kosten um 31,3 % senkt.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Das Paper stellt FAST vor, einen effizienten Scheduler für All-to-All-Kommunikation in GPU-Clustern, der durch Lastausgleich und die Vermeidung von Incast-Verstopfung die Synthesezeit um Größenordnungen reduziert und dabei auf heterogenen Systemen wie NVIDIA H200 und AMD MI300X deutlich besser abschneidet als bestehende Lösungen.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Die Arbeit stellt „Linear Layouts" vor, einen neuartigen Ansatz zur effizienten Generierung von Tensor-Berechnungen, der Tensor-Layouts mithilfe linearer Algebra über F2\mathbb{F}_2 modelliert, um eine generische Definition und Konvertierung zu ermöglichen, den Engineering-Aufwand zu reduzieren und die Leistung von Triton-Operatoren zu optimieren.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

Die Arbeit stellt PyloChain vor, eine hierarchisch geshardete Blockchain, die durch eine Kombination aus lokalen Ketten für hohe Parallelität und einer DAG-basierten Hauptkette für Verfügbarkeit und globale Transaktionen einen effizienten Kompromiss zwischen Leistung und Ausfallsicherheit erreicht und dabei den aktuellen Stand der Technik in Durchsatz und Latenz signifikant übertrifft.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Diese Studie widerlegt die verbreitete Annahme, dass hohe Netzwerkbandbreite allein für performante Datenübertragung ausreicht, und zeigt durch die Einführung des „Drainage Basin Pattern"-Modells sowie umfangreiche Produktionstests, dass Engpässe häufig außerhalb des Netzwerks liegen und eine ganzheitliche Hardware-Software-Ko-Design-Strategie für zuverlässige Datenbewegung in großem Maßstab erforderlich ist.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Diese Arbeit untersucht Parallelisierungsstrategien für die Bereitstellung dichter LLMs, indem sie zeigt, dass Tensor-Parallelismus die Latenz verbessert, während Pipeline-Parallelismus den Durchsatz optimiert, und wie deren hybride Kombination einen gezielten Kompromiss zwischen diesen beiden Leistungszielen ermöglicht.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Diese Arbeit stellt einen neuen lock-freien Work-Stealing-Algorithmus vor, der speziell für Master-Worker-Frameworks in der gemischt-ganzzahligen Optimierung entwickelt wurde und durch native Stapeloperationen sowie eine auf einen Besitzer und einen Dieb beschränkte Konkurrenzkonfiguration eine konstante Latenz bei Push-Operationen und eine signifikant bessere Skalierbarkeit im Vergleich zu bestehenden Lösungen wie C++ Taskflow bietet.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Diese Arbeit stellt eine neuartige erste-Ordnung Softmax-gewichtete Switching-Gradienten-Methode für verteilte stochastische Minimax-Optimierung unter stochastischen Nebenbedingungen vor, die in einem Single-Loop-Primal-Only-Rahmen eine stabile Konvergenz ohne die üblichen Hyperparameter-Sensitivitäten erreicht und durch theoretische Garantien sowie Experimente zu Neyman-Pearson- und faire Klassifizierungsaufgaben validiert wird.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Diese Arbeit stellt zwei verteilte Algorithmen vor, die das deterministische, endzeitliche Sammeln von autonomen mobilen Robotern unter dem adversarischen defekten Sichtmodell garantieren, wobei der Fall der vollständig synchronen Ausführung für das (4, 2)-Modell gelöst wird und für asynchrone Systeme eine Lösung unter der Bedingung einer gemeinsamen Koordinatenachse bereitgestellt wird.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Der Paper stellt StreamWise vor, ein adaptives, modulares Serversystem, das durch dynamisches Management von Qualität, Parallelisierung und ressourcenbewusster Planung auf heterogener Hardware effiziente Echtzeit-Multi-Modal-Generierung (z. B. für Podcast-Videos) unter strengen Latenz- und Kosteneinschränkungen ermöglicht.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Die Arbeit stellt ein wissensgestütztes Rahmenwerk für mobile agentische KI vor, das wiederverwendbare Entscheidungsstrukturen aus vergangenen Abläufen extrahiert und über bandbreitenbeschränkte Verbindungen synchronisiert, um auf ressourcenbeschränkten Geräten wie UAVs Latenz, Energieverbrauch und Fehler zu minimieren, wobei eine optimale Balance zwischen zu wenig und zu viel Wissen für die Zuverlässigkeit entscheidend ist.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

Die Arbeit stellt OrchMLLM vor, ein Framework, das durch den Batch Post-Balancing Dispatcher und den MLLM Global Orchestrator die Ineffizienzen bei Multimodal Large Language Model-Trainings aufgrund von Modality Composition Incoherence beseitigt und so den Durchsatz auf 2560 H100 GPUs im Vergleich zu Megatron-LM um das 3,1-fache steigert.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI