cs.DC Arbeiten | Gist.Science

{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Das Paper stellt {\lambda}Scale vor, ein effizientes serverloses Inferenzsystem für große Sprachmodelle, das durch die Kombination von RDMA-basiertem Multicast und einer „execute-while-load"-Strategie die Skalierungsgeschwindigkeit drastisch erhöht und im Vergleich zu bestehenden Lösungen die Tail-Latenz um bis zu 5-fach sowie die Kosten um 31,3 % senkt.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Das Paper stellt FAST vor, einen effizienten Scheduler für All-to-All-Kommunikation in GPU-Clustern, der durch Lastausgleich und die Vermeidung von Incast-Verstopfung die Synthesezeit um Größenordnungen reduziert und dabei auf heterogenen Systemen wie NVIDIA H200 und AMD MI300X deutlich besser abschneidet als bestehende Lösungen.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Die Arbeit stellt „Linear Layouts" vor, einen neuartigen Ansatz zur effizienten Generierung von Tensor-Berechnungen, der Tensor-Layouts mithilfe linearer Algebra über $\mathbb{F}_2$ modelliert, um eine generische Definition und Konvertierung zu ermöglichen, den Engineering-Aufwand zu reduzieren und die Leistung von Triton-Operatoren zu optimieren.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

Die Arbeit stellt PyloChain vor, eine hierarchisch geshardete Blockchain, die durch eine Kombination aus lokalen Ketten für hohe Parallelität und einer DAG-basierten Hauptkette für Verfügbarkeit und globale Transaktionen einen effizienten Kompromiss zwischen Leistung und Ausfallsicherheit erreicht und dabei den aktuellen Stand der Technik in Durchsatz und Latenz signifikant übertrifft.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Diese Studie quantifiziert den CO₂-Fußabdruck wissenschaftlicher Workflows und zeigt durch eine systematische Evaluation, dass durch kohlenstoffbewusstes zeitliches Verschieben und dynamisches Skalieren Emissionen um bis zu 80 % bzw. 67 % reduziert werden können.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Das Paper stellt A-3PO vor, eine Methode, die den rechenintensiven zusätzlichen Vorwärtsdurchlauf bei der Decoupled PPO durch eine einfache Interpolation zur Approximation der proximalen Policy ersetzt, wodurch das asynchrone Training von Large Language Models um den Faktor 1,8 beschleunigt wird, ohne die Leistung einzubüßen.

Xiaocan Li, Shiliang Wu, Zheng ShenMon, 09 Ma🤖 cs.AI

Reexamining Paradigms of End-to-End Data Movement

Diese Studie widerlegt die verbreitete Annahme, dass hohe Netzwerkbandbreite allein für performante Datenübertragung ausreicht, und zeigt durch die Einführung des „Drainage Basin Pattern"-Modells sowie umfangreiche Produktionstests, dass Engpässe häufig außerhalb des Netzwerks liegen und eine ganzheitliche Hardware-Software-Ko-Design-Strategie für zuverlässige Datenbewegung in großem Maßstab erforderlich ist.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

Die Studie zeigt, dass aufgrund der extrem geringen Anzahl wirklich altruistischer Block-Proposer, die weniger als 1,4 % ausmachen, Ethereum für die Wiederherstellung seiner Dezentralisierungs- und Zensurresistenz-Ideale nicht auf deren bloße Existenz vertrauen kann, sondern zusätzliche Anreiz- oder Sanktionsmechanismen benötigt.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Diese Arbeit untersucht Parallelisierungsstrategien für die Bereitstellung dichter LLMs, indem sie zeigt, dass Tensor-Parallelismus die Latenz verbessert, während Pipeline-Parallelismus den Durchsatz optimiert, und wie deren hybride Kombination einen gezielten Kompromiss zwischen diesen beiden Leistungszielen ermöglicht.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Diese Arbeit stellt einen neuen lock-freien Work-Stealing-Algorithmus vor, der speziell für Master-Worker-Frameworks in der gemischt-ganzzahligen Optimierung entwickelt wurde und durch native Stapeloperationen sowie eine auf einen Besitzer und einen Dieb beschränkte Konkurrenzkonfiguration eine konstante Latenz bei Push-Operationen und eine signifikant bessere Skalierbarkeit im Vergleich zu bestehenden Lösungen wie C++ Taskflow bietet.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Diese Arbeit stellt eine neuartige erste-Ordnung Softmax-gewichtete Switching-Gradienten-Methode für verteilte stochastische Minimax-Optimierung unter stochastischen Nebenbedingungen vor, die in einem Single-Loop-Primal-Only-Rahmen eine stabile Konvergenz ohne die üblichen Hyperparameter-Sensitivitäten erreicht und durch theoretische Garantien sowie Experimente zu Neyman-Pearson- und faire Klassifizierungsaufgaben validiert wird.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Diese Arbeit stellt zwei verteilte Algorithmen vor, die das deterministische, endzeitliche Sammeln von autonomen mobilen Robotern unter dem adversarischen defekten Sichtmodell garantieren, wobei der Fall der vollständig synchronen Ausführung für das (4, 2)-Modell gelöst wird und für asynchrone Systeme eine Lösung unter der Bedingung einer gemeinsamen Koordinatenachse bereitgestellt wird.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Der Paper stellt StreamWise vor, ein adaptives, modulares Serversystem, das durch dynamisches Management von Qualität, Parallelisierung und ressourcenbewusster Planung auf heterogener Hardware effiziente Echtzeit-Multi-Modal-Generierung (z. B. für Podcast-Videos) unter strengen Latenz- und Kosteneinschränkungen ermöglicht.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Die Arbeit stellt ein wissensgestütztes Rahmenwerk für mobile agentische KI vor, das wiederverwendbare Entscheidungsstrukturen aus vergangenen Abläufen extrahiert und über bandbreitenbeschränkte Verbindungen synchronisiert, um auf ressourcenbeschränkten Geräten wie UAVs Latenz, Energieverbrauch und Fehler zu minimieren, wobei eine optimale Balance zwischen zu wenig und zu viel Wissen für die Zuverlässigkeit entscheidend ist.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Domain-Adaptive Model Merging across Disconnected Modes

Die Arbeit stellt DMM vor, ein datenfreies Framework, das spezialisierte Modelle durch schrittweises Zusammenführen ähnlicher Modelle und Wissensdistillation auf synthetischen Daten erfolgreich zu einem robusten, domänenadaptiven Gesamtmodell vereint.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian WuMon, 09 Ma🤖 cs.AI

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

Die Arbeit stellt LegalEdge vor, ein Edge-Intelligence-Framework, das durch die Kombination von Federated Learning und Deep Q-Networks in Blockchain-Smart Contracts eine datenschutzkonforme, transparente und effiziente Optimierung der Dynamik von Ladeinfrastrukturen für Elektrofahrzeuge ermöglicht.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

Die Arbeit stellt Provuse vor, eine plattformsseitige Optimierung für FaaS-Umgebungen, die durch transparente Laufzeit-Fusion unabhängiger Funktionen die Latenz und den RAM-Verbrauch signifikant reduziert, ohne dass Entwickler Änderungen am Code vornehmen müssen.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

Das Paper stellt MoEless vor, ein serverloses Framework zur effizienten Bereitstellung von Mixture-of-Experts-LLMs, das durch lastproaktive Skalierung und Platzierung von Experten die Inferenz-Latenz um 43 % und die Kosten um 84 % im Vergleich zu bestehenden Lösungen reduziert.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

Comparative Analysis of Cross-Chain Token Standards

Diese Arbeit bietet eine umfassende vergleichende Analyse von fünf führenden Cross-Chain-Token-Standards und Frameworks, wobei sie deren technische Designs, Vertrauensmodelle und Zielökosysteme hinsichtlich Architektur, Nachrichtenmechanismen und Sicherheitsfeatures gegenüberstellt.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

Die Arbeit stellt OrchMLLM vor, ein Framework, das durch den Batch Post-Balancing Dispatcher und den MLLM Global Orchestrator die Ineffizienzen bei Multimodal Large Language Model-Trainings aufgrund von Modality Composition Incoherence beseitigt und so den Durchsatz auf 2560 H100 GPUs im Vergleich zu Megatron-LM um das 3,1-fache steigert.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI

← Zurück Weiter →

cs.DC