{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Het paper introduceert {\lambda}Scale, een serverloos inferentiesysteem dat snelle schaling voor grote taalmodellen mogelijk maakt door gebruik te maken van RDMA-netwerken voor gelijktijdige modeloverdracht en uitvoering, wat leidt tot aanzienlijke verbeteringen in latentie en kosten.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Dit paper introduceert FAST, een efficiënte scheduler voor All-to-All(v)-communicatie die schaalbaarheid en snelheid verbetert door workload-scheefheid en congestie aan te pakken, waardoor synthetisatietijden drastisch worden verkort en prestaties op diverse GPU-clusters worden geoptimaliseerd.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Deze paper introduceert Linear Layouts, een nieuwe aanpak die tensorindelingen modelleert met lineaire algebra over F2\mathbb{F}_2 om flexibele en efficiënte generatie van tensorberekeningen mogelijk te maken, de complexiteit van conversies te reduceren en de foutgevoeligheid in bestaande compilersystemen zoals Triton te verminderen.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

Dit paper concludeert dat Ethereum's idealen van decentralisatie en censuurresistentie niet kunnen worden gewaarborgd door enkel te vertrouwen op altruïstische blokpropositors, aangezien empirisch onderzoek aantoont dat minder dan 1,4% van de propositors consistent deze principes naleeft, wat de noodzaak onderstreept van extra prikkel- of sanctiemechanismen die niet afhankelijk zijn van altruïsme.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Dit artikel onderzoekt parallelisatiestrategieën voor de implementatie van dichte grote taalmodellen, waarbij het aantoont dat Tensor Parallelism de latentie verbetert terwijl Pipeline Parallelism beter geschikt is voor doorvoeroptimalisatie, en hoe een hybride aanpak de afweging tussen deze twee prestatie-indicatoren kan sturen.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Dit paper introduceert een nieuwe eerste-orde Softmax-gewichtsschakelgradientmethode voor gedistribueerde stochastische minimax-optimalisatie met stochastische beperkingen, die een stabiele single-loop oplossing biedt voor federated learning met bewezen convergentie en verbeterde prestaties op taken zoals Neyman-Pearson-classificatie.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Het paper introduceert StreamWise, een adaptief en modulair serversysteem dat multi-modale generatieve modellen (zoals tekst-naar-spraak en video) efficiënt coördineert op heterogene hardware om real-time podcastvideo's te genereren met een sub-second startvertraging, terwijl het een dynamisch evenwicht zoekt tussen latentie, kosten en kwaliteit.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Dit paper introduceert een door kennis gedreven redeneringsframework voor mobiele agenten dat herbruikbare beslissingsstructuren uit eerdere uitvoeringen synchroniseert om, ondanks beperkte bronnen en onderbroken connectiviteit, de prestaties van on-device AI-modellen te optimaliseren door een balans te vinden tussen kennisoverdracht en foutrisico.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

Dit artikel introduceert LegalEdge, een randintelligentie-framework dat Federated Learning en Deep Q-Networks combineert met blockchain-gebaseerde slimme contracten om de laadinfrastructuur voor elektrische voertuigen te optimaliseren door privacy te waarborgen, realtime beslissingen te nemen en transparante prijspolitiek te garanderen.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

Dit paper introduceert OrchMLLM, een framework dat de trainingsefficiëntie van multimodale grote taalmodellen verbetert door mini-batch-ongelijkheden te corrigeren via Batch Post-Balancing, wat resulteert in een tot 3,1 keer hogere doorvoer en een MFU van 41,6% op 2560 H100 GPU's.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI