cs.DC papers | Gist.Science

{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Het paper introduceert {\lambda}Scale, een serverloos inferentiesysteem dat snelle schaling voor grote taalmodellen mogelijk maakt door gebruik te maken van RDMA-netwerken voor gelijktijdige modeloverdracht en uitvoering, wat leidt tot aanzienlijke verbeteringen in latentie en kosten.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Dit paper introduceert FAST, een efficiënte scheduler voor All-to-All(v)-communicatie die schaalbaarheid en snelheid verbetert door workload-scheefheid en congestie aan te pakken, waardoor synthetisatietijden drastisch worden verkort en prestaties op diverse GPU-clusters worden geoptimaliseerd.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Deze paper introduceert Linear Layouts, een nieuwe aanpak die tensorindelingen modelleert met lineaire algebra over $\mathbb{F}_2$ om flexibele en efficiënte generatie van tensorberekeningen mogelijk te maken, de complexiteit van conversies te reduceren en de foutgevoeligheid in bestaande compilersystemen zoals Triton te verminderen.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

In dit artikel wordt PyloChain voorgesteld, een hiërarchisch geshard blockchain-systeem dat door middel van speculatieve uitvoering op lokale ketens en een DAG-gebaseerde mempool op de hoofdketen een evenwicht vindt tussen hoge performance en beschikbaarheid, wat resulteert in een aanzienlijke verbetering van de doorvoer en latentie ten opzichte van bestaande oplossingen.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Deze studie toont aan dat het uitstellen, onderbreken en schalen van wetenschappelijke workflows de CO₂-uitstoot met meer dan 80% kan verminderen door gebruik te maken van koolstofbewuste uitvoering op basis van variabele energiekoolstofintensiteit.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Dit paper introduceert A-3PO, een methode die de rekentijd voor asynchrone LLM-training met 1,8 keer versnelt door de extra forward pass voor het proximal beleid in Decoupled PPO te vervangen door een efficiënte interpolatie, zonder de prestaties te verlagen.

Xiaocan Li, Shiliang Wu, Zheng ShenMon, 09 Ma🤖 cs.AI

Reexamining Paradigms of End-to-End Data Movement

Dit paper betoogt dat de focus op ruwe netwerkbandbreedte onvoldoende is voor hoogwaardige datatransfer en introduceert het 'Drainage Basin Pattern'-model om end-to-end prestaties te optimaliseren door een holistische hardware-software co-design die bottlenecks buiten het netwerkcore adresseert.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

Dit paper concludeert dat Ethereum's idealen van decentralisatie en censuurresistentie niet kunnen worden gewaarborgd door enkel te vertrouwen op altruïstische blokpropositors, aangezien empirisch onderzoek aantoont dat minder dan 1,4% van de propositors consistent deze principes naleeft, wat de noodzaak onderstreept van extra prikkel- of sanctiemechanismen die niet afhankelijk zijn van altruïsme.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Dit artikel onderzoekt parallelisatiestrategieën voor de implementatie van dichte grote taalmodellen, waarbij het aantoont dat Tensor Parallelism de latentie verbetert terwijl Pipeline Parallelism beter geschikt is voor doorvoeroptimalisatie, en hoe een hybride aanpak de afweging tussen deze twee prestatie-indicatoren kan sturen.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Deze paper introduceert een nieuw lock-free werk-diefstal-algoritme dat is geoptimaliseerd voor bulk-operaties in een master-worker-framework voor mixed-integer programming, en dat door het elimineren van zware synchronisatie constante push- en steal-latenties bereikt die aanzienlijk beter presteren dan bestaande oplossingen zoals C++ Taskflow.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Dit paper introduceert een nieuwe eerste-orde Softmax-gewichtsschakelgradientmethode voor gedistribueerde stochastische minimax-optimalisatie met stochastische beperkingen, die een stabiele single-loop oplossing biedt voor federated learning met bewezen convergentie en verbeterde prestaties op taken zoals Neyman-Pearson-classificatie.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Dit artikel presenteert twee gedistribueerde algoritmen die garanderen dat een groep autonome, vergeetachtige robots in de Euclidische ruimte binnen eindige tijd verzamelt, zelfs onder de beperkende omstandigheden van het adversariele defecte zichtmodel en niet-rigide beweging, zowel in volledig synchrone als asynchrone omgevingen.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Het paper introduceert StreamWise, een adaptief en modulair serversysteem dat multi-modale generatieve modellen (zoals tekst-naar-spraak en video) efficiënt coördineert op heterogene hardware om real-time podcastvideo's te genereren met een sub-second startvertraging, terwijl het een dynamisch evenwicht zoekt tussen latentie, kosten en kwaliteit.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Dit paper introduceert een door kennis gedreven redeneringsframework voor mobiele agenten dat herbruikbare beslissingsstructuren uit eerdere uitvoeringen synchroniseert om, ondanks beperkte bronnen en onderbroken connectiviteit, de prestaties van on-device AI-modellen te optimaliseren door een balans te vinden tussen kennisoverdracht en foutrisico.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Domain-Adaptive Model Merging across Disconnected Modes

Dit paper introduceert DMM, een datavrij raamwerk dat kennis van sterk uiteenlopende domeinspecifieke modellen consolideert door eerst vergelijkbare modellen te samenvoegen en vervolgens via gesynthetiseerde pseudo-data een lichte verfijning toe te passen, waardoor state-of-the-art prestaties worden bereikt zonder gegevensuitwisseling.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian WuMon, 09 Ma🤖 cs.AI

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

Dit artikel introduceert LegalEdge, een randintelligentie-framework dat Federated Learning en Deep Q-Networks combineert met blockchain-gebaseerde slimme contracten om de laadinfrastructuur voor elektrische voertuigen te optimaliseren door privacy te waarborgen, realtime beslissingen te nemen en transparante prijspolitiek te garanderen.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

Dit paper introduceert Provuse, een transparante platformzijde-optimalisatie voor FaaS-omgevingen die automatisch functies samenvoegt tijdens runtime om de latentie en het RAM-gebruik aanzienlijk te verminderen zonder dat ontwikkelaars hun code hoeven aan te passen.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

Dit paper introduceert MoEless, het eerste serverless framework voor het serveren van Mixture-of-Experts (MoE) taalmodellen dat door middel van proactieve voorspelling en dynamische schaalbaarheid expert-loadbalancingproblemen oplost en zo de inferentielatentie met 43% en de kosten met 84% verlaagt ten opzichte van bestaande oplossingen.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

Comparative Analysis of Cross-Chain Token Standards

Dit artikel biedt een uitgebreide vergelijkende analyse van vijf toonaangevende cross-chain tokenstandaarden en -kaders, waarbij de verschillen in architectuur, beveiliging, interoperabiliteit en vertrouwensmodellen worden belicht.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

Dit paper introduceert OrchMLLM, een framework dat de trainingsefficiëntie van multimodale grote taalmodellen verbetert door mini-batch-ongelijkheden te corrigeren via Batch Post-Balancing, wat resulteert in een tot 3,1 keer hogere doorvoer en een MFU van 41,6% op 2560 H100 GPU's.

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI

← Vorige Volgende →

cs.DC