cs.DC articoli | Gist.Science

{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Il paper presenta {\lambda}Scale, un sistema serverless per l'inferenza di grandi modelli linguistici che riduce i tempi di avvio e i costi sfruttando le reti RDMA per il multicast rapido dei modelli e l'esecuzione distribuita durante il caricamento ("execute-while-load"), ottenendo significativi miglioramenti nella latenza rispetto alle soluzioni esistenti.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Il paper presenta FAST, un efficiente scheduler per comunicazioni All-to-All(v) su GPU che risolve problemi di sbilanciamento del carico e congestione nei modelli MoE riducendo drasticamente i tempi di sintesi rispetto alle soluzioni esistenti.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Il paper introduce "Linear Layouts", un approccio innovativo che modella le disposizioni dei tensori tramite algebra lineare su $\mathbb{F}_2$ per generare codice efficiente, offrire definizioni generiche e conversioni flessibili, riducendo l'errore umano e i costi computazionali nell'integrazione con Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

Il documento presenta PyloChain, una blockchain sharding gerarchica che bilancia prestazioni e disponibilità attraverso l'esecuzione speculativa delle transazioni locali e un meccanismo di auditing fine-granularità, dimostrando un throughput superiore e una latenza ridotta rispetto alle soluzioni esistenti.

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Questo studio dimostra che sfruttare la tolleranza ai ritardi, l'interruttibilità e la scalabilità dei flussi di lavoro scientifici attraverso lo spostamento temporale e il ridimensionamento dinamico delle risorse può ridurre le emissioni di carbonio fino all'80% e al 67% rispettivamente.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Il paper introduce A-3PO, un metodo che accelera l'addestramento asincrono dei LLM sostituendo il calcolo esplicito della politica prossimale con un'approssimazione tramite interpolazione, ottenendo un speedup di 1,8 volte senza compromettere le prestazioni.

Xiaocan Li, Shiliang Wu, Zheng ShenMon, 09 Ma🤖 cs.AI

Reexamining Paradigms of End-to-End Data Movement

Questo paper esamina sei paradigmi che influenzano il trasferimento dati, introducendo il modello "Drainage Basin Pattern" per dimostrare come i colli di bottiglia risiedano spesso al di fuori della rete centrale e come un approccio olistico hardware-software sia essenziale per garantire prestazioni prevedibili su larga scala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

L'analisi empirica dimostra che la percentuale di propositori di blocchi su Ethereum che agiscono in modo altruistico è trascurabile, rendendo insufficiente la fiducia nella loro buona volontà e sottolineando la necessità di meccanismi di equità basati su incentivi o penalità piuttosto che sull'altruismo.

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Questo studio analizza le strategie di parallelizzazione per il deployment di modelli LLM densi, evidenziando come l'uso combinato del parallelismo tensoriale e pipeline permetta di gestire i compromessi tra latenza e throughput in base ai requisiti specifici dell'applicazione.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

Questo articolo presenta una nuova coda di lavoro lock-free ottimizzata per un framework master-worker nella risoluzione di problemi di programmazione a numeri interi, che supporta operazioni in blocco e garantisce prestazioni costanti e scalabilità superiore rispetto alle soluzioni generiche esistenti.

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Questo articolo propone un nuovo metodo di gradiente commutante con pesi softmax per l'ottimizzazione minimax stocastica distribuita con vincoli stocastici, dimostrando teoricamente una complessità di $\mathcal{O}(\epsilon^{-4})$ e una convergenza ad alta probabilità in scenari di apprendimento federato con partecipazione parziale, senza richiedere assunzioni di limitatezza standard.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Gathering Autonomous Mobile Robots Under the Adversarial Defected View Model

Questo articolo presenta due algoritmi distribuiti che garantiscono il gathering deterministico e in tempo finito di robot mobili autonomi nel piano euclideo, operando in condizioni di vista difettosa avversaria sia nel modello sincrono completo che in quello asincrono, pur in presenza di movimenti non rigidi e di informazioni sensoriali incomplete.

Prakhar Shukla, Seshunadh Tanuj Peddinti, Subhash BhagatMon, 09 Ma💻 cs

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Il paper presenta StreamWise, un sistema di serving adattivo e modulare che ottimizza l'orchestrazione di modelli generativi multimodali su hardware eterogeneo per abilitare la creazione di podcast video in tempo reale, bilanciando dinamicamente latenza, costi e qualità.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Questo paper propone un framework di ragionamento guidato dalla conoscenza per l'IA agente mobile che, estraendo e sincronizzando strutture decisionali riutilizzabili su dispositivi con risorse limitate, ottimizza il compromesso tra velocità di ragionamento e rischio di errore, come dimostrato da uno studio su UAV che raggiunge un'affidabilità perfetta con costi inferiori rispetto ai metodi tradizionali.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Domain-Adaptive Model Merging across Disconnected Modes

Il paper presenta DMM, un framework di fusione di modelli privo di dati che, attraverso la sintesi di pseudo-dati e la distillazione della conoscenza, integra efficacemente modelli addestrati su domini diversi preservando le informazioni critiche senza necessità di condividere i dati originali.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian WuMon, 09 Ma🤖 cs.AI

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

Il documento presenta LegalEdge, un framework di intelligenza al bordo che integra l'apprendimento federato e le reti Q profonde per ottimizzare la gestione dinamica, la privacy e l'allocazione energetica delle infrastrutture di ricarica dei veicoli elettrici tramite smart contract su blockchain.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

Il paper presenta Provuse, un'ottimizzazione trasparente lato piattaforma per ambienti FaaS che fonde automaticamente le funzioni a runtime per eliminare le istanze ridondanti, riducendo significativamente latenza e consumo di RAM senza richiedere modifiche al codice degli sviluppatori.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

MoEless: Efficient MoE LLM Serving via Serverless Computing

Il paper presenta MoEless, il primo framework di serving serverless per modelli LLM basati su Mixture-of-Experts (MoE), che risolve il problema dello squilibrio del carico tra esperti tramite predittori leggeri e strategie di scaling ottimizzate, riducendo la latenza di inferenza del 43% e i costi dell'84% rispetto alle soluzioni esistenti.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao WangMon, 09 Ma🤖 cs.AI

Comparative Analysis of Cross-Chain Token Standards

Questo articolo presenta un'analisi comparativa approfondita di cinque principali standard e framework per token cross-chain (xERC20, OFT, NTT, CCT e SuperchainERC20), esaminando le loro differenze architetturali, nei meccanismi di messaggistica, nei modelli di fiducia e negli ecosistemi di destinazione pur condividendo l'obiettivo comune di garantire la fungibilità unificata attraverso più blockchain.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Questo lavoro presenta la prima piattaforma di addestramento distribuito su cloud basata su mille GPU per l'intelligenza incarnata, che ottimizza l'intera pipeline dai dati all'infrastruttura per ridurre i tempi di addestramento del modello GR00T-N1.5 di 40 volte e creare un sistema di valutazione end-to-end che accelera lo sviluppo di robot autonomi.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

← Precedente Successivo →

cs.DC