{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

Il paper presenta {\lambda}Scale, un sistema serverless per l'inferenza di grandi modelli linguistici che riduce i tempi di avvio e i costi sfruttando le reti RDMA per il multicast rapido dei modelli e l'esecuzione distribuita durante il caricamento ("execute-while-load"), ottenendo significativi miglioramenti nella latenza rispetto alle soluzioni esistenti.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

Il paper presenta FAST, un efficiente scheduler per comunicazioni All-to-All(v) su GPU che risolve problemi di sbilanciamento del carico e congestione nei modelli MoE riducendo drasticamente i tempi di sintesi rispetto alle soluzioni esistenti.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Il paper introduce "Linear Layouts", un approccio innovativo che modella le disposizioni dei tensori tramite algebra lineare su F2\mathbb{F}_2 per generare codice efficiente, offrire definizioni generiche e conversioni flessibili, riducendo l'errore umano e i costi computazionali nell'integrazione con Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

Questo studio dimostra che sfruttare la tolleranza ai ritardi, l'interruttibilità e la scalabilità dei flussi di lavoro scientifici attraverso lo spostamento temporale e il ridimensionamento dinamico delle risorse può ridurre le emissioni di carbonio fino all'80% e al 67% rispettivamente.

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Questo studio analizza le strategie di parallelizzazione per il deployment di modelli LLM densi, evidenziando come l'uso combinato del parallelismo tensoriale e pipeline permetta di gestire i compromessi tra latenza e throughput in base ai requisiti specifici dell'applicazione.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Questo articolo propone un nuovo metodo di gradiente commutante con pesi softmax per l'ottimizzazione minimax stocastica distribuita con vincoli stocastici, dimostrando teoricamente una complessità di O(ϵ4)\mathcal{O}(\epsilon^{-4}) e una convergenza ad alta probabilità in scenari di apprendimento federato con partecipazione parziale, senza richiedere assunzioni di limitatezza standard.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Questo paper propone un framework di ragionamento guidato dalla conoscenza per l'IA agente mobile che, estraendo e sincronizzando strutture decisionali riutilizzabili su dispositivi con risorse limitate, ottimizza il compromesso tra velocità di ragionamento e rischio di errore, come dimostrato da uno studio su UAV che raggiunge un'affidabilità perfetta con costi inferiori rispetto ai metodi tradizionali.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Comparative Analysis of Cross-Chain Token Standards

Questo articolo presenta un'analisi comparativa approfondita di cinque principali standard e framework per token cross-chain (xERC20, OFT, NTT, CCT e SuperchainERC20), esaminando le loro differenze architetturali, nei meccanismi di messaggistica, nei modelli di fiducia e negli ecosistemi di destinazione pur condividendo l'obiettivo comune di garantire la fungibilità unificata attraverso più blockchain.

Fatemeh Heidari Soureshjani, Jan GorznyMon, 09 Ma💻 cs

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Questo lavoro presenta la prima piattaforma di addestramento distribuito su cloud basata su mille GPU per l'intelligenza incarnata, che ottimizza l'intera pipeline dai dati all'infrastruttura per ridurre i tempi di addestramento del modello GR00T-N1.5 di 40 volte e creare un sistema di valutazione end-to-end che accelera lo sviluppo di robot autonomi.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI