{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

この論文は、RDMA ネットワークを活用した高速なモデルマルチキャストと「転送中の実行(execute-while-load)」を可能にする分散推論パイプライン「{\lambda}Pipe」を導入することで、サーバーレス環境における大規模言語モデルの起動オーバーヘッドを解消し、スケーリング速度とコスト効率を大幅に向上させるシステム「{\lambda}Scale」を提案するものです。

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

この論文は、混合専門家(MoE)モデルにおける重要な通信プリミティブであるオールツーオール(v) 通信のスケジューリング課題を解決し、負荷の偏りやインキャスト輻輳を回避しながら合成時間を劇的に短縮する効率的なスケジューラ「FAST」を提案するものです。

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

この論文は、F2\mathbb{F}_2 上の線形代数を用いてテンソルレイアウトをモデル化する「Linear Layouts」という新規アプローチを提案し、Triton への統合を通じて既存手法の課題を解決し、効率的なテンソル計算の実現とコンパイラバックエンドの工数削減を達成したことを示しています。

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

A Hierarchical Sharded Blockchain Balancing Performance and Availability

本論文は、シャードの可用性とパフォーマンスの両立を目指す階層型シャーディングブロックチェーン「PyloChain」を提案し、複数のローカルチェーンによる並列処理と DAG ベースのメインチェーンによる合意形成を組み合わせることで、最先端の手法と比較してスループットとレイテンシを大幅に改善したことを示しています。

Yongrae Jo, Chanik ParkMon, 09 Ma💻 cs

A Systematic Evaluation of the Potential of Carbon-Aware Execution for Scientific Workflows

本論文は、科学ワークフローの遅延許容性やスケーラビリティを活用した時間的シフトや動的な一時停止・再開、リソーススケーリングを系統的に評価し、これにより温室効果ガス排出量を最大 80% 以上削減できる可能性を実証したものである。

Kathleen West, Youssef Moawad, Fabian Lehmann, Vasilis Bountris, Ulf Leser, Yehia Elkhatib, Lauritz ThamsenMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

この論文は、単にネットワーク帯域幅を向上させるだけでは不十分であり、CPU や仮想化などのホスト側要因を含むエンドツーエンドの制約を包括的に分析する「排水盆地パターン」を提唱し、大規模データ転送のボトルネックがネットワークコア外部に存在することを実証しています。

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Why Ethereum Needs Fairness Mechanisms that Do Not Depend on Participant Altruism

本論文は、ブロック提案者の大部分が外部サービスに依存しており、真の利他的行動を示す者が 1.4% 未満に留まるという実証分析に基づき、Ethereum の公平性メカニズムを再確立するためには、参加者の利他性に依存せず、インセンティブやペナルティに基づく仕組みの導入が必要であると結論付けています。

Patrick Spiesberger, Nils Henrik Beyer, Hannes HartensteinMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

本論文は、Llama-3.1-70B と 405B といった大規模言語モデルの実証評価を通じて、レイテンシ最適化にはテンソル並列化が、スループット重視にはパイプライン並列化が適しており、両者の組み合わせ制御によってレイテンシとスループットのトレードオフを管理可能であることを示しています。

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

A Lock-Free Work-Stealing Algorithm for Bulk Operations

この論文は、決定図に基づく混合整数計画法ソルバの並列化向けに設計され、バッチ操作をネイティブにサポートし、制限された並行性モデル下で定数遅延のプッシュ性能と高いスケーラビリティを実現する新しいロックフリーのワークストーリングキューを提案するものである。

Raja Sai Nandhan Yadav Kataru, Danial Davarnia, Ali JannesariMon, 09 Ma🔢 math

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

本論文は、制約付き分散確率的ミニマックス最適化問題に対し、単一ループのプリマル専用スイッチング機構を採用することで、従来の双対法やペナルティ法の課題を克服し、部分参加を含む実用的な設定でも高い収束保証と安定性を達成する「Softmax-Weighted Switching Gradient 法」を提案し、その理論的有効性と公平分類などのタスクにおける実証的優位性を示したものである。

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

本論文は、大規模なマルチモーダル生成ワークロードのリアルタイム配信を可能にする適応型モジュールシステム「StreamWise」を提案し、ハードウェアの多様性や品質・リソースの動的調整を通じて、低遅延・低コストかつ高品質なポッドキャスト動画生成を実現しています。

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

この論文は、リソース制約のあるモバイルエージェントAI向けに、過去の執行から抽出した再利用可能な意思決定構造を帯域幅制限されたリンクで同期し、デバイス上の推論に注入する「知識駆動型推論フレームワーク」を提案し、UAVのケーススタディを通じて、適度な知識の注入がレイテンシ、エネルギー消費、エラー蓄積を削減し、ミッションの信頼性を向上させることを実証しています。

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

この論文は、連合学習と深層強化学習(DQN)を統合し、ブロックチェーン上のスマートコントラクト「LegalEdge」を通じて EV 充電インフラの動的価格設定とインセンティブをプライバシーを保護しつつ最適化するフレームワークを提案し、その有効性を示したものです。

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

この論文は、開発者のコード変更を必要とせず FaaS プラットフォーム側で自動的に複数の関数を融合させる「Provuse」という透明な最適化手法を提案し、これによりレイテンシを平均 26.33%、RAM 使用量を 53.57% 削減できることを実証しています。

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

この論文は、マルチモーダル大規模言語モデル(MLLM)の訓練におけるモダリティ構成の不一致によるバッチ不均衡と GPU 利用率の低下を解決し、84B パラメータのモデルを 2560 個の H100 GPU で訓練する際に Megatron-LM を最大 3.1 倍上回るスループットを実現する「OrchMLLM」というフレームワークを提案するものである。

Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda LiuFri, 13 Ma🤖 cs.AI