Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

本論文は、合意プロトコルとストレージエンジン間の重複する永続化操作による I/O オーバーヘッドを解消するため、キー・バリュー分離と Raft を最適化して統合し、Put/Get/Scan 操作で大幅なスループット向上を実現した分散キーバリューストア「Nezha」を提案するものである。

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

本論文は、不確実な環境下での UAV スワームの意思決定課題を解決するため、クラウド・エッジ・端末層にOODA ループを埋め込み NFV 技術を活用した階層的 H-OODA フレームワークを提案し、自律意思決定と協調制御の統合による適応性向上と将来の課題を論じています。

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

本論文は、オンデバイス LLM 推論におけるメモリ属性とレイアウトの不一致という課題を解決し、DRAM ダブルバッファリングやオンライン重み再配置といったソフトウェア手法により、PIM 対応システムでの効率的な推論を実現する「PIM-SHERPA」を提案するものである。

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

本論文は、距離行列の中間メモリ確保やアトミック操作による競合といった GPU 上のボトルネックを解消する「FlashAssign」と「sort-inverse update」といったカーネルレベルの革新を導入し、NVIDIA H200 GPU 上で既存ライブラリを最大 200 倍以上高速化するオンライン対応の高速かつメモリ効率的な K-means アルゴリズム「Flash-KMeans」を提案しています。

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable O(1)O(1) Autoregressive Caching for Inference

本論文は、Mamba-2 の状態空間双対性アルゴリズムを XLA の最適化パスに直接マッピングすることで、CUDA 固有のカーネルに依存せず CPU、NVIDIA GPU、Google Cloud TPU 単一ソースから実行可能なポータブルかつ O(1)O(1) のオートレグレイシブキャッシングを実現し、TPU 上で高い性能と精度を確認したことを報告しています。

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

本論文は、BBR 輻輳制御アルゴリズムと TCP 拡張を採用した仮想化された XRootD フロントエンドが、77 Gb/s の dCache バックエンドから外部 WAN へデータ転送を行う際、ピーク時に 51.3 Gb/s の aggregate スループットを達成したという実証的な性能分析ケーススタディを報告するものである。

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

この論文は、送信者と受信者間の共通乱数なしでも局所差分プライバシーを保証し、共有乱数を利用することで従来の損失なし伝送や Wyner 共通情報に基づく手法を大幅に凌駕する通信レートを実現する、新しいランダム化分散関数計算(RDFC)フレームワークを提案し、その理論的限界と実用性を示しています。

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

本論文は、再学習なしにスパースモデルのサブグラフを再構成する「モデルステッチング」手法と、それをエッジ SoC に実装した実証システム「SparseLoom」を提案し、既存のマルチ DNN 推論システムと比較して SLO 違反率の大幅な削減、スループットの向上、およびメモリオーバーヘッドの低減を実現することを示しています。

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

この論文は、安全クリティカルな自律システムにおいて、データの鮮度制約に基づいてタスクのオフセットを最適化し、Just-in-Time 方式でデータ生成を調整することで、LET パラダイムの遅延や過剰サンプリングを排除しつつ、エンドツーエンドのデータ鮮度を保証し、かつグローバル EDF の 100% のスケジューラビリティを維持する新しいタスクベースのスケジューリング枠組みを提案しています。

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

この論文は、科学計算におけるタイルベースの圧縮アーキテクチャを反映し、有限格子上の異種ランダム場に対する非漸近的なレート歪み理論枠組みを構築し、空間相関や領域幾何学、異種性、タイルサイズがレートと分散に与える影響を定量化する第二次数展開を導出したものである。

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

本論文は、従来の時間ベースの権限取り消しモデルがエージェント実行環境において抱える一貫性問題を、メモリ一貫性モデル(MESI)の概念を権限管理に転用した「能力一貫性システム(CCS)」と「リリース整合性指向一貫性(RCC)戦略」によって解決し、シミュレーションにより従来手法に比べ最大 184 倍の安全性向上と権限取り消し遅延に伴う不正操作の理論的限界の突破を実証しています。

Vladyslav ParakhinWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

本論文は、大規模モデル学習の性能問題を診断するために、プロファイリングに基づく微細な観測と全 GPU クラスタの網羅的カバレッジを備えた初のオンライントラブルシューティングシステム「EROICA」を提案し、約 10 万 GPU の大規模環境で 1 年半にわたり稼働し、97.5% の成功率で多様な性能問題を特定したことを報告するものである。

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

この論文は、データとモデルの両方の異質性に対処し、タスク関連性を考慮した集約戦略と次元不変モジュール「Co-LoRA」を導入することで、現実的な多モーダル環境におけるパーソナライズド連合学習の性能を大幅に向上させる手法を提案し、40 のタスクを含む新しいベンチマークでその有効性を示しています。

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

本論文は、大規模マルチモーダルモデルをモジュール単位で分解し、SoC 内の最適なアクセラレータに動的に割り当てるハードウェア・ソフトウェア協調設計フレームワーク「NANOMIND」を提案し、バッテリー駆動の小型デバイス上で高効率かつ低消費電力なオンデバイス推論を実現したことを示しています。

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

本論文は、並列化、メモリ制約、ネットワークトポロジーを統合的に考慮し、構造化された動的計画法を用いて分散深層学習のデバイス配置を最適化するフレームワーク「NEST」を提案し、既存手法と比較して最大 2.43 倍のスループット向上とスケーラビリティの改善を実現することを示しています。

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

本論文は、事前定義されたワークフローに依存せず、リクエスト時に設定から実行グラフを動的に生成することで、分散システムにおけるデータ取得の柔軟性と低遅延を実現する構成駆動型のランタイムオーケストレーションフレームワークを提案し、そのアーキテクチャと顧客 360 度ビューの事例を通じてその有効性を示しています。

Abhiram KandirajuTue, 10 Ma💻 cs

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

Uber は、ビジネスの重要度に応じた差別化アーキテクチャを導入し、非クリティカルなサービスがクリティカルなサービスの予備容量を平時に共有し、ピーク時のフェイルオーバー時にのみ選択的に中断・復元される仕組み(UFA)を構築することで、2 倍の冗長構成から 1.3 倍へリソースを削減しつつ 99.97% の可用性を維持し、400 万コア中 100 万コア以上を削減することに成功しました。

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs