Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration
本論文は、合意プロトコルとストレージエンジン間の重複する永続化操作による I/O オーバーヘッドを解消するため、キー・バリュー分離と Raft を最適化して統合し、Put/Get/Scan 操作で大幅なスループット向上を実現した分散キーバリューストア「Nezha」を提案するものである。
134 件の論文
本論文は、合意プロトコルとストレージエンジン間の重複する永続化操作による I/O オーバーヘッドを解消するため、キー・バリュー分離と Raft を最適化して統合し、Put/Get/Scan 操作で大幅なスループット向上を実現した分散キーバリューストア「Nezha」を提案するものである。
本論文は、不確実な環境下での UAV スワームの意思決定課題を解決するため、クラウド・エッジ・端末層にOODA ループを埋め込み NFV 技術を活用した階層的 H-OODA フレームワークを提案し、自律意思決定と協調制御の統合による適応性向上と将来の課題を論じています。
本論文は、オンデバイス LLM 推論におけるメモリ属性とレイアウトの不一致という課題を解決し、DRAM ダブルバッファリングやオンライン重み再配置といったソフトウェア手法により、PIM 対応システムでの効率的な推論を実現する「PIM-SHERPA」を提案するものである。
本論文は、距離行列の中間メモリ確保やアトミック操作による競合といった GPU 上のボトルネックを解消する「FlashAssign」と「sort-inverse update」といったカーネルレベルの革新を導入し、NVIDIA H200 GPU 上で既存ライブラリを最大 200 倍以上高速化するオンライン対応の高速かつメモリ効率的な K-means アルゴリズム「Flash-KMeans」を提案しています。
本論文は、Mamba-2 の状態空間双対性アルゴリズムを XLA の最適化パスに直接マッピングすることで、CUDA 固有のカーネルに依存せず CPU、NVIDIA GPU、Google Cloud TPU 単一ソースから実行可能なポータブルかつ のオートレグレイシブキャッシングを実現し、TPU 上で高い性能と精度を確認したことを報告しています。
本論文は、BBR 輻輳制御アルゴリズムと TCP 拡張を採用した仮想化された XRootD フロントエンドが、77 Gb/s の dCache バックエンドから外部 WAN へデータ転送を行う際、ピーク時に 51.3 Gb/s の aggregate スループットを達成したという実証的な性能分析ケーススタディを報告するものである。
この論文は、送信者と受信者間の共通乱数なしでも局所差分プライバシーを保証し、共有乱数を利用することで従来の損失なし伝送や Wyner 共通情報に基づく手法を大幅に凌駕する通信レートを実現する、新しいランダム化分散関数計算(RDFC)フレームワークを提案し、その理論的限界と実用性を示しています。
本論文は、再学習なしにスパースモデルのサブグラフを再構成する「モデルステッチング」手法と、それをエッジ SoC に実装した実証システム「SparseLoom」を提案し、既存のマルチ DNN 推論システムと比較して SLO 違反率の大幅な削減、スループットの向上、およびメモリオーバーヘッドの低減を実現することを示しています。
この論文は、安全クリティカルな自律システムにおいて、データの鮮度制約に基づいてタスクのオフセットを最適化し、Just-in-Time 方式でデータ生成を調整することで、LET パラダイムの遅延や過剰サンプリングを排除しつつ、エンドツーエンドのデータ鮮度を保証し、かつグローバル EDF の 100% のスケジューラビリティを維持する新しいタスクベースのスケジューリング枠組みを提案しています。
この論文は、科学計算におけるタイルベースの圧縮アーキテクチャを反映し、有限格子上の異種ランダム場に対する非漸近的なレート歪み理論枠組みを構築し、空間相関や領域幾何学、異種性、タイルサイズがレートと分散に与える影響を定量化する第二次数展開を導出したものである。
本論文は、従来の時間ベースの権限取り消しモデルがエージェント実行環境において抱える一貫性問題を、メモリ一貫性モデル(MESI)の概念を権限管理に転用した「能力一貫性システム(CCS)」と「リリース整合性指向一貫性(RCC)戦略」によって解決し、シミュレーションにより従来手法に比べ最大 184 倍の安全性向上と権限取り消し遅延に伴う不正操作の理論的限界の突破を実証しています。
本論文は、確率的なストランガー(遅延サーバー)が発生する環境下において、既存の一般符号化計算手法(BACC および LeTCC)の近似誤差が、サーバー数 に対してゼロに収束することを理論的に証明し、実験によって検証したものである。
本論文は、大規模モデル学習の性能問題を診断するために、プロファイリングに基づく微細な観測と全 GPU クラスタの網羅的カバレッジを備えた初のオンライントラブルシューティングシステム「EROICA」を提案し、約 10 万 GPU の大規模環境で 1 年半にわたり稼働し、97.5% の成功率で多様な性能問題を特定したことを報告するものである。
この論文は、データとモデルの両方の異質性に対処し、タスク関連性を考慮した集約戦略と次元不変モジュール「Co-LoRA」を導入することで、現実的な多モーダル環境におけるパーソナライズド連合学習の性能を大幅に向上させる手法を提案し、40 のタスクを含む新しいベンチマークでその有効性を示しています。
本論文は、大規模マルチモーダルモデルをモジュール単位で分解し、SoC 内の最適なアクセラレータに動的に割り当てるハードウェア・ソフトウェア協調設計フレームワーク「NANOMIND」を提案し、バッテリー駆動の小型デバイス上で高効率かつ低消費電力なオンデバイス推論を実現したことを示しています。
本論文は、HPC と量子プロセッサ(QPU)の統合システムにおいて、レジリエンスを事後対応ではなく設計上の先決条件とし、土木工学の手法やエンドユーザー価値モデルを取り入れた定量的レジリエンスモデルと指標の必要性を論じています。
本論文は、並列化、メモリ制約、ネットワークトポロジーを統合的に考慮し、構造化された動的計画法を用いて分散深層学習のデバイス配置を最適化するフレームワーク「NEST」を提案し、既存手法と比較して最大 2.43 倍のスループット向上とスケーラビリティの改善を実現することを示しています。
本論文は、事前定義されたワークフローに依存せず、リクエスト時に設定から実行グラフを動的に生成することで、分散システムにおけるデータ取得の柔軟性と低遅延を実現する構成駆動型のランタイムオーケストレーションフレームワークを提案し、そのアーキテクチャと顧客 360 度ビューの事例を通じてその有効性を示しています。
本論文は、大規模 AI クラスターにおける故障・回復・スケジューリング・修理のプロセスにおける設計選択やパラメータの影響を体系的に評価し、信頼性向上や容量計画を支援する離散イベントシミュレータ「AIReSim」を提案するものである。
Uber は、ビジネスの重要度に応じた差別化アーキテクチャを導入し、非クリティカルなサービスがクリティカルなサービスの予備容量を平時に共有し、ピーク時のフェイルオーバー時にのみ選択的に中断・復元される仕組み(UFA)を構築することで、2 倍の冗長構成から 1.3 倍へリソースを削減しつつ 99.97% の可用性を維持し、400 万コア中 100 万コア以上を削減することに成功しました。