The Missing Memory Hierarchy: Demand Paging for LLM Context Windows
この論文は、LLM のコンテキストウィンドウを単なるキャッシュではなく、仮想メモリとして扱う「Pichay」と呼ばれる需要ページングシステムを提案し、生産環境での実証を通じて、不要な情報の排除とページフォルト駆動のピン留めによりコンテキスト消費を最大 93% 削減可能であることを示しています。
11 件の論文
この論文は、LLM のコンテキストウィンドウを単なるキャッシュではなく、仮想メモリとして扱う「Pichay」と呼ばれる需要ページングシステムを提案し、生産環境での実証を通じて、不要な情報の排除とページフォルト駆動のピン留めによりコンテキスト消費を最大 93% 削減可能であることを示しています。
本論文は、ARM TrustZone の不十分なリソース分離によるオーバーヘッドを克服し、柔軟なメモリおよび NPU 保護メカニズムを導入することで、モバイル端末における大規模言語モデル(LLM)推論の高速化とセキュリティを両立させる「FlexServe」システムを提案し、従来手法と比較して大幅な性能向上を実現したことを示しています。
この論文は、安全クリティカルな自律システムにおいて、データの鮮度制約に基づいてタスクのオフセットを最適化し、Just-in-Time 方式でデータ生成を調整することで、LET パラダイムの遅延や過剰サンプリングを排除しつつ、エンドツーエンドのデータ鮮度を保証し、かつグローバル EDF の 100% のスケジューラビリティを維持する新しいタスクベースのスケジューリング枠組みを提案しています。
本論文は、大規模モデル学習の性能問題を診断するために、プロファイリングに基づく微細な観測と全 GPU クラスタの網羅的カバレッジを備えた初のオンライントラブルシューティングシステム「EROICA」を提案し、約 10 万 GPU の大規模環境で 1 年半にわたり稼働し、97.5% の成功率で多様な性能問題を特定したことを報告するものである。
この論文は、eBPF を用いたシステムレベルの監視により、従来の検索可能暗号(SSE)の脅威モデルを超えた新たな漏洩パターンを特定し、既存の漏洩悪用攻撃を強化できることを示すことで、理論的なセキュリティとシステムレベルの現実のギャップを埋めることを目指しています。
本論文は、アプリケーションやシステムデータを活用した機械学習駆動およびデータ認識型のマイクロアーキテクチャ手法(強化学習に基づくデータプリフェッチや意味的特性の活用など)を提案し、従来のデータ非依存な設計の限界を克服することで、メモリボトルネックを緩和しパフォーマンスとエネルギー効率を大幅に向上させることを示しています。
この論文は、DHT のフィンガーテーブルを活用したパッシブな安定化メカニズムと版数ベクトルを導入することで、グローバルな協調なしに大規模なモバイルアドホックネットワークにおけるネットワーク分断に耐性を持ち、メッセージ複雑度を削減しながら最終的な一貫性を保証する「構造化されたゴシップ DNS」を提案しています。
この論文は、レガシーハードウェアの変更を伴わずにアプリケーション、OS カーネル、周辺機器のすべての脅威から Embedded デバイスを保護するため、トークン型能力アーキテクチャを採用し、実行時ソフトウェア TCB を排除した Zephyr ベースの RTOS を提案・評価するものである。
本論文は、LLM ワークフローを「LLM プログラム」として抽象化し、KV キャッシュのヒット率向上やメモリ不均衡の解消、非同期な環境準備を可能にするプログラム意識型のスケジューラとツールリソースマネージャーを備えた高速でシンプルな推論システム「ThunderAgent」を提案し、既存システムと比較してスループットやディスクメモリ効率を大幅に改善することを示しています。
この論文は、単にネットワーク帯域幅を向上させるだけでは不十分であり、CPU や仮想化などのホスト側要因を含むエンドツーエンドの制約を包括的に分析する「排水盆地パターン」を提唱し、大規模データ転送のボトルネックがネットワークコア外部に存在することを実証しています。
本論文は、推論に伴う再構成コストに依存せず、局所的な意味的変化のみで計算量が制限される決定論的セマンティック状態基盤「Compute ICE-AGE」の実装と、大規模ノード数における不変な計算効率を実証した結果を報告しています。