The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

この論文は、LLM のコンテキストウィンドウを単なるキャッシュではなく、仮想メモリとして扱う「Pichay」と呼ばれる需要ページングシステムを提案し、生産環境での実証を通じて、不要な情報の排除とページフォルト駆動のピン留めによりコンテキスト消費を最大 93% 削減可能であることを示しています。

Tony MasonWed, 11 Ma🤖 cs.AI

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

本論文は、ARM TrustZone の不十分なリソース分離によるオーバーヘッドを克服し、柔軟なメモリおよび NPU 保護メカニズムを導入することで、モバイル端末における大規模言語モデル(LLM)推論の高速化とセキュリティを両立させる「FlexServe」システムを提案し、従来手法と比較して大幅な性能向上を実現したことを示しています。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

この論文は、安全クリティカルな自律システムにおいて、データの鮮度制約に基づいてタスクのオフセットを最適化し、Just-in-Time 方式でデータ生成を調整することで、LET パラダイムの遅延や過剰サンプリングを排除しつつ、エンドツーエンドのデータ鮮度を保証し、かつグローバル EDF の 100% のスケジューラビリティを維持する新しいタスクベースのスケジューリング枠組みを提案しています。

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

本論文は、大規模モデル学習の性能問題を診断するために、プロファイリングに基づく微細な観測と全 GPU クラスタの網羅的カバレッジを備えた初のオンライントラブルシューティングシステム「EROICA」を提案し、約 10 万 GPU の大規模環境で 1 年半にわたり稼働し、97.5% の成功率で多様な性能問題を特定したことを報告するものである。

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

この論文は、eBPF を用いたシステムレベルの監視により、従来の検索可能暗号(SSE)の脅威モデルを超えた新たな漏洩パターンを特定し、既存の漏洩悪用攻撃を強化できることを示すことで、理論的なセキュリティとシステムレベルの現実のギャップを埋めることを目指しています。

Chinecherem DimobiTue, 10 Ma💻 cs

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

本論文は、アプリケーションやシステムデータを活用した機械学習駆動およびデータ認識型のマイクロアーキテクチャ手法(強化学習に基づくデータプリフェッチや意味的特性の活用など)を提案し、従来のデータ非依存な設計の限界を克服することで、メモリボトルネックを緩和しパフォーマンスとエネルギー効率を大幅に向上させることを示しています。

Rahul BeraTue, 10 Ma🤖 cs.LG

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

この論文は、DHT のフィンガーテーブルを活用したパッシブな安定化メカニズムと版数ベクトルを導入することで、グローバルな協調なしに大規模なモバイルアドホックネットワークにおけるネットワーク分断に耐性を持ち、メッセージ複雑度を削減しながら最終的な一貫性を保証する「構造化されたゴシップ DNS」を提案しています。

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

本論文は、LLM ワークフローを「LLM プログラム」として抽象化し、KV キャッシュのヒット率向上やメモリ不均衡の解消、非同期な環境準備を可能にするプログラム意識型のスケジューラとツールリソースマネージャーを備えた高速でシンプルな推論システム「ThunderAgent」を提案し、既存システムと比較してスループットやディスクメモリ効率を大幅に改善することを示しています。

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

この論文は、単にネットワーク帯域幅を向上させるだけでは不十分であり、CPU や仮想化などのホスト側要因を含むエンドツーエンドの制約を包括的に分析する「排水盆地パターン」を提唱し、大規模データ転送のボトルネックがネットワークコア外部に存在することを実証しています。

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs