Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL
Python 3.14.2 の GIL 無効化ビルドは、並列処理可能なワークロードでは実行時間とエネルギー消費を最大 4 倍削減する一方で、逐次処理や共有リソースへの頻繁なアクセスを伴うケースではエネルギー効率の低下やメモリ使用量の増加を招くため、導入にはワークロード特性に応じた慎重な評価が必要である。
138 件の論文
Python 3.14.2 の GIL 無効化ビルドは、並列処理可能なワークロードでは実行時間とエネルギー消費を最大 4 倍削減する一方で、逐次処理や共有リソースへの頻繁なアクセスを伴うケースではエネルギー効率の低下やメモリ使用量の増加を招くため、導入にはワークロード特性に応じた慎重な評価が必要である。
本論文は、ファイル同期、電子メール、記憶といった多様な領域において、双方向の反映フェーズを欠く「前方のみ」の時間仮定が意味の喪失や因果関係の崩壊を引き起こすという共通の構造的欠陥(FITO のカテゴリー誤謬)を明らかにし、これが情報処理における意味の矢印の時間的逆転を構成していると結論付けています。
本論文は、フィト(FITO)の誤謬を排除し、相互情報量の保存を基盤とした「ライプニッツ・ブリッジ」を構築することで、分散システムの矛盾定理を物理法則ではなく設計上の欠陥として再解釈し、時間的意味の統一理論を完成させるものである。
本論文は、データ取り込み経路に軽量なストリーム内フィルタリング層を組み込むことで、ストリーミングと分析データプレーンを統合し、大規模クラウド観測プラットフォームにおける高負荷クエリのパフォーマンスを大幅に向上させる「FluxSieve」と呼ばれるアーキテクチャを提案しています。
本論文は、LLM のプロンプトチューニングにおける SLO 違反の削減とコスト最適化を実現するため、効率的な初期プロンプトを特定する「Prompt Bank」と高速なリソース割り当てを可能にする「Workload Scheduler」を導入した SLO 感知型弾性システム「PromptTuner」を提案しています。
この論文は、共有または非共有のランダムビットを利用する匿名ネットワークにおける選出問題(Election problem)について、任意の構造的知識を考慮した上で、ランダム化アルゴリズムの存在条件をラスベガス型およびモンテカルロ型の両方において完全に特徴付け、既存研究を一般化するとともに、知識の具体例ごとの適用可能性を明らかにする包括的な枠組みを提供するものである。
本論文は、エッジクラウドファブリック上で数千のカメラストリームからリアルタイムに交通グラフを生成し、Spatio-Temporal GNN による予測や継続的学習を通じて、バンガロールのテストベッドで最大 2000 FPS の安定した処理と 1000 ストリーム規模の拡張性を実証した、スケーラブルな AI 駆動型交通システム(AIITS)を提案するものである。
本論文は、分散クラウドの運用を可能にするために、ノード上のエージェントが収集したメトリクスを制御平面に転送・集約し、ストリーミング API 等を通じて多様なクライアントに可視化する監視システムの設計と実装を提案するものである。
FleCSI フレームワークを用いた大規模並列ベンチマークにより、MPI 実装と比較して HPX などの非同期マルチタスクランタイムが、計算集約的な放射流体力学シミュレーションにおいて特に小規模ノード数で優れた性能を発揮し、通信集約的な問題では MPI 実装と同等の高い並列効率を維持できることが示されました。
この論文は、遅延やプライバシーなどの制約により場所を固定する必要があるエネルギー集約型サービスにおいて、グリッドの炭素強度に応じて応答の品質を動的に調整する予測ベースの最適化手法を提案し、大規模言語モデルサービスの年間炭素排出量を最大 10% 削減できることを示しています。
この論文は、機密仮想マシン(CVM)のコード実行だけでなく、信頼されたデータセンター内での物理的な実行場所も暗号学的に証明する「クラウドの証明(Proof of Cloud)」を実現する新しい設計「DCEA」を提案し、その安全性を理論的に証明するとともに実環境での実用性を示したものである。
OSGym は、学術的な予算で 1000 以上の OS 複製を並列実行し、多様なコンピューター操作タスクに対応する拡張可能な分散データエンジンとして、エージェントの学習に不可欠な大規模なデータ生成とトレーニングパイプラインを実現するものです。
本論文は、GHZ 状態などの多粒子エンタングルメント資源と 4 次元のクビット(qudits)を活用して、分散量子コンピューティングにおける「グローバルゲート」の実装効率を向上させ、量子回路の圧縮や将来の量子データセンター設計への示唆を与えることを検討しています。
本論文は、大規模言語モデル(LLM)に基づくクラウド障害根本原因分析(RCA)エージェントが、モデルの能力差に関わらずアーキテクチャ固有の欠陥により失敗する傾向にあることを実証し、プロンプトエンジニアリングではなくエージェント間通信プロトコルの強化が有効な対策であることを示すプロセスレベルの失敗分析を提示する。
本論文は、分散環境におけるパイプライン並列学習の新たな課題に鑑み、計算の重複なしに段階間の通信整合性を検証し、最大 40 億パラメータの LLM 訓練を可能にする「SENTINEL」という軽量な検証メカニズムを提案し、その理論的収束保証と実証実験を示すものです。
本論文は、分散量子コンピューティングにおける通信オーバーヘッドを最小化するため、静的なグラフ分割やメタヒューリスティック手法の欠点を克服し、回路の深さと量子ビット数に対して効率的に動作する時間意識型のビーム探索に基づく回路分割アルゴリズムを提案する。
この論文は、勾配共有に代わって永続ホモロジーに基づく位相記述子を用いることで、データ再構成攻撃への耐性と非 IID 環境における個人化学習の精度を同時に向上させる新たな連合学習フレームワーク「PTOPOFL」を提案し、その理論的保証と医療および病理データを用いた実験による有効性を示しています。
本論文は、量子機械学習の古典シミュレーションにおいて、フォワードおよびバックワードパスでのゲート融合によりメモリアクセスを最小化し、最大 30 倍の処理速度向上と大規模モデルのメモリ効率的な学習を実現する手法を提案する。