Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
本論文は、複数の独立して訓練された大規模言語モデル(LLM)間の動的なルーティングとカスケード手法を体系的に分析し、クエリ特性に応じた最適なモデル選択による効率性と性能の両立を可能にする概念枠組みを提示するとともに、今後の課題を明らかにする調査研究である。
104 件の論文
本論文は、複数の独立して訓練された大規模言語モデル(LLM)間の動的なルーティングとカスケード手法を体系的に分析し、クエリ特性に応じた最適なモデル選択による効率性と性能の両立を可能にする概念枠組みを提示するとともに、今後の課題を明らかにする調査研究である。
この論文は、行政登録データから得られる大規模で多層・混合モードのネットワークを効率的に処理するため、2 層データをメモリに展開することなくクエリ可能にする擬似射影アプローチを採用した、C# で書かれたオープンソースのネットワークストレージおよびクエリエンジン「Threadle」を紹介しています。
本論文は、分散型 HetNet における繰り返しスペクトルオークションにおいて、LLM を搭載した UE が競合を予測し戦略的に入札を行うことで、従来の貪欲な方針よりも高いチャネルアクセス頻度と予算効率を実現することを示しています。
本論文は、エッジデバイスにおける異種ネットワークを跨ぐマルチパス通信の効率化に向け、カーネル外でトランスフォーマーベースの深層強化学習エージェントが制御を担う「TCCO」というデカップル型フレームワークを提案し、ノイズの多い無線環境下でも既存手法を上回る適応性と性能を実現することを示しています。
本論文は、第 6 世代通信網における環境 IoT の課題を解決するため、可視光通信と環境後方散乱通信を統合したアーキテクチャの基礎、応用、実証実験、および将来の展望を包括的に検討しています。
この論文は、NP 完全問題であるネットワーク信号調整(NSC)問題およびその頑健な定式化に対して、グローバーの探索アルゴリズムを適用して二次的な高速化を実現し、そのシミュレーションおよび実量子コンピュータ上での実装を示したものである。
東京大学河原研究室は、衣服上のメアンダーコイルによる広域な身体スケール NFC 通信と、指輪とリストバンド間の中距離通信を実現する picoRing 技術の 2 つを組み合わせることで、超低消費電力ウェアラブル機器向けの人間中心型ネットワークシステムを提案する。
本論文は、低空経済における複数のサービスプロバイダ間の競争を解決し、通信・計算リソースの最適化を実現するために、真正性保証オークションと耐故障性のある連合強化学習を統合した自律的な協調アプローチを提案し、その有効性をシミュレーションで実証するものである。
本論文は、衛星・航空機・地上を統合したネットワークにおいて、可変インテリジェント表面と流体アンテナを備えたドローン中継による通信を最適化するため、階層的なスタッケルベルクゲームと適応型パーソナライズ化連合強化学習を組み合わせた新しい手法を提案し、その有効性をシミュレーションで検証したものである。
この論文は、大規模言語モデルを活用した計画、堅牢な融合位置推定、軌道追跡を統合し、実車実験を通じて屋内の過酷な環境における信頼性の高い自動駐車を実現する分散型UWB支援システム「U-Parking」を紹介するものである。
本論文は、FMCW 自動車レーダーの相互干渉を緩和する非協調技術のうち、帯域幅が十分に広い場合に最も効果的であることを示した「チャープごとの周波数ホッピング」を推奨し、コンパスベースの手法は複雑さに見合わない限定的な効果しかないと結論付けています。
本論文は、車両が自律的に交差点を停止することなく通過できるよう、個々の車両が軌道と速度プロファイルを最適化し、局所制御器が衝突を防止する「Moveover」という新しい V2N 通信プロトコルとアルゴリズムを提案し、4G/5G の通信遅延を含む多様な条件下でのシミュレーションにより、その旅行時間の短縮と排出ガス削減効果を実証しています。
本論文は、進化戦略と深層ハッシュ関数を組み合わせて大規模 Wi-Fi 7 ネットワークにおける干渉グラフを効率的に学習し、RTWT スロット割り当ての最適化を通じて低遅延・高信頼性を実現するスケーラブルなフレームワークを提案するものである。
本論文は、計算リソースや接続性の制約を克服し、衛星ネットワークの自律性と効率を高めるため、Open RAN の原則を拡張した分散制御アーキテクチャ「Space-O-RAN」を提案し、その有効性をスターリンクのトポロジーを用いたシミュレーションで検証したものである。
この論文は、暗号化されたトラフィックでもクライアントからサーバーへの通信のみを監視することで応答遅延を推定する受動的な手法「PIRATE」を提案し、その精度が 1% 以内であることを実証するとともに、負荷分散器への実装によりテール遅延を 37% 削減できることを示しています。
この論文は、SeQUeNCe シミュレータに基づき、イッテルビウム原子と超伝導量子ビットという異なるプラットフォームを統合した異種量子ネットワークの忠実なモデルを構築し、そのレートと忠実度のトレードオフや固有のボトルネックを明らかにするフレームワークを提示するものである。
本論文は、厳格なハードウェア制約と予測可能な動作を両立させるため、アテンション指向のニューラル計算と記号的制約をデータプレーンプリミティブにマッピングし、信頼性の高い推論を可能にする「Chimera」と呼ばれる原理的なフレームワークを提案しています。
本論文は、2014 年から 2025 年までの 11 年間のデータを用いて、Bitcoin の物理層インフラ(海底ケーブル)に対する耐性を初めて縦断的に分析し、ランダム故障には極めて高い耐性を持つ一方、標的攻撃には脆弱であることを示しつつ、TOR の採用が現在のリレー地理的分布においてネットワークの耐性をわずかに向上させていることを明らかにしました。
本論文は、エッジデバイス上の自律エージェントが能力や行動を共有する「アジェンティック P2P ネットワーク」の実現に向け、署名付き能力記述子と評判・検証・証拠パッケージに基づく多段階検証アーキテクチャを提案し、その有効性をシミュレーションで実証するものである。
本論文は、無線ネットワークの制御において、オフライン強化学習アルゴリズムを評価し、保守的 Q 学習(CQL)が様々な確率的ダイナミクスに対して最も堅牢な方策を提供することを示し、O-RAN や将来の 6G 制御におけるアルゴリズム選定の指針を提示しています。