Each language version is independently generated for its own context, not a direct translation.

この論文は、**「vLLM Semantic Router（vLLM セマンティック・ルーター）」**という、AI の世界における「超スマートな交通整理員」の仕組みについて説明したものです。

想像してみてください。AI（大規模言語モデル）の世界には、今や無数の「専門家」がいます。

超高速だが少し頭が悪い「速報屋」
遅いけど非常に賢い「教授」
医療に詳しい「医者」
法律に詳しい「弁護士」
絵を描くのが得意な「画家」

これらすべてを一つのシステムで管理し、「今、ユーザーが何を聞いているのか」に合わせて、最適な専門家へ瞬時に案内するのがこのシステムの役割です。

以下に、難しい技術用語を避け、日常の比喩を使って分かりやすく解説します。

1. 核心となるアイデア：「信号（シグナル）で判断する」

このシステムの最大の特徴は、**「信号（シグナル）」**を使って決断を下すことです。

従来の方法： 「この質問は難しいから、一番高い AI に送ろう」といった、単純なルールや「難易度」だけで判断していました。
このシステムの方法： 質問を「信号」の集まりとして捉えます。
- 「キーワードに『殺人』が含まれているか？」（危険信号）
- 「質問の言語は日本語か？」（言語信号）
- 「ユーザーは VIP 会員か？」（権限信号）
- 「この質問は事実確認が必要か？」（事実信号）

これらすべての信号を**「論理回路（ブール論理）」**のように組み合わせて、「あ、これは医療の質問で、かつ VIP ユーザーだから、高機能な医療 AI に送る」といった複雑な判断を、プログラムを書き換えずに設定だけで変えることができます。

2. 3 つの階層：「交通整理の仕組み」

このシステムは、3 つのステップで動きます。

第 1 段階：信号の収集（シグナル抽出）

質問が来ると、まず**「素早いセンサー」**が反応します。

ヘリカル（素早い）センサー： 「キーワードが含まれているか」「言語は何か」など、0.1 秒未満で判断するもの。
学習型（少し時間がかかる）センサー： 「この質問のトピックは何か」「どのくらい複雑か」などを、AI が考えて判断するもの（10〜100 ミリ秒）。
これらは並列で動いているので、全体としては非常に速いです。

第 2 段階：決断エンジン（意思決定）

集まった信号を**「交通整理員」**が受け取ります。

「もし『医療』かつ『VIP』なら→A ルート」
「もし『コード作成』かつ『無料ユーザー』なら→B ルート（安価な AI）」
「もし『ハッキングの試み』なら→即座に遮断」
このルールは、複雑な「もし〜なら」の組み合わせで自由に作れます。

第 3 段階：プラグインチェーン（実行と守り）

決まったルートに従って、実際に AI に依頼する前に**「セキュリティチェック」や「準備」**を行います。

事前チェック： 個人情報（名前や住所）が含まれていないか？ハッキングの意図はないか？
準備： 必要な知識（RAG）を付け加えたり、システムメッセージを書き換えたりする。
事後チェック： AI が返した答えに、嘘（ハルシネーション）が含まれていないか？

3. すごい技術：「ハルシネーション・ゲート（HaluGate）」

AI が嘘をつくこと（ハルシネーション）は大きな問題ですが、「すべての質問」に対して嘘チェックをすると、時間とコストがかかりすぎます。

そこで、このシステムは**「見張り役（センチネル）」**を置いています。

見張り役： 「この質問は事実確認が必要か？」と一瞬で判断します。
- 「はい（事実が必要）」→ 本格的なチェック（検出器＋解説）を行う。
- 「いいえ（創作やコードなど）」→ チェックをスキップして即座に返す。
  これにより、無駄なチェックを減らし、コストを約半分まで抑えています。まるで、空港のセキュリティで「危険物を持ちそうな人」だけを入念にチェックし、普通の観光客は素通りさせるようなものです。

4. 省メモリ技術：「LoRA（ローラ）アダプター」

通常、AI を複数の役割（医療、法律、コードなど）に特化させようとすると、それぞれの専門モデルを何個も持たなければならず、メモリ（記憶装置）がパンクします。

このシステムは、**「1 つのベースモデル（大脳）」に、「小さなアダプター（専門知識のメモ帳）」**を付け替える方式（LoRA）を使っています。

イメージ： 1 人の天才医師が、今日は「心臓科」のメモ帳を付け、明日は「皮膚科」のメモ帳を付ける。
メリット： 6 つの専門モデルを動かすのに必要なメモリが、1 つのモデル分だけで済みます。これにより、コストとメモリを劇的に節約しています。

5. 多様な AI への対応：「万国共通の翻訳機」

このシステムは、OpenAI、Anthropic、Google、Microsoft、あるいは自社で動かしている AI など、**「あらゆる種類の AI 」**と繋がることができます。

プロトコル変換： 異なる AI 会社は言葉（通信規格）が違いますが、このシステムが「翻訳」してくれます。
認証（鍵）： 各 AI へのアクセス権限（鍵）も、システムが自動的に用意して渡してくれます。

まとめ：なぜこれが重要なのか？

この「vLLM Semantic Router」は、**「1 つのシステムで、あらゆる状況（プライバシー重視、コスト重視、多様な AI 環境）に対応できる」**という画期的な仕組みです。

病院のシステムなら、厳格な個人情報保護ルールを適用。
開発者のツールなら、安価な AI を優先してコストを節約。
企業のシステムなら、複数の AI プロバイダーを自動で使い分け、障害時に別の AI に切り替える。

これらを**「コードを書き換えることなく、設定（コンフィグ）を変えるだけ」**で実現できるのが、このシステムの最大の特徴です。

まるで、**「万能な交通整理員」**が、状況に応じて「高速道路」「一般道」「歩道」を使い分け、かつ「セキュリティチェック」や「翻訳」まで行いながら、最適な目的地へ案内してくれるようなものです。これにより、AI を使う企業は、より安く、安全に、そして賢く AI を活用できるようになります。

Each language version is independently generated for its own context, not a direct translation.

vLLM Semantic Router: 信号駆動型意思決定によるモダリティ混合モデルのためのルーティング技術概要

本論文は、多様なモダリティ（テキスト、コード、視覚など）、規模、コストプロファイルを持つ大規模言語モデル（LLM）の混在する環境において、推論時に各クエリに対して最適なモデルを選択する「インテリジェントなリクエストルーティング」の課題を解決するシステム、vLLM Semantic Routerを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義

現代の組織は、ローカルな vLLM インスタンスから OpenAI、Anthropic、Azure、Bedrock などのクラウドプロバイダーまで、多様なモデルフリート（車隊）を運用しています。これらのモデルは、機能、価格、コンプライアンス要件が異なります。
従来のルーティングは、単一の次元（例：推定された難易度）に基づくものや、バイナリな難易度分類に留まるものが多く、以下の複雑な要件を同時に満たすことができませんでした。

多次元シグナルの統合: クエリのドメイン、モダリティ、複雑さ、言語、ユーザーID、レイテンシ制約、リアルタイムのパフォーマンス指標などを総合的に考慮する必要がある。
プライバシーと安全性: プロンプトインジェクション、PII（個人識別情報）の漏洩、ハルシネーション（幻覚）を検知・緩和し、クエリタイプやユーザーロールに応じて異なるポリシーを適用する必要がある。
コスト効率とデプロイの多様性: 医療（厳格な PII フィルタリング、オンプレミス限定）から開発者ツール（安価なモデル優先、キャッシュ活用）まで、コード変更なしに異なるデプロイシナリオに対応できる柔軟性が求められる。
状態保持: 会話のターン間で一貫したルーティング決定を行うための状態管理が必要。

2. 手法とアーキテクチャ

本システムの核心は、**「構成可能な信号オーケストレーション（Composable Signal Orchestration）」**です。これは、単一のアーキテクチャ上で、異なるデプロイシナリオを構成ファイルのみで定義できるようにする設計思想です。

3 層アーキテクチャ

システムは以下の 3 層で構成され、リクエストとレスポンスの双方向で機能します。

レイヤー 1: 信号抽出（Signal Extraction）
- リクエストから構造化された信号ベクトルを抽出します。
- ヒューリスティック信号（<1ms）: キーワードパターン、言語検出、コンテキスト長、権限（Authz）など。
- 機械学習ベース信号（10-120ms）: 埋め込み類似度、ドメイン分類、事実性（Fact-check）、モダリティ検出、複雑さ推定など。
- 最適化: 必要な信号のみを並列で計算する「需要駆動型評価」を採用し、不要な信号の計算コストを削減しています。
レイヤー 2: 意思決定エンジン（Decision Engine）
- 抽出された信号に基づき、ブール論理式（AND/OR/NOT のネスト）で定義された「意思決定ルール」を評価します。
- 一致した決定の中から、優先度ベースまたは信頼度ベースで最適な決定 $d^*$ を選択します。
- 各決定には、適用されるモデル候補セットとプラグインチェーンが紐付けられています。
レイヤー 3: プラグインチェーン（Plugin Chain）
- 選択された決定に基づき、事前・事後処理を実行します。
- 事前プラグイン: ジャイルブレイク検出、PII フィルタリング、セマンティックキャッシュ、RAG コンテキスト注入、システムプロンプトの注入など。
- モデル選択: 13 種類のアルゴリズム（後述）を用いて、コストと品質のバランスが取れた最適モデルを選択。
- 事後プラグイン: ハルシネーション検出（HaluGate）、キャッシュの更新など。

主要技術的貢献

A. LoRA ベースのマルチタスク分類アーキテクチャ

複数の分類タスク（ドメイン、PII、ジャイルブレイクなど）を個別のモデルで実行するとメモリ消費が膨大になります。本システムは、単一のベースモデルに LoRA（Low-Rank Adaptation）アダプターを付与する方式を採用しています。

6 つのタスクを実行する場合でも、ベースモデル 1 つ＋微小なアダプターのみで動作し、メモリ使用量を約 6 分の 1 に削減します。
複数のタスクを並列実行し、壁時間（Wall-clock time）を最遅のタスクに制限することで、レイテンシを最適化しています。

B. HaluGate: ゲート付きハルシネーション検出

すべてのレスポンスにハルシネーション検出を適用するとオーバーヘッドが大きくなります。HaluGate は以下の 3 段階パイプラインを導入しました。

Sentinel（ゲート）: クエリが事実確認を必要とするか否かを判定。事実性のないクエリ（創作、コード生成など）は検証をスキップし、コストを約 50% 削減します。
Detector: 事実性が必要な場合のみ、レスポンス内の不支持なスパンを検出。
Explainer: NLI（自然言語推論）モデルを用いて、なぜその部分がハルシネーションと判断されたかを説明します。

C. 13 種類のセマンティックモデル選択アルゴリズム

決定されたモデル候補セットから、最適なモデルを選択するために 13 種類のアルゴリズムを統合しています。

カテゴリ: 評価ベース（Elo 評価）、埋め込みベース（RouterDC）、カスケード（AutoMix）、古典的 ML（KNN, SVM, MLP）、強化学習（Thompson Sampling, GMTRouter）、レイテンシ感知など。
これにより、コスト最適化、品質重視、レイテンシ重視など、状況に応じた選択が可能になります。

D. マルチプロバイダー・マルチエンドポイント対応

vLLM、OpenAI、Anthropic、Azure、Bedrock、Gemini、Vertex AI などの異種バックエンドを透過的にルーティングします。
プロバイダー固有のプロトコル変換、認証（API キー、OAuth2、Cloud IAM など）の注入を「認証ファクトリー」で抽象化し、ルーティングロジックから分離しています。
OpenAI の「Responses API」を完全サポートし、状態保持型のマルチターン会話における一貫したルーティングを実現しています。

3. 評価結果

信号抽出の効率性: ヒューリスティック信号は 1ms 未満、ML ベース信号は 15-120ms で処理され、並列評価により全体のレイテンシは最遅の信号に支配されます。
メモリ効率: LoRA アーキテクチャにより、6 タスクの実行においてモデルメモリを約 6 倍削減（150M パラメータのベースモデル 1 つ＋アダプターのみ）しました。
意思決定オーバーヘッド: 意思決定エンジンの評価時間は 0.1ms 未満と極めて軽量です。
構成可能性: 医療（厳格な PII フィルタリング）、開発者ツール（キャッシュ優先）、マルチクラウド（フェイルオーバー）など、異なるシナリオを同一のシステムバイナリで構成ファイルのみで実現できることが実証されました。
キャッシュ効果: 類似度閾値 0.92 で、正確な一致クエリは 100%、言い換えクエリは 60-80% のヒット率を達成し、バックエンド呼び出しを回避してコストを削減しました。

4. 意義と将来展望

vLLM Semantic Routerは、LLM ルーティングの分野において、単なるモデル選択を超えた「包括的な制御プラットフォーム」としての地位を確立しました。

システム設計の革新: 信号抽出、論理判断、プラグイン実行を直交するモジュールとして設計することで、複雑なポリシーをコード変更なしに適用可能にしました。
実用性: 生産環境（Envoy External Processor として実装）で動作し、Kubernetes オペレーターによる管理もサポートしています。
将来の方向性: 学習ベースの意思決定ポリシーへの移行、リアルタイムのコスト最適化、マルチターン会話における安全性の拡張、フェデレーションされた信号オーケストレーションなどが今後の課題として挙げられています。

本システムは、多様化する LLM エコシステムにおいて、コスト、品質、プライバシー、安全性を同時に最適化するための標準的な基盤となり得る重要な技術です。

vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models