原著者： Dénes Toth, George Ambroladze, Edwin Sundberg, Ali Beikmohammadi, Alfreds Lapkovskis

公開日 2026-06-15

📖 1 分で読めます☕ さくっと読める

原著者： Dénes Toth, George Ambroladze, Edwin Sundberg, Ali Beikmohammadi, Alfreds Lapkovskis

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

賑やかな都市の交差点を、巨大で混沌としたキッチンに例えてみましょう。車は「食材」、信号機は「シェフ」、そして目標は、全員を（渋滞させることなく）素早く「食べさせ（移動させ）」、かつ「料理を焦がさない（汚染や事故を起こさない）」ことです。

この論文では、交通信号のための新しい種類の「スマート・シェフ」である**能動的推論（Active Inference: AIF）**を紹介しています。その仕組み、テスト方法、そして得られた結果を分かりやすく説明します。

問題点：キッチンは霧に包まれ、混沌としている

現実の世界では、交通センサー（カメラやレーダーなど）は完璧ではありません。大きなトラックによって視界が遮られたり、大雨で混乱したり、あるいは車を完全に見逃してしまったりすることがあります。これは、霧がかかったメガネをかけ、さらに注文をコロコロ変える客を相手に料理をするシェフのようなものです。

旧来のルール： 従来の信号機は、厳格なレシピ（例：「30秒間は青、次に赤」）に従います。これでは、キッチンがめちゃくちゃになった時に適応することができません。
「ブラックボックス」型の学習者： 深層強化学習（DQN）と呼ばれる新しいAIシステムは、そのキッチンで何度も練習を重ねた「副シェフ」のようなものです。彼らは、まさにそのキッチンで練習した場合には素晴らしい料理を作れます。しかし、霧が濃くなったり、客が突然変わった注文をしてきたりすると、混乱してしまうことがあります。また、なぜその選択をしたのかという理由が誰にも分からず、「ただそうしたから」という結果しか分かりません。

解決策：「好奇心旺盛なシェフ」（能動的推論）

著者らは、**能動的推論（Active Inference）**に基づいた新しいシェフを提案しています。単にレシピを暗記したり、過去の経験に基づいて推測したりするのではなく、このシェフは特別なメンタルモデルを用いて、常に2つの質問を自分に投げかけます。

「何を見たいか？」（実用的価値）： 「交通の流れ（列）が短くなり、空気が綺麗になるのを見たい」
「何を学ぶ必要があるか？」（認識的価値）： 「霧のせいで何が起きているのか分からない。反対側の通りの様子をもっとよく知るために、信号を切り替えるべきだ」

このシェフは、**「期待自由エネルギー（Expected Free Energy）」**と呼ばれる概念を最小化しようとします。これは「混乱スコア」と考えてください。シェフは、この混乱を減らし、目標（スムーズな交通）に近づくための選択をしようとします。

ここがポイント： 「ブラックボックス」型のAIとは異まり、このシェフは「日記」をつけています。日記を見れば、なぜ信号を切り替えたのか、その理由を正確に知ることができます。「北側の車の状況が把握できていないと判断したので、確認するために信号を変えた」といった具合です。

実験：シミュレーション・キッチン

研究者たちは、4ウェイの交差点を持つデジタル交通シミュレーション（仮想キッチン）を構築しました。そこで3人のシェフをテストしました。

ルールに従う者（Rule-Follower）： 固定されたスケジュールに従います。
訓練されたAI（DQN）： シミュレーション内で何時間も練習して学習しました。
好奇心旺盛なシェフ（AIF）： 上述の「混乱スコア」法を用います。

彼らは、以下の4つの難易度レベルでシミュレーションを実行しました。

レベル1： 晴天、通常の交通量。
レベル2： 大きなトラックによってセンサーが遮られる（遮蔽）。
レベル3： 大雨が降り始める（天候）。
レベル4： 雨が降り、センサーが遮られている中で、車が衝突して道を塞ぐ（パーフェクト・ストーム）。

結果：誰が最も上手く料理できたか？

1. 穏やかな条件下（レベル1 & 3）：
**訓練されたAI（DQN）**の方が、車の移動がわずかに速かったです。彼はこの特定のシナリオのために練習しており、レシピを暗記していたからです。**好奇心旺盛なシェフ（AIF）**もほぼ同等の性能でしたが、最速ではありませんでした。

2. 「パーフェクト・ストーム」において（レベル4）：
ここで**好奇心旺盛なシェフ（AIF）**が大勝利しました。

待機時間： 好奇心旺盛なシェフが車を待たせた合計時間は56,977秒でした。一方、訓練されたAIは71,741秒も車を待たせました。これは大きな差です。
汚染： 好奇心旺盛なシェフの方が、CO2排出量も少なく抑えました。
なぜか？： センサーの状態が悪化し、事故が発生した際、訓練されたAIは「まさにその組み合わせの災難」を練習していなかったため、混乱してしまいました。しかし、好奇心旺盛なシェフは「不確実性」に対処するように設計されています。彼は「何が起きているのか分からないので、もっと情報を集めて適応する必要がある」と判断し、交通をよりスムーズに流し続けました。

3. トレードオフ：
好奇心旺盛なシェフも完璧ではありませんでした。

バスの優先順位： 全体の混乱を減らすことに集中するため、反対車線で待っているバス1台を無視してしまうことがあり、バスを素早く通す能力については他のシェフよりわずかに劣りました。
信号の切り替え： 信号を切り替える頻度が高くなりました。これは情報を収集するためには役立ちますが、安定した「ルールに従う者」と比較すると、少し「落ち着きがない（ジッターがある）」と感じられるかもしれません。

まとめ

この論文は、たとえ「訓練された」AIが予測可能な状況においては優れているとしても、不確実性を積極的に理解しようとする**「好奇心旺盛なシェフ」**の方が、物事がうまくいかなくなった時（悪天候や事故など）にはるかに優れていることを示しています。

好奇心旺盛なシェフの最大の利点は、その透明性にあります。もし交通管理者が「なぜ信号を赤にしたのか？」と尋ねたら、このシェフはステップ・バイ・ステップで理由を説明できます。訓練されたAIは単に「脳がそうしろと言ったから」と答えるだけで、事態が悪化した際に信頼するのは困難です。

要するに、交通の世界が穏やかな時は、訓練されたエキスパートが勝ちます。しかし、世界が乱雑で予測不能になった時は、好奇心を持ち、自己認識のあるシステムが勝つのです。

技術要約：ノイズの多い非定常なIoT環境における適応型交通信号制御のための能動的推論（Active Inference）

1. 問題提起

都市部の交通信号制御は、センサーデータが不完全、ノイズが多い、あるいは非定常な需要パターンにさらされることが多いという、現実世界の展開における重大な課題に直面しています。従来のルールベースのコントローラーは予測不可能な条件下での柔軟性に欠け、深層強化学習（DRL）のアプローチは強力ではあるものの、膨大な学習データを必要とし、「ブラックボックス」的な解釈性の問題に苦しむため、監査が困難です。さらに、交差点における現実世界のIoTセンシングは、センサーの遮蔽（例：大型車両によるもの）、悪天候による減衰、および確率的なインフラの混乱（例：事故）によって損なわれます。本論文は、これらのノイズが多く部分観測的な条件下でも効果的に機能し、かつ追跡可能な意思決定プロセスを提供する交通信号コントローラーの必要性に取り組んでいます。

2. 手法

著者らは、4方向の信号交差点のための**能動的推論（AIF）コントローラーを提案しています。標準的な制御パラダイムが知覚と行動を分離するのに対し、AIFは両者を期待自由エネルギー（EFE）**を最小化するという統一されたプロセスとして定式化します。

コアフレームワーク

エージェントは離散的なタイムステップ $t$ で動作し、観測 $o_t$ に基づいて隠れ状態 $s_t$ （交通渋滞レベル）に関する近似事後分布 $q(s_t)$ を維持します。方策 $\pi$ は、EFEを最小化するようにアクション（フェーズ：南北または東西の青信号）を選択します。
$G(\pi) \triangleq -[PV(\pi) + \lambda EV(\pi)]$
ここで：

実用的価値（Pragmatic Value, $PV$）: 嗜好（例：低渋滞、低排出量）に一致する観測に対する報酬。
認識的価値（Epistemic Value, $EV$）: 隠れ状態に関する不確実性を減少させる観測に対する報酬（探索）。
$\lambda$ : これら2つの価値のバランスを取るための重み付け定数。

システムのインスタンス化

状態空間: 隠れ状態は、各方向（NSおよびEW）について6つの渋滞レベル（「極めて低い」から「ジャム状態」まで）に離散化されています。
観測: ノイズを含む車両数、累積CO2排出量、およびバスの数を含むベクトル。観測モデルは、状態条件付き多変量ガウス分布です。
遷移ダイナミクス: 2つの手動設定された遷移行列（ $T_{red}$ および $T_{green}$ ）は、緑のフェーズが渋滞を緩和し、赤のフェーズが渋滞を増加させるという直感をエンコードしています。
ノイズモデリング: 実験環境は、以下のIoT障害をシミュレートした現実的な環境を構築しています：
- センサー遮蔽: 検知を妨げる大型車両。
  （注：原文のリストに従い）
- 天候減衰: 悪天候による検知確率の低下。
- 確率的な事故: 交通の流れを停止させるランダムなブロック。

比較ベースライン

AIFコントローラーは、以下のモデルと比較されます：

ルールベース・ヒューリスティック: バスへのボーナスや主要道路へのバイアスを用いた優先度スコアリングシステム。
Deep Q-Network (DQN): 経験再生（experience replay）と $\epsilon$ -greedy探索を用いて訓練された標準的なDRLエージェントであり、同じ報酬関数（アイドル時間の最小化、排出量、バス負荷の最小化）に対して最適化されています。

3. 主な貢献

本論文は主に3つの貢献を行っています：

シミュレーション環境: センサー遮蔽、天候減衰、および確率的な事故を含む、ノイズが多く非定常なIoTセンシング条件をモデル化したSUMOベースのシミュレーション環境の設計。
AIFコントローラーの開発: 渋滞、排出量、および公共交通機関の存在に関するガウス分布の信念に基づいて、EFEを最小化することにより動的に信号フェーズを選択するAIFコントローラーの実装。
包括的な評価: 4つの段階的な環境乱れ（クリーンなデータから完全なノイズ/事故まで）のシナリオにわたる厳格な比較、および100個の独立したランダムシードを用いた、効率性、排出量、および方策の安定性のトレードオフの分析。

4. 実験結果

実験は、シナリオごとに3,600秒のシミュレーション時間で行われました。主な知見は以下の通りです：

高乱れ時（シナリオ4）のパフォーマンス:
- アイドル時間: AIFは、DQN（71,741秒）およびルールベースのベースライン（72,247秒）と比較して、最も低い累積アイドル時間（56,977秒）を達成しました。
- 排出量: AIFは、DQN（30.56 kg）およびルールベースのアプローチ（31.53 kg）と比較して、最も低い総CO2排出量（29.12 kg）を生み出しました。
- 堅牢性: AIFは、最もノイズの多いシナリオにおいても、DQNよりも低い平均アイドル時間を維持しましたが、DQNのパフォーマンスは完全な乱れの下で著しく低下しました。
低乱れ時（シナリオ1–3）のパフォーマンス:
- シナリオ1および3では、DQNが一般的にAIFを上回りました（例：シナリオ3におけるアイドル時間：DQN 5,305秒 vs AIF 7,287秒）。これは、おそらくシナリオ固有の事前学習によるものです。
- シナリオ2では、AIFがDQNを上回りました（7,341秒 vs 8,385秒）。
- すべてのシナリオにおいて、AIFとDQNは共にルールベースのベースラインを大幅に上回りました（累積アイドル時間をほぼ半分に削減）。
トレードオフ:
- バス優先度: AIFは、DQN（84.6–89.7%）およびルールベースのシステムと比較して、バスの優先サービス率が低い結果となりました（80.5–82.0%）。これは、実用的価値関数が特定の車両タイプよりも全体的な渋滞削減を優先していることに起因します。これは、バスが全交通量の極めて小さな割合を占めるためです。
- フェーズ切り替え: AIFは、DQN（177–266回）やルールベースのシステムよりも頻繁にフェーズを切り替えました（261–278回）。これは、不確実性に対するよりダイナミックな反応を示しています。
安定性: AIFは、シナリオ1および2においてアイドル時間の分散（標準偏差）が低く、一方でDQNはシナリオ3および4においてタイトな分布を示しました。

5. 意義と主張

本論文は、能動的推論が、適応型交通制御のための、特に部分観測性と非定常性を特徴とする環境における、深層強化学習に代わる原理的な選択肢を提供すると主張しています。

ゼロショット汎化: 特定のシナリオのために広範な事前学習を必要とするDQNとは異なり、AIFコントローラーは事前学習フェーズなしで動作します。ノイズの多い環境においてDQNと同等またはそれを上回る性能を示す能力は、EFE目的関数における認識的価値項が、不確実性を扱うための構造的な優位性を提供していることを示唆しています。
監査可能性: 強調されている重要な利点は、AIFパイプラインの追跡可能性です。事後分布からEFEの特定の構成要素（実用的価値 vs 認識的価値）に至るまで、すべての段階が明示的であり、検査可能です。これは、DRLに関連する「ブラックボックス」的な検証の課題に対処し、オペレーターがなぜ特定のフェーズが選ばれたのかを理解することを可能にします。
実現可能性: 結果は、AIFが適応型交通制御のための実行可能な代替案であることを示唆しており、複数の目的（遅延、排出量、公共交通機関）のバランスを取りつつ、センサーの劣化や確率的な混乱に対して堅牢であることが示されました。

著者らは、AIFがバスの優先度を犠牲にし、フェーズ切り替えの頻度を高める側面はあるものの、ノイズが多く非定常なIoT環境におけるその堅牢性と解釈可能性により、次世代のインテリジェント交通システムにとって魅力的なアプローチであると結論付けています。今後の課題として、マルチ交差点ネットワークおよびハードウェア・イン・ザ・ループ（hardware-in-the-loop）展開へのフレームワークの拡張が提案されています。

Active Inference for Adaptive Traffic Signal Control in Noisy Nonstationary IoT Environments