Auteurs originaux : Dénes Toth, George Ambroladze, Edwin Sundberg, Ali Beikmohammadi, Alfreds Lapkovskis

Publié 2026-06-15

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Dénes Toth, George Ambroladze, Edwin Sundberg, Ali Beikmohammadi, Alfreds Lapkovskis

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez une intersection urbaine très fréquentée comme une cuisine géante et chaotique où les voitures sont les ingrédients, les feux de signalisation sont les chefs, et l'objectif est de nourrir tout le monde (faire circuler le trafic) le plus rapidement possible sans brûler la nourriture (causer de la pollution ou des accidents).

Ce document présente un nouveau type de « chef intelligent » pour les feux de signalisation appelé Inférence Active (AIF). Voici comment il fonctionne, comment il a été testé et ce qu'il a découvert, expliqué simplement.

Le Problème : La cuisine est embrumée et chaotique

Dans le monde réel, les capteurs de trafic (comme les caméras ou les radars) ne sont pas parfaits. Ils peuvent être bloqués par de gros camions, confus par une pluie battante, ou simplement rater des voitures entièrement. C'est comme un chef qui essaierait de cuisiner en portant des lunettes embuées et en gérant des clients qui changent constamment de commande.

Les Vieilles Règles : Les feux de signalisation traditionnels suivent une recette stricte (ex : « Vert pendant 30 secondes, puis Rouge »). Ils ne peuvent pas s'adapter quand la cuisine devient folle.
L'Apprenti "Boîte Noire" : Les nouveaux systèmes d'IA (appelés Apprentissage par Renforcement Profond ou DQN) sont comme un sous-chef qui s'est exercé à cuisiner des milliers de fois. Ils sont excellents pour cuisiner si on les a entraînés dans exactement la même cuisine. Mais si le brouillard s'épaissit ou si un client commande soudainement quelque chose de bizarre, ils peuvent être déroutés. De plus, personne ne sait pourquoi ils ont fait un choix spécifique ; ils le font, c'est tout.

La Solution : Le « Chef Curieux » (Inférence Active)

Les auteurs proposent un nouveau chef basé sur l'Inférence Active. Au lieu de simplement mémoriser une recette ou de deviner en se basant sur une pratique passée, ce chef utilise un modèle mental spécial pour poser constamment deux questions :

« Que est-ce que je veux voir ? » (Valeur Pragmatique) : « Je veux voir les files de circulation raccourcir et l'air devenir plus propre. »
« Qu'est-ce que j'ai besoin d'apprendre ? » (Valeur Épistémique) : « Je ne suis pas sûr de ce qui se passe à cause du brouillard. Je devrais changer le feu pour mieux voir l'autre côté de la rue. »

Ce chef essaie de minimiser un concept appelé « Énergie Libre Attendue ». Voyez cela comme un « Score de Confusion ». Le chef veut faire des choix qui réduisent sa confusion et le rapprochent de son objectif (un trafic fluide).

Le Meilleur Élément : Contrairement à l'IA « Boîte Noire », ce chef tient un journal. Vous pouvez consulter le journal et voir exactement pourquoi il a changé le feu : « J'ai changé le feu parce que je m'inquiétais de ne pas voir les voitures du côté Nord, alors j'ai passé le feu pour vérifier. »

L'Expérience : La Cuisine Virtuelle

Les chercheurs ont construit une simulation de trafic numérique (une cuisine virtuelle) avec une intersection à quatre voies. Ils ont testé trois chefs :

Le Suiveur de Règles : S'en tient à un programme fixe.
L'IA Entraînée (DQN) : A appris en pratiquant pendant des heures dans la simulation.
Le Chef Curieux (AIF) : Utilise la méthode du « Score de Confusion » décrite précédemment.

Ils ont fait passer la simulation à travers quatre niveaux de difficulté :

Niveau 1 : Temps clair, trafic normal.
Niveau 2 : Les capteurs sont bloqués par de gros camions (Occlusion).
Niveau 3 : Il commence à pleuvoir abondamment (Météo).
Niveau 4 : Une voiture est accidentée, bloquant la route, pendant qu'il pleut et que les capteurs sont obstrués (La Tempête Parfaite).

Les Résultats : Qui a le mieux cuisiné ?

1. Dans des conditions calmes (Niveaux 1 & 3) :
L'IA Entraînée (DQN) était légèrement plus rapide pour déplacer les voitures. Elle avait pratiqué ce scénario spécifique et connaissait la recette par cœur. Le Chef Curieux (AIF) était presque aussi bon, mais pas tout à fait le plus rapide.

2. Dans la « Tempête Parfaite » (Niveau 4) :
C'est ici que le Chef Curieux (AIF) a gagné haut la main.

Temps d'attente : Le Chef Curieux a fait attendre les voitures un total de 56 977 secondes. L'IA Entraînée a fait attendre les voitures pendant 71 741 secondes. C'est une énorme différence.
Pollution : Le Chef Curieux a produit moins d'émissions de CO2.
Pourquoi ? Lorsque les capteurs sont devenus désordonnés et qu'un accident est survenu, l'IA Entraînée a été confuse car elle n'avait pas pratiqué exactement cette combinaison de catastrophes. Le Chef Curieux, cependant, a été conçu pour gérer l'incertitude. Il a réalisé : « Je ne sais pas ce qui se passe, donc je dois recueillir plus d'informations et m'adapter », ce qui a permis de maintenir la circulation plus efficacement.

3. Les Compromis :
Le Chef Curieux n'était pas parfait.

Priorité aux Bus : Il était légèrement moins efficace pour laisser passer les bus rapidement par rapport aux autres. Comme il se concentrait sur le nombre total de voitures pour réduire la confusion globale, il ignorait parfois un bus unique attendant dans la voie opposée.
Changement de Feux : Il changeait les feux plus souvent. Bien que cela l'aide à recueillir des informations, cela peut paraître un peu « saccadé » par rapport au Suiveur de Règles qui est plus constant.

L'Essentiel à Retenir

Ce document montre que si l'IA « entraînée » est excellente pour les situations prévisibles, un Chef Curieux qui cherche activement à comprendre l'incertitude est bien meilleur lorsque les choses tournent mal (comme lors de mauvaises conditions météo ou d'accidents).

La plus grande victoire du Chef Curieux est la transparence. Si un gestionnaire de trafic demande : « Pourquoi avez-vous mis le feu au rouge ? », le Chef Curieux peut expliquer son raisonnement étape par étape. L'IA Entraînée répond simplement : « Parce que mon cerveau me l'a dit », ce qui est difficile à accorder de la confiance quand les choses tournent mal.

En bref : quand le monde du trafic est calme, un expert entraîné gagne. Quand le monde devient désordonné et imprévisible, un système curieux et conscient de lui-même gagne.

Résumé technique : Inférence active pour le contrôle adaptatif des signaux de circulation dans des environnements IoT bruités et non stationnaires

1. Énoncé du problème

Le contrôle des signaux de circulation urbaine fait face à des défis importants lors de déploiements en conditions réelles, où les données des capteurs sont souvent incomplètes, bruitées et soumises à des modèles de demande non stationnaires. Les contrôleurs traditionnels basés sur des règles manquent de flexibilité face à des conditions imprévisibles, tandis que les approches d'apprentissage par renforcement profond (DRL), bien que puissantes, nécessitent de vastes quantités de données d'entraînement et souffrent de problèmes d'interprétabilité de type « boîte noire », ce qui les rend difficiles à auditer. De plus, la détection IoT réelle aux intersections est compromise par l'occlusion des capteurs (ex: véhicules lourds), l'atténuation due aux intempéries et les perturbations infrastructurelles stochastiques (ex: accidents). L'article traite de la nécessité d'un contrôleur de signaux de circulation capable de rester efficace dans ces conditions de partialité d'observation et de bruit, tout en offrant un processus de prise de décision traçable.

2. Méthodologie

Les auteurs proposent un contrôleur d'Inférence Active (AIF) pour une intersection à quatre bras. Contrairement aux paradigmes de contrôle standards qui séparent la perception de l'action, l'AIF cadre les deux comme un processus unifié de minimisation de l'Énergie Libre Attendue (EFE).

Cadre fondamental

L'agent opère à des pas de temps discrets $t$ , maintenant des croyances postérieures approximatives $q(s_t)$ sur les états cachés $s_t$ (niveaux de congestion du trafic) basées sur les observations $o_t$ . La politique $\pi$ sélectionne les actions (phases : vert Nord-Sud ou Est-Ouest) pour minimiser l'EFE, définie comme :
$G(\pi) \triangleq -[PV(\pi) + \lambda EV(\pi)]$
Où :

Valeur Pragmatique ($PV$) : Récompense les observations correspondant aux préférences (ex: faible congestion, faibles émissions).
Valeur Épistémique ($EV$) : Récompense les observations qui réduisent l'incertitude concernant les états cachés (exploration).
$\lambda$ : Une constante de pondération équilibrant les deux valeurs.

Instanciation du système

Espace d'états : Les états cachés sont discrétisés en six niveaux de congestion (de « très faible » à « embouteillage ») pour chaque direction (NS et EW).
Observations : Vecteurs contenant des comptages de véhicules bruités, des émissions cumulées de CO2 et des comptages de bus. Le modèle d'observation est une Gaussienne multivariée conditionnelle à l'état.
Dynamique de transition : Deux matrices de transition spécifiées manuellement ( $T_{red}$ et $T_{green}$ ) encodent l'intuition selon laquelle les phases vertes réduisent la congestion tandis que les phases rouges l'augmentent.
Modélisation du bruit : L'environnement expérimental simule des défaillances IoT réalistes, incluant :
- Occlusion des capteurs : Véhicules lourds bloquant la détection.
- Atténuation météorologique : Réduction de la probabilité de détection lors d'intempéries.
- Accidents stochastiques : Blocages aléatoires figeant le flux de trafic.

Références de comparaison (Baselines)

Le contrôleur AIF est comparé à :

Heuristique basée sur des règles : Un système de score de priorité utilisant des bonus fixes pour les bus et un biais pour la route principale.
Deep Q-Network (DQN) : Un agent DRL standard entraîné avec rejeu d'expérience et exploration $\epsilon$ -greedy, optimisé pour la même fonction de récompense (minimisation du temps d'attente, des émissions et de la charge des bus).

3. Principales contributions

L'article présente trois contributions majeures :

Environnement de simulation : Conception d'un environnement de simulation basé sur SUMO modélisant des conditions de détection IoT bruitées et non stationnaires, incluant l'occlusion des capteurs, l'atténuation météorologique et les accidents stochastiques.
Développement du contrôleur AIF : Implémentation d'un contrôleur AIF qui sélectionne dynamiquement les phases de signal en minimisant l'EFE sur des croyances gaussiennes concernant la congestion, les émissions et la présence de transports publics.
Évaluation complète : Une comparaison rigoureuse à travers quatre scénarios de perturbation environnementale croissante (des données propres au bruit complet/accidents) et 100 graines aléatoires indépendantes, analysant les compromis entre efficacité, émissions et stabilité de la politique.

4. Résultats expérimentaux

Les expériences ont été menées sur 3 600 secondes de temps de simulation par scénario. Les conclusions clés incluent :

Performance en haute perturbation (Scénario 4) :
- Temps d'attente (Idle Time) : L'AIF a obtenu le temps d'attente cumulé le plus bas (56 977 s) comparativement au DQN (71 741 s) et à la référence basée sur des règles (72 247 s).
- Émissions : L'AIF a produit les émissions totales de CO2 les plus faibles (29,12 kg) contre le DQN (30,56 kg) et l'approche basée sur des règles (31,53 kg).
- Robustesse : L'AIF a maintenu un temps d'attente moyen inférieur au DQN même dans le scénario le plus bruyant, alors que la performance du DQN s'est considérablement dégradée sous pleine perturbation.
Performance en faible perturbation (Scénarios 1–3) :
- Le DQN a généralement surpassé l'AIF dans les scénarios 1 et 3 (ex: 5 305 s contre 7 287 s de temps d'attente dans le scénario 3), probablement en raison d'un pré-entraînement spécifique au scénario.
- L'AIF a surpassé le DQN dans le scénario 2 (7 341 s contre 8 385 s).
- Dans tous les scénarios, l'AIF et le DQN ont nettement surpassé la référence basée sur des règles (réduisant environ de moitié le temps d'attente cumulé).
Compromis :
- Priorité aux bus : L'AIF a eu un taux de service de priorité aux bus plus faible (80,5–82,0 %) par rapport au DQN (84,6–89,7 %) et au système basé sur des règles. Cela est attribué à la fonction de valeur pragmatique qui priorise la réduction globale de la congestion plutôt que des types de véhicules spécifiques, car les bus constituent une faible fraction du trafic total.
- Changement de phase : L'AIF a changé de phase plus fréquemment (261–278 changements) que le DQN (177–266) ou le système basé sur des règles, indiquant une réponse plus dynamique à l'incertitude.
Stabilité : L'AIF a démontré une variance (écart-type) plus faible dans le temps d'attente entre les graines dans les scénarios 1 et 2, tandis que le DQN présentait des distributions plus serrées dans les scénarios 3 et 4.

5. Signification et affirmations

L'article affirme que l'Inférence Active offre une alternative fondée sur des principes à l'apprentissage par renforcement profond pour le contrôle adaptatif du trafic, particulièrement dans les environnements caractérisés par une observation partielle et une non-stationnarité.

Généralisation Zero-Shot : Contrairement au DQN, qui nécessite un pré-entraînement étendu pour des scénarios spécifiques, le contrôleur AIF fonctionne sans phase de pré-entraînement. Sa capacité à égaler ou dépasser les performances du DQN dans des environnements bruités sans entraînement spécifique au scénario suggère que la valeur épistémique dans l'objectif EFE fournit un avantage structurel pour gérer l'incertitude.
Auditabilité : Un avantage significatif mis en avant est la traçabilité du pipeline AIF. Chaque étape — des croyances postérieures aux composants spécifiques de l'EFE (pragmatique vs épistémique) — est explicite et inspectable. Cela répond aux défis de vérification des « boîtes noires » associés au DRL, permettant aux opérateurs de comprendre pourquoi une phase spécifique a été choisie.
Viabilité : Les résultats suggèrent que l'AIF est une alternative viable à l'apprentissage par renforcement pour le contrôle adaptatif du trafic, capable de balancer de multiples objectifs (délai, émissions, transports publics) tout en restant robuste à la dégradation des capteurs et aux perturbations stochastiques.

Les auteurs concluent que bien que l'AIF sacrifie une partie de la priorité aux bus et augmente la fréquence des changements de phase, sa robustesse dans les environnements IoT bruités et non stationnaires ainsi que son interprétabilité en font une approche convaincante pour les futurs systèmes de trafic intelligents. Des travaux futurs sont proposés pour étendre le cadre à des réseaux multi-intersections et à des déploiements matériel-dans-la-boucle (hardware-in-the-loop).

Active Inference for Adaptive Traffic Signal Control in Noisy Nonstationary IoT Environments