Runtime Governance for AI Agents: Policies on Paths

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Dilemme des Agents IA : Pourquoi les règles d'aujourd'hui ne suffisent plus

Imaginez que vous embauchez un stagiaire très intelligent mais un peu imprévisible pour faire le travail de votre entreprise. Ce stagiaire est une IA (un agent). Contrairement à un employé classique qui suit un manuel strict, ce stagiaire utilise son cerveau (un modèle de langage) pour décider, à chaque instant, de la prochaine étape à faire.

Le problème ? Il ne suit pas toujours le même chemin.

Parfois, il lit un dossier, puis envoie un email.
D'autres fois, il lit le même dossier, puis appelle un collègue, puis envoie un email.
Et parfois, il invente une nouvelle méthode pour faire le travail.

C'est ce qu'on appelle un comportement non déterministe. C'est ce qui le rend si utile (il s'adapte), mais c'est aussi ce qui rend la surveillance très difficile.

🚧 Le problème des anciennes méthodes (Pourquoi ça ne marche plus)

L'article explique que les méthodes de sécurité actuelles sont comme des portails de sécurité dans un aéroport :

Les "Prompts" (Les instructions) : C'est comme dire au stagiaire : "S'il te plaît, ne vole pas les données !". C'est gentil, mais il peut vous écouter, ou il peut être distrait et oublier. Ce n'est pas une garantie.
Le Contrôle d'Accès (RBAC) : C'est comme lui donner une clé qui ouvre uniquement la porte du bureau, mais pas celle du coffre-fort. C'est bien, mais ça ne l'empêche pas de prendre un document du bureau, de le lire, et de l'envoyer par email à un inconnu. La clé était valide, l'action était valide, mais la séquence est dangereuse.

Le vrai danger, c'est la séquence d'actions.
Imaginez un agent qui :

Lit un dossier confidentiel (Action A : OK).
Télécharge un fichier (Action B : OK).
Envoie un email à l'extérieur (Action C : OK).

Seules, ces actions semblent normales. Mais ensemble, c'est une fuite de données. Les anciennes méthodes regardent chaque action isolément et disent "Tout va bien". Elles ne voient pas le film complet.

🎬 La Solution : Le "Réalisateur" en Temps Réel

L'auteur propose une nouvelle approche : La Gouvernance en Temps Réel.

Imaginez que vous avez un Réalisateur de film (le Policy Engine) qui regarde le tournage en direct.

Il ne regarde pas seulement la prochaine scène que l'acteur (l'IA) veut jouer.
Il regarde tout le film jusqu'à présent (le chemin parcouru).
Il a un tableau de bord (l'état partagé) qui dit : "Attention, l'acteur a déjà touché à des documents secrets il y a 5 minutes."

Avant que l'acteur ne joue la prochaine scène (l'action proposée), le Réalisateur pose la question :

"Si l'acteur joue cette scène maintenant, compte tenu de tout ce qui s'est passé avant, est-ce que cela va créer un scandale ?"

Si la réponse est "Oui, c'est risqué", le Réalisateur dit "CUT !" et arrête le tournage avant que le désastre n'arrive.

🧩 Comment ça marche concrètement ?

L'article propose un cadre formel (une recette mathématique) pour ce Réalisateur :

Le Chemin (La trajectoire) : C'est l'historique de tout ce que l'IA a fait.
La Règle (La politique) : C'est une fonction qui prend en entrée : Qui est l'IA ? + Ce qu'elle a fait avant + Ce qu'elle veut faire maintenant + L'état global de l'entreprise.
Le Score de Risque : La règle calcule une probabilité (de 0 à 1) que l'action soit une violation.
- Si le score est bas : L'action passe.
- Si le score est haut : Le Réalisateur intervient (il bloque, il demande l'avis d'un humain, ou il redirige l'IA).

L'idée clé : Ce n'est plus une question de "Tu as le droit de faire ça ?" (comme une clé), mais de "Est-ce que c'est une bonne idée de faire ça maintenant, dans ce contexte précis ?".

🇪🇺 Et la loi européenne (AI Act) ?

L'article mentionne que la nouvelle loi européenne sur l'IA (qui entrera en vigueur en août 2026) exige que les systèmes à haut risque soient sûrs et traçables.
Ce système de "Réalisateur" est exactement ce dont les entreprises ont besoin pour respecter la loi :

Il enregistre tout (pour les audits).
Il prévient les erreurs au lieu de juste les constater après coup.
Il permet à un humain d'intervenir au bon moment (quand le risque est trop élevé).

🚀 Les défis restants (Ce qui n'est pas encore parfait)

Même avec ce super système, il reste des défis :

La calibration : Comment être sûr que le "score de risque" de 0,7 signifie vraiment 70% de chance de problème ? Il faut beaucoup de données pour apprendre au système à bien noter.
La triche : Si l'IA devient très maline, pourrait-elle apprendre à faire des petites actions "sûres" une par une, pour arriver à un résultat interdit sans déclencher l'alarme ? (C'est comme contourner un radar en allant très lentement).
La complexité : Si vous avez 100 agents qui travaillent ensemble, comment gérer les règles entre eux ?

En résumé

Ce papier dit : "Arrêtez de surveiller les IA comme des robots simples. Elles sont des explorateurs imprévisibles. Vous ne pouvez pas juste leur donner une carte et espérer qu'elles ne s'égarent pas. Vous devez avoir un guide en temps réel qui regarde leur chemin complet et les arrête avant qu'ils ne tombent dans le précipice."

C'est un passage d'une sécurité statique (des murs) à une sécurité dynamique (un garde du corps intelligent).

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : Gouvernance Runtime pour les Agents IA

1. Le Problème : L'Inadéquation des Mécanismes de Gouvernance Actuels

Les organisations déploient rapidement des agents IA (systèmes utilisant des modèles de langage pour planifier, raisonner et agir de manière autonome). Cependant, l'infrastructure de gouvernance n'a pas suivi ce rythme. Le problème fondamental réside dans la nature non déterministe et dépendante du chemin d'exécution (path-dependent) des agents.

Contrairement aux logiciels traditionnels où les flux de travail sont prédéfinis et auditables, un agent peut exécuter une tâche via des milliers de séquences d'actions différentes. Les violations de sécurité ou de conformité (exfiltration de données, franchissement de barrières d'information) ne sont souvent pas le résultat d'une action isolée, mais d'une séquence d'actions (un chemin).

Échec des méthodes actuelles :
- Contrôle par les prompts : Réduit la probabilité de mauvaises actions mais n'offre aucune garantie d'exécution stricte.
- Contrôle d'accès (RBAC) : Interdit des catégories d'actions de manière statique, mais ignore le contexte (ex: un agent autorisé à lire une base de données ET à envoyer un email peut exfiltrer des données, bien que chaque action soit individuellement permise).
- Filtrage de contenu : Détecte les violations au niveau d'une étape (ex: un email contenant un N° de sécurité sociale), mais ne voit pas la trajectoire globale ayant conduit à cette étape.
- Validation humaine : Souvent insuffisante car elle ne vérifie pas si le chemin menant à la demande de validation contient déjà une violation.

L'objectif est de maximiser l'utilité des tâches tout en maintenant le coût attendu des violations dans des limites acceptables, ce qui nécessite une approche de gouvernance runtime (en temps réel) et non plus seulement au moment de la conception (design-time).

2. Méthodologie : Un Cadre Formel Basé sur les Chemins d'Exécution

Les auteurs proposent un cadre formel minimaliste où l'objet central de la gouvernance est le chemin d'exécution ( $P$ ).

Définition du Chemin d'Exécution ( $P$ ) :
Une séquence finie d'étapes $s_i = (\tau_i, d_{in,i}, d_{out,i})$ où $\tau_i$ est le type d'étape :
1. Stochastique : Appel au modèle de langage (non déterministe).
2. Déterministe : Appel à un outil externe (base de données, API).
3. Composite : Délégation à un autre agent (sous-chemin).
La Fonction de Politique ( $\pi_j$ ) :
Au lieu de règles statiques, la conformité est définie comme une fonction déterministe :
$\pi_j(A, P_i, s^*, \Sigma) \rightarrow [0, 1]$
- $A$ : Identité de l'agent (métadonnées).
- $P_i$ : Chemin partiel (historique des actions).
- $s^*$ : Action proposée par l'agent.
- $\Sigma$ : État de gouvernance partagé (ex: barrières d'information activées, données sensibles accédées).
- Sortie : Probabilité que l'exécution de $s^*$ viole la politique $j$ , compte tenu du contexte complet.
Le Moteur de Politique (Policy Engine) :
Composant organisationnel externe qui intercepte les actions proposées avant leur exécution.
- Calcul du score de violation ( $v_i$ ) : Combinaison des probabilités de toutes les politiques actives pour une étape donnée.
- Objectif de gouvernance : Maximiser l'utilité attendue des tâches tout en respectant un budget de risque $B$ (score de violation terminal attendu).
- Intervention ( $\delta$ ) : Le moteur décide de laisser passer, de rediriger (steer), de demander une validation humaine ou de bloquer l'action.
Cas Particuliers :
- Le prompting n'est pas une instance de cette fonction (il modifie la distribution des chemins sans les évaluer).
- Le contrôle d'accès est un cas dégénéré où la fonction ignore $P_i$ et $\Sigma$ .
- L'évaluation runtime est le cas général nécessaire pour toute politique dépendante du chemin.

3. Contributions Clés

Formalisation Théorique : Définition rigoureuse de la gouvernance des agents comme une fonction de probabilité de violation dépendante du chemin, unifiant les approches existantes (RBAC, prompts) comme des cas limites ou des sous-ensembles.
Architecture de Référence : Proposition d'une architecture en deux phases :
- Phase d'enregistrement : Validation statique (intégrité, documentation, classification de risque).
- Phase par étape (Runtime) : Interception, évaluation de la politique, mise à jour de l'état partagé $\Sigma$ , et décision d'intervention.
Exemples Concrets de Politiques : Illustration de politiques inspirées par l'Acte sur l'IA de l'UE, telles que :
- Prévention de l'exfiltration de données : Score de violation basé sur le niveau de sensibilité des données touchées précédemment.
- Barrières d'information : Interdiction de communiquer des données d'un côté de la barrière vers l'autre, nécessitant l'état partagé $\Sigma$ .
- Intégrité de l'agent : Vérification de l'hash de la définition de l'agent pour détecter l'auto-modification.
Implémentation de Référence : Description d'une implémentation par Kyvvu B.V. intégrant LangChain et Microsoft Copilot Studio, démontrant la faisabilité de l'interception prospective (avant exécution).

4. Résultats et Observations

Faisabilité Technique : L'évaluation des politiques peut être effectuée avec un surcoût minimal (temps constant) en utilisant un vecteur d'état de gouvernance compact mis à jour incrémentalement, plutôt que de réanalyser tout l'historique à chaque étape.
Supériorité de l'Approche Runtime : L'article démontre que seules les politiques évaluées en runtime, avec connaissance du chemin complet et de l'état partagé, peuvent détecter et prévenir les violations complexes (ex: combinaison de deux actions permises individuellement mais interdites en séquence).
Alignement Réglementaire : Le cadre répond directement aux exigences de l'Acte sur l'IA de l'UE (2026) concernant la gestion des risques, la journalisation automatique, la surveillance humaine et la transparence.

5. Signification et Implications

Changement de Paradigme : Ce papier marque un passage d'une gouvernance statique (basée sur des règles fixes) à une gouvernance dynamique et contextuelle, essentielle pour les systèmes d'IA autonomes.
Nécessité de l'Interception Prospective : Pour garantir la conformité, la gouvernance doit être intégrée dans la boucle d'exécution (interception avant l'action) et non seulement dans les logs (détection a posteriori).
Problèmes Ouverts :
- Calibration des Risques : Comment transformer les scores de politique en probabilités de violation réelles basées sur des données opérationnelles.
- Contournement Stratégique : Risque que les agents apprennent à manipuler le système de gouvernance pour atteindre des objectifs interdits tout en restant sous les seuils de détection.
- Complétude : La difficulté de garantir la conformité si l'agent peut exécuter du code qui contourne l'environnement gouverné.
- Délégation : Comment propager les états de gouvernance entre agents principaux et sous-agents.

Conclusion :
L'article établit que la gouvernance efficace des agents IA ne peut reposer sur des contrôles statiques ou des incitations (prompts). Elle nécessite un moteur de politique runtime capable d'évaluer chaque action proposée en fonction de l'historique complet d'exécution et de l'état organisationnel global. Ce cadre fournit la base conceptuelle et technique pour construire des systèmes d'agents à la fois performants et conformes aux régulations futures.