Decision-Aware Uncertainty Evaluation of Vision-Language Model-Based Early Action Anticipation for Human-Robot Interaction

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Robot qui a peur de se tromper : Pourquoi la confiance compte plus que la vitesse

Imaginez que vous travaillez dans une cuisine avec un robot très intelligent. Vous commencez à ouvrir le réfrigérateur. Le robot, qui vous observe, doit deviner ce que vous allez faire avant même que vous ayez fini le mouvement.

Si le robot devine trop vite et se trompe (par exemple, il pense que vous allez prendre du lait alors que vous cherchez des œufs), il pourrait vous bloquer le passage ou vous donner le mauvais objet. C'est dangereux et agaçant.

Ce papier de recherche pose une question cruciale : Comment savoir si le robot est vraiment sûr de sa réponse, ou s'il est juste en train de deviner à l'aveugle ?

1. Le problème : Le robot est trop confiant (et c'est dangereux)

Les robots modernes utilisent des modèles très puissants (appelés "Vision-Language Models") qui voient et comprennent comme des humains. Mais quand on leur montre seulement un début d'action (comme ouvrir une porte), ils ont souvent plusieurs idées en tête :

"Peut-être qu'il veut prendre un verre ?"
"Ou peut-être qu'il veut ranger une assiette ?"

Le problème, c'est que ces robots ont tendance à être trop sûrs d'eux. Ils choisissent une seule idée et disent : "C'est ça ! 90 % de certitude !" alors qu'en réalité, ils sont très incertains. C'est comme un joueur de poker qui parie tout son argent en disant "J'ai la meilleure main", alors qu'il n'a que des cartes moyennes.

2. La solution : Ne pas choisir tout de suite, mais écouter le doute

Les chercheurs proposent de ne pas se fier uniquement à la réponse "numéro 1" du robot. Au lieu de cela, ils demandent au robot de faire le même exercice plusieurs fois de suite (comme si on lui demandait de réfléchir 5 fois de suite à la même question).

Si le robot répond toujours la même chose (5 fois sur 5 : "Il veut prendre un verre"), alors on peut lui faire confiance.
Si le robot change d'avis (une fois "verre", deux fois "assiette", deux fois "lait"), alors on sait qu'il est perdu.

C'est comme demander à 5 amis différents ce qu'ils pensent d'une situation. Si tous disent la même chose, c'est probablement vrai. S'ils se contredisent, il faut attendre d'avoir plus d'informations.

3. Les trois façons de "mélanger" les réponses

Le papier compare trois méthodes pour transformer ces 5 réponses différentes en une seule décision pour le robot :

La méthode "Majorité" (Consistency) : On regarde ce que le robot a dit le plus souvent. C'est prudent, mais ça peut être un peu mou.
La méthode "Pondérée" (Confidence-weighted) : On écoute non seulement ce qu'il dit, mais aussi à quel point il le dit. S'il dit "Verre" avec une grande assurance, on le pèse plus lourd.
La méthode "Classement" (PairRank) : C'est la plus astucieuse. Au lieu de compter les votes, on demande au robot de comparer les options entre elles ("Est-ce que 'Verre' est plus probable que 'Assiette' ?"). Cela crée une hiérarchie très claire.

4. La découverte surprenante : Être "juste" ne suffit pas

Le résultat le plus intéressant de l'étude est une surprise : La méthode qui donne le plus de bonnes réponses (le classement le plus précis) n'est pas forcément celle qui donne le meilleur signal d'alerte quand elle se trompe.

La méthode "Classement" (PairRank) est très tranchée : elle est très sûre d'elle quand elle a raison, mais elle peut être très dangereuse quand elle a tort (elle ne doute jamais assez). C'est comme un chef cuisinier qui crie "C'est prêt !" même si le plat est cru.
Les méthodes plus "molles" (Majorité) sont moins précises, mais elles sont plus honnêtes sur leurs doutes. Elles disent : "Je ne suis pas sûr, demandons à l'humain".

5. Pourquoi c'est important pour l'avenir ?

Pour que les robots travaillent en sécurité avec nous, ils ne doivent pas seulement être intelligents, ils doivent être honnêtes sur leurs incertitudes.

Ce papier nous apprend qu'il faut concevoir les robots pour qu'ils sachent dire :

"Je suis très sûr, je vais agir."
"Je suis un peu incertain, je vais attendre."
"Je suis très perdu, je vais vous demander : 'Est-ce que vous voulez prendre un verre ou une assiette ?'"

En résumé

Ce n'est pas seulement une question de "qui devine le mieux". C'est une question de sécurité. Les chercheurs ont créé un nouveau test pour vérifier si un robot sait quand il ne sait pas. C'est comme apprendre à un robot à ne pas jouer au poker avec tout son argent s'il n'est pas sûr de ses cartes.

Grâce à cette étude, nous pouvons construire des robots qui ne sont pas seulement rapides, mais aussi prudents et fiables dans nos foyers et nos usines.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Dans les espaces de travail partagés, les robots doivent interpréter les actions humaines à partir d'observations partielles et ambiguës, souvent dans des vues égocentriques (portées par l'humain). Cette ambiguïté est exacerbée par les changements de point de vue et les occlusions.

Le défi : Les modèles de langage-vision (VLM) récents permettent une reconnaissance d'actions à court terme grâce à leur capacité de raisonnement contextuel et leur vocabulaire ouvert. Cependant, pour l'interaction humain-robot (HRI), la simple précision de prédiction (Top-K) est insuffisante.
Le risque : Des prédictions trop confiantes mais erronées peuvent entraîner des comportements robotiques dangereux ou disruptifs. À l'inverse, une absence de confiance peut paralyser le robot.
Le manque : Il n'existe pas d'évaluation systématique de la fiabilité des signaux de confiance (incertitude) des VLM dans le régime de prédiction précoce (préfixe temporel), où plusieurs intentions futures peuvent être plausibles. Les modules de contrôle en aval ont besoin d'estimations de confiance fiables pour prendre des décisions (exécuter, attendre, demander clarification).

2. Méthodologie

Les auteurs proposent un cadre d'évaluation « conscient de la décision » (decision-aware) pour analyser l'incertitude des VLM dans la prédiction d'actions à court terme.

A. Génération d'Incertitude (Échantillonnage Stochastique)

Comme les VLM ne fournissent pas directement de distributions de probabilités internes, les auteurs utilisent un mécanisme d'échantillonnage implicite :

Multi-run : Pour chaque clip vidéo d'entrée, le VLM est interrogé $M$ fois (ex: 5 fois) avec les mêmes prompts mais en utilisant un décodage stochastique (température $T=0.8$ ).
Variabilité : La variabilité des ensembles de prédictions Top-K ( $S_K$ ) générés à travers ces $M$ runs sert de proxy pour l'incertitude du modèle.

B. Stratégies d'Agrégation

Les auteurs comparent trois méthodes pour agréger les prédictions stochastiques en une seule prédiction structurée avec des scores de confiance :

Agrégation basée sur la cohérence (Consistency-Based) : Vote majoritaire pour chaque rang $k$ . La confiance est la fréquence d'accord.
Agrégation pondérée par la confiance (Confidence-Weighted) : Utilise les scores de confiance verbaux fournis par le modèle lors de chaque run pour pondérer le vote.
Agrégation par classement par paires (PairRank) : Modélise la structure globale du classement en utilisant un modèle de Bradley-Terry sur les préférences binaires observées entre les actions à travers les runs.

C. Protocole d'Évaluation

L'évaluation ne se limite pas à la précision, mais examine quatre dimensions critiques pour l'HRI :

Correction (Correctness) : Validité des candidats (Top-1 Accuracy, Recall@K).
Fiabilité de l'incertitude (Uncertainty Reliability) :
- Calibration Top-1 : Erreur d'étalonnage attendue (ECE) pour la première prédiction.
- Calibration au niveau de l'ensemble (Set-ECE) : Mesure l'alignement entre la confiance moyenne de l'ensemble Top-K et la présence de la vérité terrain dans cet ensemble.
Utilité de la décision sélective (Selective Decision Utility) : Évalue la capacité du système à rejeter les prédictions incertaines (seuil de confiance $\tau$ ) tout en maintenant une haute précision sur les prédictions retenues (courbes Précision-Couverture).
Géométrie de la confiance (Confidence Geometry) : Analyse de la distribution de l'entropie normalisée et de la répartition de la masse de confiance sur les rangs pour comprendre comment l'ambiguïté est modélisée.

3. Contributions Clés

Reformulation du problème : Passage d'un problème de simple classement (ranking) à un problème de fiabilité, soulignant la nécessité d'évaluer l'incertitude sous observation partielle en HRI.
Cadre d'évaluation décisionnel : Introduction d'un protocole incluant la calibration, l'utilité de la décision sélective et l'analyse géométrique de la confiance, fournissant des outils pratiques pour valider l'intégration des VLM dans des systèmes de contrôle à seuil de confiance.
Découverte empirique : Révélation que les stratégies d'agrégation modifient fondamentalement la géométrie de l'incertitude, créant des compromis (trade-offs) entre la fidélité de la calibration et la séparabilité au niveau de la décision. Une meilleure performance de classement n'implique pas nécessairement une meilleure fiabilité de l'incertitude.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks d'actions égocentriques (EGTEA Gaze+ et EPIC-KITCHENS-100) en utilisant un VLM noir (Gemini 2.5 Flash-lite).

Précision de classement : Les stratégies d'agrégation ont un impact modéré sur la précision Top-1, mais PairRank obtient systématiquement le meilleur Recall@10.
Calibration :
- Le Single-run (sans agrégation) présente souvent la meilleure calibration Top-1 (ECE le plus bas).
- PairRank montre une calibration Top-1 plus faible mais une calibration au niveau de l'ensemble (Set-ECE) qui s'améliore rapidement avec l'augmentation de $K$ . Cela suggère que PairRank est plus fiable pour des horizons de décision où plusieurs options sont conservées.
Utilité Sélective : PairRank offre une séparation plus nette (seuillage plus efficace). Il maintient une haute précision tout en réduisant drastiquement la couverture (le nombre d'actions exécutées) lorsque le seuil de confiance augmente. C'est idéal pour les systèmes de sécurité où il vaut mieux s'abstenir que d'agir sur une prédiction ambiguë.
Géométrie de la confiance :
- PairRank produit une distribution de confiance très concentrée (faible entropie) sur le premier rang, créant une hiérarchie raide. Cela peut induire une confiance excessive (overconfidence) en cas d'erreur.
- Les méthodes Consistency et Confidence-weighted produisent des distributions plus lisses et à plus haute entropie, reflétant mieux l'ambiguïté multi-intentionnelle, mais au prix d'une sélectivité moins tranchée.

5. Signification et Implications

Choix de la stratégie : Aucune stratégie n'est universellement optimale. Le choix dépend du contexte opérationnel :
- PairRank est préférable si l'on souhaite une décision rapide et tranchée, mais avec un risque plus élevé de prédiction erronée confiante.
- Consistency/Weighted sont préférables pour préserver l'ambiguïté et éviter les engagements prématurés, au risque d'augmenter la charge de clarification (demander à l'humain).
Conception de systèmes HRI : L'article démontre que l'évaluation de l'incertitude doit être intégrée dès la conception des modules de contrôle. Les métriques traditionnelles (Top-K accuracy) sont insuffisantes pour garantir la sécurité.
Gestion de l'ambiguïté : La structure de la confiance (géométrie) détermine directement la stratégie d'interaction du robot : exécuter immédiatement, demander une clarification, ou attendre plus de données.

En conclusion, ce travail fournit les preuves de fiabilité manquantes nécessaires pour intégrer les prédictions des VLM dans des modules d'interaction humain-robot pilotés par la confiance, en soulignant que la manière dont l'incertitude est modélisée et agrégée est aussi cruciale que la prédiction elle-même.