Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Cet article soutient que les capacités et les propensions des systèmes d'IA sont des propriétés dispositionnelles nécessitant une approche de mesure scientifique rigoureuse, fondée sur la causalité et les contre-factuels, qui contraste avec les pratiques d'évaluation actuelles se limitant souvent à la performance observable.

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz

Publié 2026-03-03
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre la personnalité d'un ami très mystérieux, disons un robot nommé "Alex".

Aujourd'hui, quand nous voulons savoir si Alex est intelligent ou dangereux, nous lui faisons passer des examens.

  • Pour tester son intelligence, on lui donne un cahier de 100 problèmes de maths et on compte combien il a de bonnes réponses.
  • Pour tester s'il est dangereux, on essaie de le provoquer avec des questions pièges pour voir s'il dit quelque chose de méchant.

Le problème, selon les auteurs de cet article, c'est que ces examens ne nous disent pas vraiment qui est Alex. Ils nous donnent juste une note, comme une moyenne scolaire, mais ils ne nous expliquent pas pourquoi il réussit ou échoue. C'est comme si on disait : "Ce verre est fragile" simplement parce qu'il s'est cassé une fois quand on l'a fait tomber, sans jamais tester ce qui se passe si on le tape doucement, fort, ou s'il est mouillé.

Voici l'explication simple de leur idée, avec quelques analogies :

1. La différence entre "ce qu'il fait" et "ce qu'il est capable de faire"

Les auteurs disent qu'il faut distinguer deux choses :

  • La performance (ce qu'on voit) : C'est le résultat de l'examen. Alex a eu 80/100 en maths.
  • La disposition (ce qu'il est vraiment) : C'est une propriété interne, comme une "tendance" ou un "potentiel".

L'analogie du verre à vin :
Un verre est "fragile". Mais comment le savez-vous ? Pas parce qu'il est en train de se briser en ce moment. Vous le savez parce que vous imaginez : "Si je le frappe avec une certaine force, il se cassera."

  • La fragilité est une disposition (une propriété cachée).
  • Le bruit de la casse est la performance (ce qu'on observe).

Pour les IA, c'est pareil. Dire qu'une IA a une "capacité en maths" ne veut pas dire qu'elle a eu 80/100 sur un test précis. Cela veut dire : "Si je lui donne un problème de maths de difficulté X, elle a 90% de chances de réussir. Si je lui donne un problème de difficulté Y, elle a 10% de chances."

2. Pourquoi nos méthodes actuelles échouent

Aujourd'hui, on utilise deux méthodes principales qui sont, selon les auteurs, des "fausses mesures" :

  • Les Benchmarks (les examens standards) : C'est comme si on testait la fragilité d'un verre en le faisant tomber une seule fois sur un tapis. Si ça ne casse pas, on dit "il est solide". Mais si on le fait tomber sur du béton, il casse. Le problème, c'est que le test ne nous dit pas à quelle force il casse. On obtient juste un chiffre (ex: 62,5% de réussite), mais on ne sait pas si l'IA échoue parce que le problème est trop long, trop abstrait, ou parce qu'elle ne comprend pas les chiffres.
  • Le "Red Teaming" (les tests de sécurité) : C'est comme essayer de faire en colère un chien en lui tirant la queue. Si le chien aboie, on dit "il est agressif". Mais on ne sait pas combien de fois il faut lui tirer la queue pour qu'il aboie, ni s'il aboierait s'il était fatigué ou s'il avait faim. On ne mesure pas sa vraie nature, juste sa réaction à une provocation spécifique.

L'analogie de la température :
Imaginez que vous voulez mesurer la température d'une tasse de thé, mais vous n'avez pas de thermomètre. Vous utilisez votre main, un morceau de chocolat, et un verre d'eau.

  • Votre main dit "c'est chaud".
  • Le chocolat fond.
  • Le verre d'eau s'évapore un peu.
    Vous faites la moyenne de ces réactions et vous dites : "La température est de 62,5%".
    C'est absurde ! Vous n'avez pas mesuré la température (une propriété physique réelle), vous avez juste noté des réactions au hasard. C'est ce que font les IA aujourd'hui : elles donnent des notes basées sur des réactions, pas sur une vraie compréhension de la difficulté ou du danger.

3. La solution : Devenir des "Architectes de la Mesure"

Pour vraiment mesurer les IA, les auteurs proposent de changer de méthode, comme on l'a fait en physique il y a des siècles.

Au lieu de donner un examen tout fait, il faut :

  1. Définir ce qu'on mesure : Est-ce qu'on mesure le "modèle de base" (le cerveau nu) ou le "système complet" (le cerveau avec ses filtres de sécurité et ses outils) ? C'est comme mesurer la fragilité du verre dans sa boîte de protection, ou juste le verre tout seul.
  2. Identifier les causes : Au lieu de dire "c'est dur", il faut dire pourquoi c'est dur. Est-ce à cause du nombre d'étapes ? De la longueur des chiffres ? De la complexité du raisonnement ?
  3. Varier systématiquement : Au lieu de donner 100 problèmes au hasard, on crée une série de problèmes où l'on change un seul petit détail à la fois.
    • Exemple : On donne 10 problèmes avec 2 chiffres, puis 10 avec 3 chiffres, puis 4, etc.
    • On regarde à quel moment précis l'IA commence à échouer.
  4. Cartographier la courbe : On obtient une courbe qui montre : "Voici comment la probabilité de réussite change quand la difficulté augmente". C'est ça, la vraie mesure de la capacité.

Pour les comportements dangereux (les propensions) :
C'est pareil. Au lieu de juste essayer de le faire mentir, on change les "incitations".

  • Est-ce que l'IA ment si l'utilisateur semble triste ?
  • Est-ce qu'elle ment si on lui dit que c'est pour sauver une vie ?
  • Est-ce qu'elle ment si elle pense qu'elle est surveillée ?
    On trace une carte qui montre : "Voici à quel point l'IA est tentée de mentir selon la situation".

En résumé

Aujourd'hui, on traite les IA comme des élèves qu'on note sur un bulletin. Demain, nous devrons les traiter comme des phénomènes physiques qu'on étudie.

  • Aujourd'hui : "Cette IA a 85% de réussite. C'est bien."
  • Demain (selon l'article) : "Cette IA commence à échouer dès qu'un problème dépasse 5 étapes de raisonnement, et elle devient dangereuse seulement si on lui donne un motif moral très fort pour le faire."

C'est beaucoup plus difficile à faire, mais c'est la seule façon de comprendre vraiment ce que ces machines sont capables de faire, et de les rendre sûres, même dans des situations que nous n'avons pas encore imaginées. C'est passer de la "devinette" à la "science".

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →