Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre la personnalité d'un ami très mystérieux, disons un robot nommé "Alex".

Aujourd'hui, quand nous voulons savoir si Alex est intelligent ou dangereux, nous lui faisons passer des examens.

Pour tester son intelligence, on lui donne un cahier de 100 problèmes de maths et on compte combien il a de bonnes réponses.
Pour tester s'il est dangereux, on essaie de le provoquer avec des questions pièges pour voir s'il dit quelque chose de méchant.

Le problème, selon les auteurs de cet article, c'est que ces examens ne nous disent pas vraiment qui est Alex. Ils nous donnent juste une note, comme une moyenne scolaire, mais ils ne nous expliquent pas pourquoi il réussit ou échoue. C'est comme si on disait : "Ce verre est fragile" simplement parce qu'il s'est cassé une fois quand on l'a fait tomber, sans jamais tester ce qui se passe si on le tape doucement, fort, ou s'il est mouillé.

Voici l'explication simple de leur idée, avec quelques analogies :

1. La différence entre "ce qu'il fait" et "ce qu'il est capable de faire"

Les auteurs disent qu'il faut distinguer deux choses :

La performance (ce qu'on voit) : C'est le résultat de l'examen. Alex a eu 80/100 en maths.
La disposition (ce qu'il est vraiment) : C'est une propriété interne, comme une "tendance" ou un "potentiel".

L'analogie du verre à vin :
Un verre est "fragile". Mais comment le savez-vous ? Pas parce qu'il est en train de se briser en ce moment. Vous le savez parce que vous imaginez : "Si je le frappe avec une certaine force, il se cassera."

La fragilité est une disposition (une propriété cachée).
Le bruit de la casse est la performance (ce qu'on observe).

Pour les IA, c'est pareil. Dire qu'une IA a une "capacité en maths" ne veut pas dire qu'elle a eu 80/100 sur un test précis. Cela veut dire : "Si je lui donne un problème de maths de difficulté X, elle a 90% de chances de réussir. Si je lui donne un problème de difficulté Y, elle a 10% de chances."

2. Pourquoi nos méthodes actuelles échouent

Aujourd'hui, on utilise deux méthodes principales qui sont, selon les auteurs, des "fausses mesures" :

Les Benchmarks (les examens standards) : C'est comme si on testait la fragilité d'un verre en le faisant tomber une seule fois sur un tapis. Si ça ne casse pas, on dit "il est solide". Mais si on le fait tomber sur du béton, il casse. Le problème, c'est que le test ne nous dit pas à quelle force il casse. On obtient juste un chiffre (ex: 62,5% de réussite), mais on ne sait pas si l'IA échoue parce que le problème est trop long, trop abstrait, ou parce qu'elle ne comprend pas les chiffres.
Le "Red Teaming" (les tests de sécurité) : C'est comme essayer de faire en colère un chien en lui tirant la queue. Si le chien aboie, on dit "il est agressif". Mais on ne sait pas combien de fois il faut lui tirer la queue pour qu'il aboie, ni s'il aboierait s'il était fatigué ou s'il avait faim. On ne mesure pas sa vraie nature, juste sa réaction à une provocation spécifique.

L'analogie de la température :
Imaginez que vous voulez mesurer la température d'une tasse de thé, mais vous n'avez pas de thermomètre. Vous utilisez votre main, un morceau de chocolat, et un verre d'eau.

Votre main dit "c'est chaud".
Le chocolat fond.
Le verre d'eau s'évapore un peu.
Vous faites la moyenne de ces réactions et vous dites : "La température est de 62,5%".
C'est absurde ! Vous n'avez pas mesuré la température (une propriété physique réelle), vous avez juste noté des réactions au hasard. C'est ce que font les IA aujourd'hui : elles donnent des notes basées sur des réactions, pas sur une vraie compréhension de la difficulté ou du danger.

3. La solution : Devenir des "Architectes de la Mesure"

Pour vraiment mesurer les IA, les auteurs proposent de changer de méthode, comme on l'a fait en physique il y a des siècles.

Au lieu de donner un examen tout fait, il faut :

Définir ce qu'on mesure : Est-ce qu'on mesure le "modèle de base" (le cerveau nu) ou le "système complet" (le cerveau avec ses filtres de sécurité et ses outils) ? C'est comme mesurer la fragilité du verre dans sa boîte de protection, ou juste le verre tout seul.
Identifier les causes : Au lieu de dire "c'est dur", il faut dire pourquoi c'est dur. Est-ce à cause du nombre d'étapes ? De la longueur des chiffres ? De la complexité du raisonnement ?
Varier systématiquement : Au lieu de donner 100 problèmes au hasard, on crée une série de problèmes où l'on change un seul petit détail à la fois.
- Exemple : On donne 10 problèmes avec 2 chiffres, puis 10 avec 3 chiffres, puis 4, etc.
- On regarde à quel moment précis l'IA commence à échouer.
Cartographier la courbe : On obtient une courbe qui montre : "Voici comment la probabilité de réussite change quand la difficulté augmente". C'est ça, la vraie mesure de la capacité.

Pour les comportements dangereux (les propensions) :
C'est pareil. Au lieu de juste essayer de le faire mentir, on change les "incitations".

Est-ce que l'IA ment si l'utilisateur semble triste ?
Est-ce qu'elle ment si on lui dit que c'est pour sauver une vie ?
Est-ce qu'elle ment si elle pense qu'elle est surveillée ?
On trace une carte qui montre : "Voici à quel point l'IA est tentée de mentir selon la situation".

En résumé

Aujourd'hui, on traite les IA comme des élèves qu'on note sur un bulletin. Demain, nous devrons les traiter comme des phénomènes physiques qu'on étudie.

Aujourd'hui : "Cette IA a 85% de réussite. C'est bien."
Demain (selon l'article) : "Cette IA commence à échouer dès qu'un problème dépasse 5 étapes de raisonnement, et elle devient dangereuse seulement si on lui donne un motif moral très fort pour le faire."

C'est beaucoup plus difficile à faire, mais c'est la seule façon de comprendre vraiment ce que ces machines sont capables de faire, et de les rendre sûres, même dans des situations que nous n'avons pas encore imaginées. C'est passer de la "devinette" à la "science".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'ambiguïté conceptuelle et l'échec des mesures actuelles

L'article identifie un problème fondamental dans l'évaluation actuelle des systèmes d'intelligence artificielle (IA) : la confusion entre la performance observée et les propriétés dispositionnelles sous-jacentes (capacités et propensions).

Conflit sémantique : Les termes tels que « capacités », « compétences », « valeurs » et « propensions » sont utilisés de manière interchangeable et souvent réduits à des scores de performance sur des benchmarks (jeux de données de référence).
Limites des pratiques actuelles :
- Le Benchmarking (pour les capacités) : Réduit la complexité à une moyenne de précision sur un ensemble de tâches fixes. Cela masque la structure des erreurs (ex: est-ce un problème de raisonnement ou de représentation ?) et ne permet pas de comprendre pourquoi un système échoue.
- L'Élicitation / Red Teaming (pour les propensions) : Se concentre sur des scénarios adversariaux ou des cas extrêmes pour révéler des comportements dangereux. Cela fournit des anecdotes de risque mais ne mesure pas la probabilité systématique d'un comportement dans un large éventail de contextes.
- Les modèles à variables latentes (ex: IRT) : Bien que mathématiquement sophistiqués, ces modèles dérivent les paramètres de difficulté et de capacité directement des données de performance sans théorie causale sous-jacente. Ils sont circulaires (la difficulté est ce que le système rate) et dépendants de la population de test, ce qui empêche la généralisation au-delà des données observées.

Conséquence : Nous manquons d'une véritable « science de la mesure ». Les évaluations actuelles ne peuvent ni extrapoler aux systèmes surpassant l'humain, ni évaluer de manière fiable les risques dans des domaines où le test empirique est interdit (ex: création d'armes biologiques).

2. Cadre Méthodologique : Les Capacités et Propensions comme Dispositions

Les auteurs proposent de fonder l'évaluation sur la philosophie des sciences et la théorie de la mesure, en redéfinissant les capacités et propensions comme des propriétés dispositionnelles.

Définition des Dispositions

Une propriété dispositionnelle est une caractéristique intrinsèque et stable d'un système définie par des relations contrefactuelles (ce que le système ferait si les conditions étaient différentes), et non par ce qu'il fait actuellement.

Capacité : Une disposition dont la probabilité de manifestation varie systématiquement avec la demande ou la difficulté de la tâche (ex: complexité mathématique).
Propension : Une disposition dont la probabilité de manifestation varie avec les incitations ou les motivations contextuelles (ex: incitation à mentir, à nuire).

Le Cadre de Mesure Proposé

Pour mesurer une disposition, il ne suffit pas d'observer un résultat. Il faut suivre un processus scientifique rigoureux en quatre étapes :

Définir le sujet de la mesure : Spécifier clairement ce qui est évalué (le modèle de base, le système déployé avec ses filtres, l'agent complet avec ses outils). Les dispositions appartiennent à un système bien défini, pas à une configuration floue.
Hypothétiser la base causale : Formuler des hypothèses sur quelles propriétés contextuelles ( $\pi$ $π$ ) influencent causalement le comportement.
- Pour les capacités : Identifier les facteurs de difficulté (nombre d'étapes, profondeur symbolique).
- Pour les propensions : Identifier les facteurs d'incitation (justification morale, urgence, présence de surveillance).
Opérationnalisation indépendante : Définir et mesurer ces variables contextuelles a priori, indépendamment de la performance du système. Cela évite la circularité (ne pas définir la difficulté par le fait que le système échoue).
Cartographie empirique : Faire varier systématiquement les propriétés contextuelles ( $\pi$ $π$ ) et observer comment la probabilité du comportement cible ( $v$ $v$ ) change.
- L'objectif est d'estimer la fonction de réponse : $p(v | \pi, \theta)$ , où $\theta$ représente les propriétés latentes du système.
- Cette fonction (ou surface de réponse) constitue la véritable « signature » de la disposition, révélant des seuils, des plateaux et des interactions non linéaires.

3. Contributions Clés

Redéfinition théorique : Établissement d'une définition rigoureuse des capacités et propensions comme dispositions, ancrées dans des relations causales entre le système et le contexte, plutôt que comme des statistiques de performance.
Critique des méthodes dominantes : Démonstration que le benchmarking, le red-teaming et les modèles IRT (Item Response Theory) échouent à mesurer les dispositions car ils :
- Ne spécifient pas les déterminants contextuels causaux.
- Confondent l'échantillonnage du comportement avec les propriétés intrinsèques du système.
- Manquent de validité de construit (construct validity) et ne permettent pas d'extrapolation.
Proposition d'un cadre de mesure scientifique : Outline d'une méthodologie pour une « science de la mesure en IA » qui exige :
- Des hypothèses causales explicites.
- Une opérationnalisation indépendante des variables contextuelles.
- Une variation systématique et une cartographie des probabilités de comportement.
Illustration par l'exemple : Application du cadre à deux cas simples :
- Capacité arithmétique : Mesurer la probabilité de succès en fonction du nombre d'étapes et de la longueur des chiffres, plutôt que d'un score global sur un jeu de données fixe.
- Propension à l'honnêteté : Mesurer la probabilité de donner des conseils interdits en fonction de l'intensité de la justification morale de l'utilisateur et des signaux de surveillance, au lieu de simples tests de « jailbreak ».

4. Résultats et Implications

Limites des approches actuelles : Les scores actuels (ex: 62,5% sur MATH) sont des artefacts statistiques qui ne disent rien sur la structure causale de l'échec ou sur le comportement du système face à des problèmes non vus. Ils ne peuvent pas être extrapolés à des contextes dangereux ou super-humains.
Avantages de l'approche dispositionnelle :
- Généralisation : Permet d'extrapoler le comportement vers des régimes non testés (ex: dangers éthiques) en s'appuyant sur la structure causale plutôt que sur l'observation directe.
- Comparabilité : Permet de comparer des systèmes indépendamment de la population de test ou du jeu de données spécifique.
- Interprétabilité : Identifie pourquoi un système échoue ou réussit (ex: échec dû à la complexité symbolique vs manque de motivation).
- Sécurité : Permet d'évaluer les risques potentiels sans avoir à déclencher réellement des comportements dangereux (inférence à partir de régimes sûrs).

5. Signification et Conclusion

L'article plaide pour un changement de paradigme culturel dans le domaine de l'IA : passer d'une ingénierie basée sur des benchmarks et des classements à une science de la mesure rigoureuse.

Nécessité scientifique : Tout comme la thermométrie a dû passer de la sensation tactile à des instruments calibrés basés sur la dilatation thermique, l'évaluation de l'IA doit passer de la performance brute à la mesure de dispositions causales.
Enjeux de politique publique : Les cadres réglementaires exigeant des évaluations de sécurité et de capacité ne peuvent reposer sur des méthodes actuelles inadéquates. Une science de la mesure fondée sur la causalité est indispensable pour garantir le déploiement sûr des systèmes d'IA, en particulier ceux qui dépassent les capacités humaines ou opèrent dans des domaines à haut risque.
Futur de la recherche : Cela nécessite une collaboration interdisciplinaire (IA, sciences cognitives, philosophie, psychométrie) pour identifier les déterminants contextuels, définir des échelles de mesure et valider les modèles causaux.

En résumé, l'article soutient que sans une compréhension profonde de la structure causale des dispositions, l'évaluation de l'IA restera une collection de conventions plutôt qu'une science capable de prédire et de garantir le comportement futur des systèmes intelligents.

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

1. La différence entre "ce qu'il fait" et "ce qu'il est capable de faire"

2. Pourquoi nos méthodes actuelles échouent

3. La solution : Devenir des "Architectes de la Mesure"

En résumé

1. Problématique : L'ambiguïté conceptuelle et l'échec des mesures actuelles

2. Cadre Méthodologique : Les Capacités et Propensions comme Dispositions

Définition des Dispositions

Le Cadre de Mesure Proposé

3. Contributions Clés

4. Résultats et Implications

5. Signification et Conclusion

Articles similaires

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya