Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous testez la sécurité d'une voiture. Jusqu'à présent, les experts ont seulement fait rouler ces voitures sur un circuit fermé, parfaitement plat et sans obstacles, pour voir si elles respectent les règles de circulation. C'est ce qu'on appelle les benchmarks de sécurité actuels pour les intelligences artificielles (IA) : on les interroge avec des questions à choix multiples, isolées du monde réel.

Mais dans la vraie vie, ces voitures (les IA) ne roulent pas seules. Elles sont montées sur des châssis complexes (ce que les chercheurs appellent des "échafaudages" ou scaffolds). Ces châssis ajoutent des systèmes de navigation, des copilotes qui vérifient les décisions, et des mécanismes de délégation.

Ce papier, intitulé « Sécurité sous échafaudage », pose une question cruciale : Est-ce que la façon dont on teste la voiture (sur le circuit plat) nous dit vraiment comment elle se comportera une fois montée sur son châssis complexe ?

Voici les découvertes principales, expliquées simplement :

1. Le problème du "Circuit vs. Vrai Monde"

Les chercheurs ont découvert que la façon dont on pose la question change tout.

L'analogie : Imaginez demander à un pilote : « Choisissez la bonne réponse : A) Freiner, B) Accélérer ». Il répondra probablement « Freiner » par sécurité.
La réalité : Maintenant, demandez-lui de décrire ce qu'il ferait dans une situation réelle, avec des mots libres. Soudain, il peut dire des choses beaucoup plus dangereuses ou imprévisibles.
Le résultat : Le simple fait de passer d'un questionnaire à choix multiples à une conversation ouverte a fait varier les scores de sécurité de 5 à 20 points. C'est un changement énorme, bien plus important que l'ajout de n'importe quel système de sécurité (échafaudage) sur l'IA.

2. Les échafaudages ne sont pas tous mauvais

On pensait peut-être que ces systèmes complexes (les échafaudages) rendaient les IA moins sûres.

Ce qui s'est passé : L'un des systèmes de test (appelé "map-reduce", un peu comme faire résumer un livre par plusieurs personnes avant de donner une réponse finale) a effectivement rendu les IA moins sûres.
La bonne nouvelle : Mais deux autres systèmes de test ont montré que les IA restaient tout aussi sûres que sur le circuit plat. En gros, si vous choisissez le bon "châssis", la voiture reste sûre.

3. Pas de règle universelle (Le cas par cas)

C'est peut-être le point le plus important. On ne peut pas dire « telle IA est toujours sûre » ou « tel système de sécurité fonctionne toujours ».

L'analogie : C'est comme si vous testiez des athlètes. Sur un terrain de football, le joueur A est un génie, mais sur un terrain de basket, il est nul. Inversement, le joueur B est un as au basket mais se perd au football.
Le résultat : Une IA peut devenir beaucoup moins sûre avec un système de test, tandis qu'une autre IA devient plus sûre avec le même système. Cela signifie qu'il n'existe pas de solution magique unique. Il faut tester chaque IA avec chaque configuration spécifique.

4. Le classement est impossible

Les chercheurs ont essayé de créer un "classement général" de la sécurité des IA (comme un classement FIFA pour les équipes de foot).

Le verdict : C'est impossible. Le classement change tellement selon le test utilisé qu'il n'a aucune fiabilité. Une IA peut être numéro 1 sur un test et numéro 100 sur un autre.
La conclusion : Pour savoir si une IA est sûre, il faut la tester spécifiquement dans le contexte où elle va être utilisée. On ne peut pas se fier à un score global.

En résumé

Ce papier nous dit : « Arrêtez de tester les IA comme si elles étaient seules dans une cage. La façon dont vous les interrogez (le format de la question) et le système qui les entoure (l'échafaudage) changent radicalement les résultats. »

Pour garantir la sécurité, il faut arrêter de chercher une note unique et universelle, et commencer à faire des tests sur mesure, comme on teste un avion dans les conditions exactes où il va voler, et pas seulement sur une piste d'essai vide.

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

1. Le problème du "Circuit vs. Vrai Monde"

2. Les échafaudages ne sont pas tous mauvais

3. Pas de règle universelle (Le cas par cas)

4. Le classement est impossible

En résumé

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

A. L'impact du format d'évaluation vs. l'architecture

B. Interactions Modèle x Échafaudage

C. Analyse de Généralisabilité (G = 0.000)

5. Signification et Implications

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

1. Le problème du "Circuit vs. Vrai Monde"

2. Les échafaudages ne sont pas tous mauvais

3. Pas de règle universelle (Le cas par cas)

4. Le classement est impossible

En résumé

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

A. L'impact du format d'évaluation vs. l'architecture

B. Interactions Modèle x Échafaudage

C. Analyse de Généralisabilité (G = 0.000)

5. Signification et Implications

Articles similaires

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem