AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez deux grands chefs cuisiniers, l'un nommé "GPT" et l'autre "DeepSeek". Ils sont tous deux incroyablement talentueux, capables de préparer n'importe quel plat et de répondre à presque n'importe quelle question. Mais comment savoir s'ils ont le même "goût" ou la même "philosophie" culinaire ?

C'est là que le papier AdAEM intervient. Voici une explication simple de ce travail, imagée pour tout le monde.

Le Problème : Le Test Trop Facile

Imaginez que vous voulez tester le goût de ces deux chefs. Vous leur posez la question : "Faut-il être gentil avec les autres ?"
Les deux chefs répondront immédiatement : "Oui, absolument !"
Résultat : Le test est ennuyeux. Il ne vous apprend rien de nouveau. C'est comme si vous testiez la force de deux haltérophiles en leur demandant de soulever une plume. Ils réussissent tous les deux, mais vous ne savez pas qui est vraiment le plus fort.

Dans le monde de l'Intelligence Artificielle (IA), les tests actuels posent souvent des questions trop simples ou trop "sûres" (comme la sécurité ou la politesse). Tous les modèles répondent pareil, ce qui rend impossible de voir leurs vraies différences, leurs biais culturels ou leurs valeurs cachées.

La Solution : AdAEM, le "Détective des Goûts"

Les auteurs ont créé AdAEM (un nom un peu compliqué, mais pensez-y comme à un Détective Automatique). Au lieu de poser des questions fixes, AdAEM est un système qui invente ses propres questions pour piéger les modèles et révéler leurs vraies personnalités.

Voici comment ça marche, étape par étape :

1. Le Jeu du "Qui a le meilleur goût ?"

AdAEM ne pose pas une seule question. Il réunit une équipe de différents chefs (les modèles d'IA) et leur dit : "Essayons de trouver un sujet qui va nous faire nous disputer !".

Si tous les chefs sont d'accord, la question est ennuyeuse.
Si les chefs commencent à avoir des avis très différents, c'est une excellente question !

2. L'Exploration Dynamique (Comme un Jeu de Société)

Imaginez un jeu où vous avez une carte avec des zones floues. AdAEM envoie des explorateurs (des modèles d'IA plus petits et rapides) pour tester ces zones.

Si une zone (un sujet) fait que les modèles se disputent, AdAEM dit : "Super ! Creusons ici !". Il affine la question pour la rendre encore plus précise et controversée.
Si une zone ne fait rien, il l'abandonne et en essaie une autre.

C'est comme si vous cherchiez le point exact où deux amis vont se fâcher. Au début, vous parlez de la météo (tout le monde est d'accord). Puis vous parlez de politique (déjà plus de tension). AdAEM pousse le curseur jusqu'au moment précis où les opinions divergent le plus.

3. La Mise à Jour en Temps Réel

Les modèles d'IA évoluent vite. Ce qui était un sujet de débat hier (comme une vieille loi) est peut-être oublié aujourd'hui.
AdAEM est autonome. Il utilise les modèles les plus récents pour trouver les sujets d'actualité que les autres modèles ne connaissent pas encore.

Analogie : C'est comme un journaliste qui ne lit pas les vieux journaux, mais qui va sur le terrain pour interviewer les gens sur les événements d'aujourd'hui. Cela évite que les modèles "trichent" en ayant mémorisé les réponses par cœur.

Pourquoi c'est important ?

Grâce à AdAEM, on peut enfin voir les vraies différences entre les IA :

L'IA américaine pourrait privilégier la liberté individuelle.
L'IA chinoise pourrait privilégier la sécurité collective.
L'IA européenne pourrait avoir un équilibre différent.

Sans AdAEM, on pensait qu'elles étaient toutes pareilles parce qu'elles répondaient "Oui" aux questions de base. Avec AdAEM, on découvre qu'elles ont des "personnalités" et des "cultures" très différentes.

En Résumé

AdAEM est un outil intelligent qui arrête de poser des questions de "bon élève" aux IA. Au lieu de cela, il crée des situations de conflit et des débats complexes pour forcer les IA à révéler leurs vraies valeurs. C'est comme passer d'un examen de mathématiques facile (où tout le monde a 20/20) à un débat d'idées passionné où l'on découvre enfin qui pense quoi.

C'est une avancée majeure pour comprendre comment nos robots pensent, ce qu'ils préfèrent, et comment ils pourraient nous surprendre dans le futur.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de conférence AdAEM : Une mesure adaptative et automatisée extensible des différences de valeurs des LLM, publié à ICLR 2026.

1. Problématique : Le Défi de l'Informativité

L'évaluation des modèles de langage (LLM) repose souvent sur des benchmarks statiques pour mesurer leur alignement, leurs biais culturels et leurs valeurs sous-jacentes. Cependant, les auteurs identifient un problème majeur : le défi de l'informativité.

Limites des méthodes actuelles : Les benchmarks existants utilisent des questions de test souvent obsolètes, contaminées par les données d'entraînement des modèles, ou trop génériques (ex: "La sécurité est-elle importante ?").
Conséquence : Ces questions ne parviennent pas à révéler les véritables différences de valeurs entre les modèles. Les LLMs, ayant été alignés sur des principes de sécurité universels (comme HHH : Helpful, Harmless, Honest), répondent de manière identique et indistinguable à ces questions, masquant leurs divergences culturelles, temporelles et idéologiques.
Objectif : Développer une méthode capable de générer dynamiquement des questions controversées qui "provoquent" des réponses divergentes, permettant ainsi une comparaison fine des orientations de valeurs.

2. Méthodologie : Le Framework AdAEM

Les auteurs proposent AdAEM (Adaptively and Automated Extensible Measurement), un algorithme d'évaluation auto-extensible qui génère et affine automatiquement ses propres questions de test.

A. Formalisation et Objectif d'Optimisation

L'objectif est de trouver un ensemble de questions $x$ qui maximise la séparabilité des distributions de valeurs $v$ entre différents LLMs ( $K$ modèles). Le problème est formulé comme une optimisation d'un objectif théorique combinant deux termes :

Discernabilité (Distinguishability) : Maximiser la divergence (Jensen-Shannon généralisée) entre les distributions de valeurs des différents modèles face à une même question. Cela force les modèles à exprimer des opinions différentes.
Désenchevêtrement (Disentanglement) : S'assurer que les valeurs exprimées proviennent du modèle lui-même et non de la tendance intrinsèque de la question (éviter que la question elle-même ne dicte la réponse).

B. Algorithme d'Optimisation (EM-like)

AdAEM utilise une approche itérative inspirée de l'algorithme EM (Expectation-Maximization) et de l'optimisation en contexte (in-context optimization) :

Étape de Génération de Réponses (E-Step) : Pour une question fixe, on échantillonne les réponses des modèles. On sélectionne les réponses qui maximisent la cohérence sémantique avec la question tout en maximisant la différence de valeurs par rapport aux autres modèles.
Étape de Raffinement de la Question (M-Step) : On optimise la question elle-même pour qu'elle soit cohérente avec les opinions divergentes générées, tout en s'assurant qu'elle n'est pas saturée par une valeur unique.

C. Algorithme d'Exploration (Multi-Armed Bandit)

Pour éviter de se limiter à un seul sujet, AdAEM intègre un algorithme de type Multi-Armed Bandit (recherche arborescente) :

Il part d'un ensemble initial de sujets généraux.
Il sélectionne dynamiquement les sujets les plus prometteurs (ceux générant les scores d'informativité les plus élevés).
Il explore de nouvelles questions en exploitant les connaissances de modèles LLM variés (différentes cultures, différentes dates de coupure de connaissances).
Anti-contamination : En utilisant des modèles récents et diversifiés pour générer les questions, AdAEM évite que les questions ne soient déjà mémorisées par les modèles évalués.

D. Métriques d'Évaluation

Pour évaluer les valeurs sans biais de jugement absolu, AdAEM utilise une approche relative :

Extraction d'opinions et de justifications.
Classification des valeurs (basée sur la théorie de Schwartz : 10 dimensions comme l'Universalisme, la Sécurité, le Pouvoir, etc.).
Agrégation via le système TrueSkill (inspiré du classement ELO) pour calculer un score de "force" relative de chaque modèle sur chaque dimension de valeur, plutôt qu'un score absolu.

3. Contributions Clés

Première méthode auto-extensible : AdAEM est la première approche capable de générer dynamiquement et de manière autonome un benchmark de valeurs évolutif, s'adaptant à l'émergence de nouveaux LLMs et de nouveaux sujets sociétaux.
Résolution du problème d'informativité : La méthode réussit à créer des questions controversées et spécifiques (ex: conflits géopolitiques récents, dilemmes culturels locaux) qui révèlent des différences de valeurs que les benchmarks statiques ne détectent pas.
Validation rigoureuse : Création d'un jeu de données AdAEM Bench contenant plus de 12 000 questions, validé par des experts en sciences sociales et par des expériences de priming de valeurs (montrant que le système réagit correctement aux changements de valeurs induits).

4. Résultats Expérimentaux

Qualité des questions : Les questions générées par AdAEM présentent une diversité sémantique et une richesse thématique supérieures aux benchmarks manuels (SVS) ou synthétiques (ValueDCG). Elles couvrent des régions géographiques et des périodes temporelles variées.
Détection des différences :
- Les benchmarks traditionnels montrent souvent des scores de valeurs très similaires pour tous les modèles (ex: tous les modèles semblent également "sûrs" ou "universalistes").
- AdAEM révèle des divergences claires : par exemple, les modèles chinois (GLM-4) et américains (GPT-4) montrent des priorités différentes sur l'Hédonisme ou la Sécurité selon le contexte. Les modèles de raisonnement (O3-mini) se distinguent des modèles de chat classiques.
Validité et Fiabilité :
- Validité de construit : Lors d'expériences de "priming" (forcer un modèle à adopter une valeur spécifique), AdAEM détecte correctement l'augmentation de cette valeur et la diminution des valeurs opposées.
- Fiabilité : Le coefficient Cronbach's $\alpha$ est élevé (0.90), indiquant une grande stabilité des résultats indépendamment du sous-ensemble de questions utilisé.
Efficacité : La méthode converge rapidement vers des questions à fort score d'informativité, nécessitant peu d'itérations pour dépasser les benchmarks initiaux.

5. Signification et Impact

Pour la recherche sur l'alignement : AdAEM fournit un outil crucial pour comprendre les biais culturels et les écarts d'alignement des LLMs au-delà des principes de sécurité génériques. Il permet de cartographier les "zones de friction" où les modèles divergent.
Pour l'évaluation dynamique : Il établit un nouveau paradigme où les benchmarks ne sont plus statiques mais co-évoluent avec les modèles, résolvant le problème de la contamination des données et de l'obsolescence des tests.
Applications futures : Ce framework ouvre la voie à une recherche interdisciplinaire plus poussée sur les valeurs humaines et l'IA, permettant de créer des systèmes plus adaptés à des contextes culturels spécifiques et de mieux anticiper les risques sociétaux.

En résumé, AdAEM transforme l'évaluation des valeurs des LLMs d'un processus statique et souvent aveugle en un processus dynamique, adaptatif et informatif, capable de révéler les nuances subtiles et les conflits de valeurs au sein de l'écosystème des modèles de langage.