Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Cette étude révèle une divergence frappante entre les représentations internes compositionnelles des grands modèles de langage et leur capacité à les traduire de manière cohérente en performances fonctionnelles lors de tâches d'adjectif-nom, soulignant ainsi la nécessité d'évaluations contrastives pour une compréhension complète de leurs capacités.

Ruchira Dhar, Qiwei Peng, Anders Søgaard

Publié 2026-03-12
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si nous en discutions autour d'un café.

Le Grand Mystère des LLMs : Ce qu'ils disent vs Ce qu'ils pensent

Imaginez que les Grands Modèles de Langage (LLMs), comme ceux qui font fonctionner les chatbots actuels, soient de véritables chefs cuisiniers dans une immense cuisine.

Les chercheurs de cet article (Ruchira Dhar, Qiwei Peng et Anders Søgaard) se sont demandé une chose fondamentale : Ces chefs sont-ils vraiment capables de "combiner" les ingrédients pour créer de nouveaux plats, ou se contentent-ils de répéter des recettes qu'ils ont déjà mémorisées ?

En linguistique, on appelle cela la compositionnalité. C'est la capacité à comprendre que "un petit éléphant" est un type d'éléphant, mais que "un petit animal" n'est pas forcément un type d'animal (car un éléphant est déjà gros, donc "petit éléphant" est un oxymore, mais "petit animal" est logique). C'est subtil !

Pour tester cela, les chercheurs ont utilisé deux méthodes différentes, comme si on écoutait le chef de deux manières distinctes.


1. La Méthode "Goûter le Plat" (Évaluation Fonctionnelle)

C'est la première méthode. On demande au chef de cuisiner un plat spécifique et on regarde le résultat final.

  • Le test : On donne au modèle des phrases avec des adjectifs et des noms (comme "un rouge véhicule") et on lui demande : "Est-ce que cela signifie la même chose que 'un véhicule' ?"
  • Ce qu'on a observé : C'est là que ça devient bizarre. Parfois, le chef cuisine un excellent plat (il répond juste), mais souvent, il fait des erreurs. Et le pire ? Quand on lui donne plus d'ingrédients (plus de paramètres, c'est-à-dire un chef plus "intelligent" ou plus entraîné), il ne cuisine pas toujours mieux ! Parfois, il fait même plus d'erreurs.
  • L'analogie : C'est comme si un chef étoilé, avec une cuisine ultra-équipée, se trompait plus souvent sur la recette du gâteau au chocolat qu'un apprenti avec une casserole basique.

2. La Méthode "Regarder dans le Cerveau" (Analyse Représentationnelle)

C'est la deuxième méthode, beaucoup plus curieuse. Au lieu de regarder le plat fini, les chercheurs ouvrent le cerveau du chef pendant qu'il cuisine. Ils regardent comment les ingrédients sont organisés dans sa tête.

  • Le test : Ils regardent les "couches" internes du modèle (comme les étages d'un immeuble) pour voir si le concept de "rouge" et celui de "véhicule" sont bien combinés dans la mémoire du modèle.
  • Ce qu'on a observé : Surprise ! À l'intérieur de la tête du chef, tout est parfaitement organisé. Les ingrédients sont bien mélangés, les règles sont claires, et le chef sait exactement comment combiner "rouge" et "véhicule". Le cerveau du modèle est un génie de la composition.
  • L'analogie : C'est comme si on ouvrait la tête du chef et qu'on voyait qu'il a parfaitement compris la chimie de la cuisson, les mélanges de saveurs et la théorie culinaire. Il sait faire le gâteau.

Le Paradoxe : Le Savoir vs La Performance

C'est ici que réside la découverte majeure de l'article : Il y a un fossé énorme entre ce que le modèle sait (dans sa tête) et ce qu'il fait (dans sa réponse).

  • Dans sa tête (Représentation) : Le modèle est un expert. Il a les concepts bien rangés, comme des livres parfaitement classés dans une bibliothèque.
  • Dans sa bouche (Performance) : Quand on lui pose la question, il trébuche. Il oublie ses règles, il se trompe, ou il donne une réponse bizarre, même s'il a la réponse "parfaite" quelque part dans son cerveau.

L'image pour résumer : Imaginez un pianiste virtuose qui a parfaitement mémorisé une symphonie complexe (le cerveau). Mais quand il monte sur scène, il joue faux, il rate des notes, ou il s'arrête au milieu (la performance).
Est-ce qu'il ne connaît pas la musique ? Non, il la connaît par cœur. Mais quelque chose l'empêche de la jouer correctement quand on lui demande de le faire.

Pourquoi est-ce important ?

Les chercheurs concluent que si on se contente de regarder si le modèle répond juste ou faux (le "plat"), on rate une partie cruciale de l'histoire. On pourrait penser que le modèle est "bête" en composition, alors qu'en réalité, il est très intelligent, mais qu'il a du mal à exprimer cette intelligence de manière fiable.

C'est comme juger un étudiant uniquement sur son examen final sans regarder ses brouillons. S'il a les bonnes idées sur ses brouillons mais qu'il panique le jour J, dire qu'il "ne comprend pas" serait injuste.

En résumé

  1. Les modèles ont la "compréhension" : Ils ont intégré les règles de combinaison des mots dans leur cerveau.
  2. Mais ils sont "inconstants" : Ils ne réussissent pas toujours à appliquer ces règles quand on leur pose une question.
  3. Leçon pour l'avenir : Pour vraiment comprendre si une intelligence artificielle est intelligente, il ne faut pas seulement lui poser des questions (le test de Turing), il faut aussi regarder comment elle réfléchit à l'intérieur. Il faut regarder à la fois le plat et le cerveau du chef.

C'est une découverte qui nous dit que nos IA sont peut-être plus proches de la compréhension humaine qu'on ne le pensait, mais qu'elles ont encore du mal à être fiables dans leur expression.