Compositional Neuro-Symbolic Reasoning

Cet article propose une architecture neuro-symbolique qui combine des représentations d'objets, des propositions de transformations guidées par des réseaux de neurones et un filtrage symbolique pour améliorer la généralisation et les performances des grands modèles de langage sur le corpus ARC-AGI-2 sans nécessiter de fine-tuning spécifique.

Anugyan Das, Omkar Ghugarkar, Vishvesh Bhat, Asad Aali

Publié 2026-04-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de résoudre un casse-tête visuel très complexe, comme un jeu où vous devez deviner la règle secrète qui transforme une image en une autre. C'est exactement ce que fait l'ARC (Abstraction and Reasoning Corpus), un test conçu pour mesurer l'intelligence humaine.

Les chercheurs de CoreThink AI et de Stanford ont créé une nouvelle méthode pour aider les intelligences artificielles (IA) à résoudre ces énigmes. Voici comment leur système fonctionne, expliqué simplement avec des analogies du quotidien.

1. Le Problème : Les IA sont souvent trop "bêtes" ou trop "rigides"

Pour résoudre ces puzzles, les IA actuelles ont deux gros défauts :

  • Les IA purement neuronales (comme les grands modèles de langage) sont comme un artiste très créatif mais un peu étourdi. Elles peuvent deviner la règle, mais elles ont tendance à faire des erreurs de logique quand le puzzle change un peu. Elles mélangent tout : elles voient les couleurs et les formes, mais elles ne comprennent pas toujours comment les objets bougent ensemble.
  • Les IA purement symboliques (les calculateurs rigides) sont comme des comptables très stricts. Elles sont excellentes pour suivre des règles précises, mais elles ont du mal à "voir" l'image. Si vous leur montrez un dessin flou, elles ne savent pas par où commencer.

2. La Solution : Une équipe de trois experts (L'approche Neuro-Symbolique)

Les auteurs ont créé une équipe de trois experts qui travaillent ensemble, comme dans une entreprise bien organisée. Au lieu de laisser une seule IA tout faire, ils séparent les tâches :

Étape 1 : L'Architecte (La Perception)

Imaginez que vous regardez une photo de votre salon. Au lieu de voir juste une masse de pixels, votre cerveau identifie immédiatement : "Ah, c'est un canapé rouge, c'est une table basse, et il y a un trou sous la table".

  • Ce que fait le système : Il transforme la grille de pixels bruts en une liste d'objets clairs (formes, couleurs, positions). Il ne regarde plus des points, mais des "blocs" intelligibles. C'est comme passer d'une vue satellite floue à un plan d'architecte précis.

Étape 2 : L'Inventeur (La Proposition de Règles)

Maintenant que l'on connaît les objets, il faut deviner la règle.

  • Ce que fait le système : Au lieu d'essayer de deviner n'importe quoi (ce qui serait comme chercher une aiguille dans une botte de foin), l'IA utilise une "boîte à outils" limitée. Cette boîte contient 22 types de mouvements de base (comme "remplir un trou", "déplacer un objet vers la droite", "relier deux formes").
  • L'analogie : C'est comme si vous deviez réparer une voiture, mais vous n'aviez le droit d'utiliser que 22 outils spécifiques. Cela force l'IA à être créative, mais dans un cadre logique, évitant les idées folles et inutiles.

Étape 3 : Le Juge (La Vérification de Cohérence)

C'est l'étape la plus importante. L'IA a proposé plusieurs règles possibles. Maintenant, elle doit vérifier si ces règles fonctionnent pour tous les exemples du puzzle, pas juste un seul.

  • Ce que fait le système : Si une règle fonctionne pour l'exemple A mais échoue pour l'exemple B, le Juge la rejette. Il ne garde que les règles qui sont cohérentes partout.
  • L'analogie : Imaginez un détective qui a plusieurs suspects. Il ne garde que celui qui a un alibi solide pour tous les moments du crime, pas juste pour un seul. Cela élimine les fausses pistes.

3. Le Résultat : Pourquoi ça marche mieux ?

En séparant ces étapes, le système devient beaucoup plus intelligent :

  1. Il comprend la structure : Il ne se perd pas dans les détails inutiles.
  2. Il généralise mieux : Comme il utilise des règles logiques (comme un humain), il peut appliquer la même logique à un nouveau puzzle qu'il n'a jamais vu, au lieu de simplement "deviner" ou de "mémoriser".
  3. Il est plus efficace : Il n'a pas besoin de faire des millions d'essais au hasard (ce qui coûte cher en temps et en énergie). Il cherche intelligemment dans sa "boîte à outils".

En résumé

Cette recherche montre que pour créer une vraie intelligence artificielle capable de raisonner, il ne suffit pas de rendre les modèles plus gros ou plus rapides. Il faut leur donner une structure.

C'est comme si on apprenait à un enfant à cuisiner :

  • Ne pas lui donner juste une recette à mémoriser (mémorisation).
  • Ne pas lui laisser faire n'importe quoi avec n'importe quel ingrédient (créativité sans limite).
  • Mais lui apprendre à identifier les ingrédients (perception), à utiliser les techniques de base comme couper ou mélanger (règles structurées), et à vérifier que son plat a bon goût à chaque étape (vérification).

Grâce à cette méthode, leur système a réussi à résoudre 30,8 % des puzzles du test ARC-AGI-2, ce qui est un progrès énorme par rapport aux IA précédentes, et ce sans avoir besoin de s'entraîner des années sur des millions d'exemples. C'est une victoire de la logique structurée sur la simple force brute.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →