COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Each language version is independently generated for its own context, not a direct translation.

🧩 COGITAO : Le "Terrain de Jeu" pour tester l'intelligence artificielle

Imaginez que vous apprenez à un enfant à cuisiner. Vous lui montrez comment couper une carotte (transformation 1) et comment éplucher une pomme (transformation 2).
Si l'enfant est vraiment intelligent, il devrait pouvoir, sans que vous ayez besoin de lui montrer, couper une pomme ou éplucher une carotte. Il a compris les règles de base et sait les combiner.

C'est ce qu'on appelle la généralisation compositionnelle. C'est la capacité de prendre des idées simples apprises séparément et de les assembler pour résoudre de nouveaux problèmes.

Les humains font cela naturellement. Les intelligences artificielles (IA), même les plus avancées, ont encore beaucoup de mal. Elles ont tendance à "mémoriser" les recettes plutôt qu'à comprendre la logique de la cuisine.

Pour prouver ce problème, les chercheurs ont créé COGITAO.

🎮 C'est quoi COGITAO ?

COGITAO est comme un jeu vidéo de logique ultra-simplifié, un peu comme un puzzle sur une grille (un tableau de cases).

Le décor : Des grilles avec des objets colorés (des carrés, des formes bizarres).
Les règles : Il existe 28 "super-pouvoirs" simples que l'on peut appliquer aux objets : les déplacer, les tourner, les copier, changer leur couleur, etc.
Le but : L'IA reçoit une grille de départ et une liste de super-pouvoirs à appliquer dans un ordre précis. Elle doit deviner à quoi ressemblera la grille finale.

La grande astuce de COGITAO :
Les chercheurs peuvent créer des millions de niveaux différents en mélangeant ces 28 super-pouvoirs.

Ils entraînent l'IA sur des niveaux simples (ex: "déplacer vers le haut").
Ensuite, ils la testent sur des niveaux qu'elle n'a jamais vus, mais qui utilisent les mêmes super-pouvoirs (ex: "déplacer vers le haut ET tourner").

C'est comme si on entraînait un chien à donner la patte, puis on lui demandait de donner la patte en sautant. S'il comprend le concept de "donner la patte", il devrait réussir.

🤖 Ce que les chercheurs ont découvert

Ils ont pris les IA les plus modernes et les plus intelligentes (les modèles qui écrivent des textes, voient des images, etc.) et les ont mises au défi sur COGITAO.

Le résultat est surprenant et un peu décevant :
Même si ces IA sont brillantes dans leur domaine habituel, elles échouent lamentablement sur COGITAO quand il s'agit de combiner des règles nouvelles.

L'IA "têtue" : Si l'IA a appris à déplacer un objet vers la droite pendant l'entraînement, et qu'on lui demande de le déplacer vers la gauche (une règle qu'elle connaît mais dans un contexte nouveau), elle continue souvent de le déplacer vers la droite par habitude. Elle ne "pense" pas vraiment, elle suit des motifs appris.
Le problème de la profondeur : Si on lui demande d'appliquer une séquence de 3 actions au lieu de 2, elle s'embrouille complètement. Elle ne parvient pas à décomposer le problème en petites étapes logiques.

🔍 Pourquoi est-ce important ?

Imaginez que vous voulez créer un robot pour aider dans une maison ou une usine.

Si le robot apprend à ranger une tasse, il devrait pouvoir ranger une assise, puis ranger une tasse ET une assise ensemble.
Si le robot ne fait que "mémoriser" des situations précises, il sera perdu dès qu'il rencontrera une situation légèrement différente.

COGITAO nous dit : "Arrêtez de croire que plus on donne de données à l'IA, plus elle deviendra intelligente."
Ces modèles actuels sont comme des perroquets très savants : ils répètent ce qu'ils ont entendu, mais ils ne comprennent pas vraiment la structure de la pensée.

🚀 La solution ?

Les chercheurs pensent qu'il faut changer la façon dont on construit les IA. Au lieu de simplement leur montrer des millions d'exemples, il faut leur donner des "briques de construction" logiques, un peu comme on apprend à un enfant à assembler des Lego.

COGITAO est donc un outil de diagnostic. Il permet de voir exactement où l'IA bloque : est-ce qu'elle ne comprend pas les objets ? Est-ce qu'elle ne comprend pas l'ordre des actions ? Est-ce qu'elle ne sait pas combiner les deux ?

En résumé

Le problème : Les IA actuelles sont mauvaises pour combiner des règles simples pour résoudre de nouveaux problèmes.
L'outil : COGITAO est un générateur de puzzles infinis pour tester cette capacité.
La leçon : Pour avoir une vraie intelligence (comme celle des humains), il ne suffit pas d'avoir beaucoup de données. Il faut une architecture capable de "penser" par composition, pas juste par mémorisation.

C'est un appel à construire des IA qui ne se contentent pas de "regarder" le monde, mais qui comprennent comment les pièces du puzzle s'assemblent.

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

🧩 COGITAO : Le "Terrain de Jeu" pour tester l'intelligence artificielle

🎮 C'est quoi COGITAO ?

🤖 Ce que les chercheurs ont découvert

🔍 Pourquoi est-ce important ?

🚀 La solution ?

En résumé

1. Problématique

2. Méthodologie : Le Framework COGITAO

Principes de base

Protocole d'évaluation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

🧩 COGITAO : Le "Terrain de Jeu" pour tester l'intelligence artificielle

🎮 C'est quoi COGITAO ?

🤖 Ce que les chercheurs ont découvert

🔍 Pourquoi est-ce important ?

🚀 La solution ?

En résumé

1. Problématique

2. Méthodologie : Le Framework COGITAO

Principes de base

Protocole d'évaluation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks