TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de tester l'intelligence d'un robot. Jusqu'à présent, la plupart des tests ressemblaient à un examen de langue : on posait des questions complexes en anglais ou en chinois, accompagnées d'une image, et on demandait au robot de répondre. Le problème ? Si le robot réussissait, on ne savait pas s'il avait vraiment vu et compris l'image, ou s'il avait simplement deviné la réponse en lisant les mots de la question. C'est comme si on testait la capacité d'un pilote d'avion en lui posant des questions sur la météo, sans jamais le faire voler.

Voici l'histoire du Benchmark TACIT, une nouvelle façon de tester les robots, expliquée simplement.

1. Le Problème : Trop de bavardage, pas assez de vision

Les anciens tests étaient comme des énigmes de mots croisés avec des images. Ils mélangeaient la capacité à comprendre le langage avec la capacité à raisonner visuellement. De plus, pour corriger les réponses, on utilisait souvent des humains ou d'autres intelligences artificielles pour dire "c'est bien" ou "c'est mal", ce qui est subjectif (comme un prof qui note un devoir avec un stylo rouge).

2. La Solution TACIT : Le "Test de l'Énigme Silencieuse"

Les créateurs de TACIT ont décidé de créer un test où il n'y a pas de mots.
Imaginez un jeu de société où les règles ne sont écrites nulle part. Tout est dessiné.

Pas de texte : Au lieu de lire "Trouve le chemin", le robot voit une image avec un point vert (départ) et un point rouge (arrivée). Il doit juste voir et comprendre le but.
Deux façons de jouer : Le test propose deux modes pour chaque énigme :
1. Le mode "Constructeur" (Génératif) : Le robot doit dessiner lui-même la solution. C'est comme lui demander de construire un pont. S'il rate un seul brique, le pont s'effondre.
2. Le mode "Choix" (Discriminatif) : Le robot doit choisir la bonne réponse parmi 5 images (une bonne, quatre fausses mais très proches). C'est comme un QCM.

3. Le Juge Infaillible : L'Inspecteur Robotique

C'est ici que ça devient magique. Au lieu d'un humain qui regarde la réponse et dit "ça a l'air bien", TACIT utilise un juge robotique ultra-précis.

Si le robot dessine un chemin dans un labyrinthe, le juge robotique vérifie mathématiquement : "Est-ce que le chemin touche le mur ? Est-ce qu'il est connecté ?". Pas d'opinion, pas de doute. C'est soit vrai, soit faux.
C'est comme si, au lieu de corriger un dessin à la main, on utilisait un scanner qui vérifie chaque pixel contre les règles du jeu.

4. Les 10 Types d'Énigmes (Les "Salles de Jeu")

Le benchmark propose 10 défis différents, couvrant 6 domaines de la pensée visuelle :

Les Labyrinthes (Navigation) : Trouver un chemin à travers plusieurs étages d'immeubles reliés par des portails magiques.
Les Motifs Abstraits (Raven) : Compléter une grille où les formes changent selon des règles cachées (comme un puzzle de logique).
La Simulation (Automates cellulaires) : Deviner comment une image va évoluer dans le temps, ou inversement, deviner la règle qui a créé l'image finale.
La Logique (Grilles) : Remplir une grille comme un Sudoku, mais avec des symboles et des couleurs au lieu de chiffres.
Les Graphes (Théorie des réseaux) : Colorier des nœuds reliés entre eux sans que deux voisins aient la même couleur, ou vérifier si deux dessins de réseaux sont identiques.
Les Nœuds (Topologie) : Déterminer si un dessin de nœud peut être dénoué pour devenir un simple cercle, ou s'il est vraiment emmêlé.
La Géométrie 3D : Voir un objet en 3D et dessiner son ombre (projection), ou l'inverse : voir trois ombres et reconstruire l'objet en 3D.

5. Pourquoi c'est génial ?

Pas de triche : Comme il n'y a pas de mots, le robot ne peut pas tricher en utilisant son vocabulaire. Il doit vraiment "voir".
Les pièges intelligents : Les mauvaises réponses (les distracteurs) sont conçues pour être très proches de la vraie réponse, mais avec une seule petite erreur structurelle (comme un mur manquant dans un labyrinthe). Cela force le robot à être très attentif aux détails.
Répétable à l'infini : Le test est généré par ordinateur de manière mathématique. On peut créer des millions de puzzles identiques pour n'importe qui, n'importe où, et le résultat sera toujours le même.

En résumé

Le Benchmark TACIT, c'est comme passer d'un examen de français avec des images, à un vrai concours de pilotage dans un simulateur de vol silencieux. On ne demande plus au robot de parler de ce qu'il voit, mais de faire ce qu'il voit. Et pour vérifier s'il a réussi, on ne demande pas à un humain de juger, mais on utilise un code informatique inflexible qui dit : "C'est parfait" ou "C'est raté".

C'est un outil pour comprendre si nos intelligences artificielles sont vraiment intelligentes, ou si elles sont juste de très bons lecteurs de livres.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les benchmarks existants pour le raisonnement visuel souffrent de trois limitations majeures qui entravent l'évaluation précise des capacités cognitives des modèles multimodaux :

Dépendance au langage : La plupart des tâches utilisent des prompts en langage naturel, ce qui confond la compétence linguistique du modèle avec sa capacité de raisonnement visuel pur.
Évaluation subjective ou restrictive : Les méthodes d'évaluation reposent souvent sur des juges humains ou des LLM (LLM-as-judge), introduisant du bruit et un manque de reproductibilité. De plus, les approches purement discriminatives (choix multiples) ne distinguent pas la véritable construction de solutions d'une simple devinette éclairée.
Portée limitée : Les benchmarks actuels se concentrent souvent sur un seul domaine de raisonnement (ex: analogies abstraites) ou ne proposent pas de suivi de l'évaluation générative.

Il existe donc un besoin urgent d'instruments d'évaluation qui isolent le raisonnement visuel, offrent une vérification déterministe et couvrent une diversité de domaines cognitifs.

2. Méthodologie et Conception

Le benchmark TACIT (version 0.1.0) répond à ces défis par une approche programmatique et déterministe, reposant sur cinq principes de conception clés :

A. Minimisation du Langage

Toutes les instructions sont encodées visuellement (mise en page, codage couleur, conventions géométriques). Le texte est limité aux étiquettes d'axes et aux légendes, garantissant que la performance reflète le raisonnement visuel et non la compréhension linguistique.

B. Architecture d'Évaluation à Double Voie (Dual-Track)

Chaque énigme est évaluée selon deux pistes distinctes sur les mêmes stimuli :

Piste Générative : Le modèle doit produire une image de solution. La réponse est vérifiée par un pipeline de vision par ordinateur (CV) spécifique à la tâche, sans intervention humaine.
Piste Discriminative : Le modèle doit sélectionner la bonne solution parmi cinq candidats (1 correcte + 4 leurres).

Objectif : Mesurer l'écart entre la capacité à construire une solution et la capacité à la reconnaître.

C. Vérification Déterministe

Aucun juge humain ou LLM n'est utilisé. La validation repose sur des pipelines CV :

Parcours de graphe (BFS) pour les labyrinthes.
Comparaison pixel par pixel ou échantillonnage pour les automates cellulaires et les grilles logiques.
Indice de similarité structurelle (SSIM) avec des seuils très stricts (≥ 0,997 ou ≥ 0,99999) pour les matrices de Raven et les reconstructions isométriques.
Comptage de couleurs pour les tâches de classification binaire.

D. Système de Leurres "Presque-Ratés" (Near-Miss)

Chaque tâche inclut quatre leurres générés de manière algorithmique. Chaque leurre viole exactement une contrainte structurelle de la solution correcte. Cela empêche les modèles d'utiliser des indices superficiels et force un raisonnement fin sur les différences structurelles.

E. Génération Procédurale

Les énigmes sont générées à partir de dessins SVG, puis rasterisées en PNG à trois résolutions (512, 1024, 2048 px). L'ensemble du processus utilise une graine (seed) déterministe, assurant une reproductibilité parfaite.

3. Contributions Clés

Le benchmark se compose de 10 tâches réparties sur 6 domaines de raisonnement :

Raisonnement Spatial : Navigation dans des labyrinthes multi-couches avec portails.
Raisonnement Abstrait : Matrices de Raven (complétion de motifs géométriques).
Simulation Causale : Automates cellulaires (prédiction vers l'avant et inférence inverse des règles).
Satisfaction de Contraintes Logiques : Grilles logiques visuelles (carrés latins sans texte).
Théorie des Graphes : Coloration de graphes ( $k$ -coloring) et détection d'isomorphisme.
Topologie : Détection de nœuds triviaux (unknot) vs non triviaux.
Projection Géométrique : Projection orthographique et reconstruction isométrique (paires avant/inverse).

Statistiques du Dataset (v0.1.0) :

6 000 énigmes au total.
108 000 images PNG générées (3 résolutions).
Difficulté paramétrable (taille de grille, complexité des règles, nombre de nœuds, etc.).
Licence Apache 2.0 sur HuggingFace.

4. Résultats et Évaluation

Note : Le papier présente le benchmark et sa méthodologie, mais ne rapporte pas encore les résultats de performance des modèles (baselines).

L'architecture d'évaluation est entièrement fonctionnelle.
Le système de vérification CV garantit que les scores sont objectifs et reproductibles.
La conception permet de quantifier le "fossé constructif-sélectif" : un modèle peut réussir la tâche discriminative (reconnaître la bonne réponse) mais échouer à la tâche générative (produire la solution), révélant ainsi des limites dans sa capacité de raisonnement profond.

5. Signification et Impact

Le benchmark TACIT représente une avancée significative pour la communauté de l'IA pour plusieurs raisons :

Isolement des Capacités Visuelles : En éliminant le langage naturel des instructions, il permet d'évaluer le "cœur" du raisonnement visuel des modèles fondationnels, indépendamment de leur compétence linguistique.
Reproductibilité Scientifique : L'approche déterministe et l'absence de juges subjectifs éliminent les variations de scoring, permettant des comparaisons équitables entre modèles.
Diagnostic Profond : La double voie (générative/discriminative) offre un outil diagnostique puissant pour comprendre si un modèle "comprend" vraiment la structure d'un problème ou s'il se contente de reconnaître des motifs.
Extensibilité : L'architecture modulaire permet d'ajouter facilement de nouvelles tâches et domaines de raisonnement sans modifier l'infrastructure d'évaluation.

En conclusion, TACIT établit un nouvel étalon-or pour l'évaluation des capacités de raisonnement visuel, passant d'une évaluation basée sur le langage et subjective à une évaluation programmatique, objective et multidimensionnelle.