TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Ce papier présente TACIT, un nouveau benchmark programmatique pour le raisonnement visuel évaluant les modèles génératifs et discriminatifs via dix tâches dans six domaines, utilisant des vérifications déterministes et des distracteurs structurellement plausibles pour éviter les biais de surface.

Daniel Nobrega Medeiros

Publié 2026-03-03
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de tester l'intelligence d'un robot. Jusqu'à présent, la plupart des tests ressemblaient à un examen de langue : on posait des questions complexes en anglais ou en chinois, accompagnées d'une image, et on demandait au robot de répondre. Le problème ? Si le robot réussissait, on ne savait pas s'il avait vraiment vu et compris l'image, ou s'il avait simplement deviné la réponse en lisant les mots de la question. C'est comme si on testait la capacité d'un pilote d'avion en lui posant des questions sur la météo, sans jamais le faire voler.

Voici l'histoire du Benchmark TACIT, une nouvelle façon de tester les robots, expliquée simplement.

1. Le Problème : Trop de bavardage, pas assez de vision

Les anciens tests étaient comme des énigmes de mots croisés avec des images. Ils mélangeaient la capacité à comprendre le langage avec la capacité à raisonner visuellement. De plus, pour corriger les réponses, on utilisait souvent des humains ou d'autres intelligences artificielles pour dire "c'est bien" ou "c'est mal", ce qui est subjectif (comme un prof qui note un devoir avec un stylo rouge).

2. La Solution TACIT : Le "Test de l'Énigme Silencieuse"

Les créateurs de TACIT ont décidé de créer un test où il n'y a pas de mots.
Imaginez un jeu de société où les règles ne sont écrites nulle part. Tout est dessiné.

  • Pas de texte : Au lieu de lire "Trouve le chemin", le robot voit une image avec un point vert (départ) et un point rouge (arrivée). Il doit juste voir et comprendre le but.
  • Deux façons de jouer : Le test propose deux modes pour chaque énigme :
    1. Le mode "Constructeur" (Génératif) : Le robot doit dessiner lui-même la solution. C'est comme lui demander de construire un pont. S'il rate un seul brique, le pont s'effondre.
    2. Le mode "Choix" (Discriminatif) : Le robot doit choisir la bonne réponse parmi 5 images (une bonne, quatre fausses mais très proches). C'est comme un QCM.

3. Le Juge Infaillible : L'Inspecteur Robotique

C'est ici que ça devient magique. Au lieu d'un humain qui regarde la réponse et dit "ça a l'air bien", TACIT utilise un juge robotique ultra-précis.

  • Si le robot dessine un chemin dans un labyrinthe, le juge robotique vérifie mathématiquement : "Est-ce que le chemin touche le mur ? Est-ce qu'il est connecté ?". Pas d'opinion, pas de doute. C'est soit vrai, soit faux.
  • C'est comme si, au lieu de corriger un dessin à la main, on utilisait un scanner qui vérifie chaque pixel contre les règles du jeu.

4. Les 10 Types d'Énigmes (Les "Salles de Jeu")

Le benchmark propose 10 défis différents, couvrant 6 domaines de la pensée visuelle :

  • Les Labyrinthes (Navigation) : Trouver un chemin à travers plusieurs étages d'immeubles reliés par des portails magiques.
  • Les Motifs Abstraits (Raven) : Compléter une grille où les formes changent selon des règles cachées (comme un puzzle de logique).
  • La Simulation (Automates cellulaires) : Deviner comment une image va évoluer dans le temps, ou inversement, deviner la règle qui a créé l'image finale.
  • La Logique (Grilles) : Remplir une grille comme un Sudoku, mais avec des symboles et des couleurs au lieu de chiffres.
  • Les Graphes (Théorie des réseaux) : Colorier des nœuds reliés entre eux sans que deux voisins aient la même couleur, ou vérifier si deux dessins de réseaux sont identiques.
  • Les Nœuds (Topologie) : Déterminer si un dessin de nœud peut être dénoué pour devenir un simple cercle, ou s'il est vraiment emmêlé.
  • La Géométrie 3D : Voir un objet en 3D et dessiner son ombre (projection), ou l'inverse : voir trois ombres et reconstruire l'objet en 3D.

5. Pourquoi c'est génial ?

  • Pas de triche : Comme il n'y a pas de mots, le robot ne peut pas tricher en utilisant son vocabulaire. Il doit vraiment "voir".
  • Les pièges intelligents : Les mauvaises réponses (les distracteurs) sont conçues pour être très proches de la vraie réponse, mais avec une seule petite erreur structurelle (comme un mur manquant dans un labyrinthe). Cela force le robot à être très attentif aux détails.
  • Répétable à l'infini : Le test est généré par ordinateur de manière mathématique. On peut créer des millions de puzzles identiques pour n'importe qui, n'importe où, et le résultat sera toujours le même.

En résumé

Le Benchmark TACIT, c'est comme passer d'un examen de français avec des images, à un vrai concours de pilotage dans un simulateur de vol silencieux. On ne demande plus au robot de parler de ce qu'il voit, mais de faire ce qu'il voit. Et pour vérifier s'il a réussi, on ne demande pas à un humain de juger, mais on utilise un code informatique inflexible qui dit : "C'est parfait" ou "C'est raté".

C'est un outil pour comprendre si nos intelligences artificielles sont vraiment intelligentes, ou si elles sont juste de très bons lecteurs de livres.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →