TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest herausfinden, ob ein neuer, super-intelligenter Roboter wirklich sehen und verstehen kann – oder ob er nur gut darin ist, Rätselraten und Wörter zu kombinieren.

Bisherige Tests für KI-Modelle waren oft wie ein Quiz, bei dem die KI eine Frage auf Deutsch oder Englisch lesen und dann eine Antwort auswählen musste. Das Problem dabei: Die KI konnte die Antwort oft erraten, indem sie einfach ihre riesige Datenbank mit Wörtern durchsuchte, ohne wirklich zu verstehen, was auf dem Bild passiert.

Der TACIT-Benchmark (eine neue Studie von Daniel Nobrega Medeiros) ist wie ein neuartiges, sprachloses Spiel, das genau das herausfinden soll. Hier ist die Erklärung, wie es funktioniert, mit ein paar einfachen Bildern im Kopf:

1. Das "Stumme" Spiel (Sprachminimierung)

Stell dir vor, du bekommst ein Rätsel, bei dem du nicht lesen darfst. Es gibt keine Texte wie "Finde den Weg" oder "Welche Form passt?". Stattdessen siehst du nur Bilder:

Ein Labyrinth mit grünen und roten Punkten.
Ein Muster aus Formen, bei dem ein Teil fehlt.
Ein 3D-Objekt, das du von oben betrachten musst.

Die KI muss die Regeln nur durch das Ansehen der Bilder verstehen. Das ist wie bei einem Kind, das lernt, wie ein Spiel funktioniert, indem es einfach zuschaut, ohne dass jemand ihm die Regeln vorliest. Wenn die KI das löst, weiß man: Sie hat wirklich gesehen, nicht nur gelesen.

2. Zwei Arten, das Spiel zu spielen (Dual-Track)

Das Besondere an TACIT ist, dass man die KI auf zwei verschiedene Arten testet, wie ein Lehrer, der seine Schüler prüft:

Der "Zeichner"-Test (Generativ): Die KI bekommt das Rätsel und muss selbst das Lösungsbild malen. Sie muss den Weg durch das Labyrinth zeichnen oder das fehlende Puzzleteil erstellen.
- Warum ist das schwer? Das ist wie wenn man jemanden bittet, ein neues Rezept zu kochen. Es reicht nicht zu wissen, wie ein Kuchen aussieht; man muss ihn tatsächlich backen können.
Der "Multiple-Choice"-Test (Diskriminativ): Die KI bekommt das Rätsel und fünf mögliche Lösungen. Eine ist richtig, vier sind fast richtig, aber mit einem kleinen Fehler. Sie muss die richtige auswählen.
- Warum ist das wichtig? Viele KIs sind gut darin, die richtige Antwort aus einer Liste zu picken (wie bei einem Quiz). Aber können sie die Antwort auch selbst erschaffen? Der Benchmark vergleicht diese beiden Fähigkeiten. Wenn die KI beim "Zeichnen" scheitert, aber beim "Auswählen" gewinnt, weiß man: Sie erkennt Muster, kann aber nicht kreativ lösen.

3. Der unbestechliche Schiedsrichter (Deterministische Prüfung)

Bei normalen Tests bewertet oft ein Mensch oder eine andere KI (ein "Richter"), ob die Lösung gut aussieht. Das ist subjektiv – "Ich finde das Bild fast richtig".

Beim TACIT-Benchmark gibt es keinen Richter. Stattdessen gibt es einen strengen Computer-Algorithmus (einen "Roboter-Schiedsrichter").

Wenn die KI einen Weg durch ein Labyrinth zeichnet, prüft der Computer exakt: "Geht der blaue Strich durch eine Wand? Ist er unterbrochen?"
Es gibt kein "Vielleicht". Die Lösung ist entweder perfekt strukturell korrekt oder falsch. Das ist wie bei einem Mathematiktest: 2+2 ist entweder 4 oder es ist nicht 4.

4. Die "Fast-Richtigen" Fallen (Distraktoren)

In der Multiple-Choice-Runde gibt es vier falsche Antworten. Aber diese sind keine offensichtlichen Unsinn-Bilder. Sie sind Fallen, die genau einen kleinen Fehler haben.

Beispiel: Bei einem Labyrinth ist der Weg fast perfekt, aber an einer Stelle führt er durch eine Mauer.
Die KI muss also nicht nur "gucken", sondern genau hinsehen und verstehen, warum dieser eine kleine Fehler das ganze Bild ungültig macht. Das zwingt sie, tief zu denken, statt nur oberflächliche Muster zu erkennen.

6 verschiedene Welten des Denkens

Das Spiel deckt sechs verschiedene Arten des Denkens ab, wie verschiedene Fächer in der Schule:

Navigation: Wie ein Labyrinth durchqueren (Räumliches Denken).
Muster: Wie ein fehlendes Puzzleteil finden (Abstraktes Denken).
Ursache und Wirkung: Wie sich ein Muster über Zeit verändert (Kausales Denken).
Logik: Wie man Regeln befolgt, ohne zu widersprechen (Logisches Denken).
Netzwerke: Wie man Knotenpunkte verbindet, ohne dass sie sich berühren (Graph-Theorie).
Formen: Wie man Knoten entwirrt oder 3D-Objekte in 2D abbildet (Topologie/Geometrie).

Warum ist das wichtig?

Bisher haben wir oft gedacht, KI sei "intelligent", weil sie Quizfragen richtig beantwortet. Der TACIT-Benchmark sagt: "Warte mal, können sie das auch erschaffen?"

Es ist der Unterschied zwischen jemandem, der ein Auto fahren kann, und jemandem, der nur weiß, wie ein Auto aussieht. Mit diesem neuen Test können Forscher endlich sehen, welche KI wirklich versteht, wie die Welt (oder zumindest die Welt der Bilder) funktioniert, und welche nur gut im Auswendiglernen ist.

Kurz gesagt: TACIT ist ein riesiges, sprachloses Rätsel-Spiel für Roboter, bei dem sie nicht nur auswählen, sondern selbst malen müssen – und dabei von einem unbestechlichen Computer geprüft werden, der keine Fehler durchwinkt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Bestehende Benchmarks für visuelles Reasoning (Schlussfolgern) weisen erhebliche Mängel auf, die die Bewertung multimodaler KI-Modelle verzerren:

Sprachabhängigkeit: Viele Aufgaben sind in natürlicher Sprache verpackt, wodurch linguistische Kompetenz mit visuellem Reasoning vermischt wird.
Eingeschränkte Modalitäten: Die meisten Benchmarks testen nur einen spezifischen Reasoning-Typ (z. B. abstrakte Analogien) oder beschränken sich auf diskriminative Aufgaben (Multiple Choice).
Subjektive Bewertung: Die Auswertung erfolgt oft durch menschliche Annotatoren oder „LLM-as-a-Judge", was zu mangelnder Reproduzierbarkeit und Variabilität führt.
Fehlende Generative Bewertung: Es gibt kaum Instrumente, um zu prüfen, ob Modelle Lösungen tatsächlich konstruieren können, anstatt sie nur aus einer Auswahl zu erkennen.

Das Ziel des TACIT-Benchmarks ist es, diese Lücken zu schließen, indem ein rein visuelles, deterministisch verifizierbares und dual-track-fähiges Evaluierungssystem geschaffen wird.

2. Methodik und Design

Der Benchmark basiert auf fünf zentralen Designprinzipien:

A. Sprachminimale Aufgabenstellung (Language Minimality)

Alle Anweisungen werden rein visuell durch Layout, Farbcodierung und geometrische Konventionen übermittelt. Text ist auf Achsenbeschriftungen, Legenden und numerische Indizes beschränkt. Dies isoliert das visuelle Reasoning von der Sprachverständlichkeit.

B. Dual-Track-Evaluierung

Jede Aufgabe wird in zwei Tracks bewertet:

Generativer Track: Das Modell muss eine Lösungs-Bilddatei (PNG) erzeugen. Die Lösung wird durch einen deterministischen Computer-Vision (CV)-Pipeline verifiziert, ohne dass ein menschlicher Prüfer involviert ist.
Diskriminativer Track: Das Modell wählt aus fünf Kandidatenbildern (eine korrekte Lösung, vier Distraktoren) die richtige aus.

Diagnostischer Wert: Ein Vergleich der Ergebnisse beider Tracks zeigt, ob ein Modell Lösungen konstruieren kann oder sie nur wiedererkennen kann.

C. Deterministische Verifizierung

Jede generierte Antwort wird durch aufgabenspezifische CV-Pipelines geprüft (z. B. BFS-Pfadvalidierung für Labyrinthe, Pixel-abgleich für Zelluläre Automaten, SSIM für Muster). Es gibt keine subjektive Bewertung; die Antwort ist entweder strukturell korrekt oder falsch.

D. Parametrisierte Schwierigkeit

Die Schwierigkeit wird durch kontrollierte Achsen gesteuert (z. B. Rastergröße, Anzahl der Schichten, Komplexität der Regeln), was eine feinkörnige Analyse des Modellverhaltens ermöglicht.

E. Distraktoren mit „Near-Miss"-Charakter

Für den diskriminativen Track werden vier Distraktoren generiert, die jeweils genau eine strukturelle Einschränkung der korrekten Lösung verletzen. Dies verhindert, dass Modelle durch oberflächliches Muster-Matching falsch-positive Ergebnisse erzielen, und zwingt sie zu feinkörnigem visuellem Reasoning.

3. Benchmark-Struktur und Aufgaben

Der Benchmark umfasst 10 Aufgaben in 6 Reasoning-Domänen:

Räumliches Reasoning:
- Multi-Layer Mazes: Navigation durch mehrschichtige Labyrinthe mit Portalen. Verifizierung via BFS-Pfadanalyse.
Abstrakte Muster:
- Raven's Progressive Matrices: 3x3-Gitter mit fehlendem Teil. Verifizierung via SSIM (Structural Similarity Index) ≥ 0,997.
Kausale Simulation:
- CA Forward: Vorhersage des Zustands eines zellulären Automaten nach $k$ Schritten.
- CA Inverse: Inferenz der Übergangsregeln aus Start- und Endzustand (inverse Problematik).
Logische Constraint-Satisfaction:
- Visual Logic Grids: Lösen von lateinischen Quadraten basierend auf visuellen Constraints (Pfeile, Ausschlüsse).
Graphentheorie:
- Graph k-Coloring: Färben von Knoten mit $k$ Farben ohne Nachbarschaftskonflikte.
- Graph Isomorphismus: Binäre Klassifikation, ob zwei Graphen strukturell isomorph sind.
Topologie:
- Unknot Detection: Unterscheidung zwischen einem trivialen Knoten (Unknot) und nicht-trivialen Knoten basierend auf Kreuzungsindikatoren.
Geometrische Projektion:
- Orthographic Projection: Erzeugung einer 2D-Silhouette aus einer 3D-Voxel-Struktur.
- Isometric Reconstruction: Rekonstruktion der 3D-Struktur aus drei orthografischen Ansichten (Inverse der vorherigen Aufgabe).

4. Datensatz und Verteilung (Version 0.1.0)

Umfang: 6.000 Puzzles (10 Aufgaben × 3 Schwierigkeitsgrade × 200 Puzzles).
Bilder: Insgesamt 108.000 PNG-Dateien in drei Auflösungen (512, 1024, 2048 Pixel).
Generierung: Vollständig deterministisch durch einen Seed (Standard: 42) und NumPy's default_rng.
Format: Die Bilder werden aus SVG-Quellen rasterisiert, um eine verlustfreie „Ground Truth" zu gewährleisten.
Verfügbarkeit: Open Source (Apache 2.0) auf HuggingFace (DOI: 10.57967/hf/7904).

5. Ergebnisse und Evaluation

Da das Papier die Einführung des Benchmarks darstellt, werden keine spezifischen Modell-Performance-Ergebnisse (Baselines) berichtet. Der Fokus liegt auf der Validierung des Evaluierungsrahmens:

Die Verifizierungspipelines wurden implementiert und funktionieren deterministisch.
Die Architektur ermöglicht die Messung der Lücke zwischen konstruktivem (generativem) und selektivem (diskriminativem) Reasoning.
Die Reproduzierbarkeit ist durch den deterministischen Generierungsprozess gewährleistet.

6. Bedeutung und Beitrag

Der TACIT-Benchmark leistet einen wesentlichen Beitrag zur KI-Forschung:

Isolierung visueller Fähigkeiten: Durch den Verzicht auf komplexe Sprachanweisungen wird das visuelle Reasoning von der Sprachkompetenz entkoppelt.
Objektivität: Die Eliminierung menschlicher oder LLM-basierter Richter durch CV-basierte Verifizierung schafft einen neuen Standard für reproduzierbare Evaluierung.
Diagnostische Tiefe: Der Dual-Track-Ansatz erlaubt es Forschern, zu unterscheiden, ob Modelle „verstehen" (konstruieren können) oder nur „erkennen" (Multiple Choice lösen können).
Erweiterbarkeit: Das modulare Generator-Design erlaubt die einfache Hinzufügung neuer Aufgaben und Domänen.
Ressource für die Community: Die Bereitstellung von Code, Daten und Evaluierungs-Harness unter einer offenen Lizenz fördert die Vergleichbarkeit von State-of-the-Art-Modellen.

Zusammenfassend stellt TACIT einen Paradigmenwechsel dar: weg von sprachlastigen, subjektiv bewerteten Benchmarks hin zu einem rein visuellen, programmatisch generierten und deterministisch verifizierten Standard für das Testen fundamentaler visueller Intelligenz in KI-Systemen.