TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Wissenschaftler und musst einen komplexen Bericht schreiben. In diesem Bericht brauchst du oft Diagramme: Flusscharts, Graphen oder chemische Reaktionswege. Früher hast du diese Bilder mühsam mit der Hand gezeichnet oder komplizierte Software bedient.

Heute gibt es KI-Modelle (wie ChatGPT), die dir helfen können. Du sagst ihnen: „Zeichne mir ein Diagramm, das zeigt, wie Wasser durch eine Leitung fließt", und die KI soll das Bild für dich erstellen.

Das Problem ist: Die KI versteht oft nicht genau, wie man ein solches Bild programmiert. Sie versucht, Code zu schreiben, der wie eine Anleitung für einen Maler aussieht (diese Sprache heißt TikZ). Aber oft scheitert die KI. Sie vergisst Linien, setzt Texte an die falsche Stelle oder schreibt so viel Unsinn, dass das Bild gar nicht erst entsteht. Es ist, als würde ein Koch versuchen, ein Rezept zu schreiben, aber er verwechselt Salz mit Zucker und vergisst, den Ofen einzuschalten.

Hier kommt TikZilla ins Spiel. Das ist ein neues, kleines KI-Modell, das von Forschern an der Technischen Universität Nürnberg entwickelt wurde. Es ist wie ein Meisterkoch, der speziell dafür trainiert wurde, perfekte Kochrezepte (also TikZ-Code) zu schreiben.

Hier ist die Geschichte, wie sie das geschafft haben, einfach erklärt:

1. Das Problem mit den alten Kochbüchern (Daten)

Früher haben die Forscher versucht, die KI mit alten Kochbüchern zu trainieren. Diese Bücher (die alten Datensätze) waren aber voller Fehler:

Die Beschreibungen waren zu kurz oder ungenau („Mach ein Bild von etwas").
Viele Rezepte (der Code) ließen sich gar nicht kochen (sie waren fehlerhaft).
Die KI war verwirrt und produzierte nur Chaos.

2. Die Lösung: Ein riesiges, neues Kochbuch (DaTikZ-V4)

Die Forscher haben sich hingesetzt und ein riesiges, neues Kochbuch (den Datensatz DaTikZ-V4) zusammengestellt.

Größe: Es ist viermal so groß wie alles, was es vorher gab. Sie haben Millionen von Rezepten aus wissenschaftlichen Papers, GitHub und sogar künstlich generierten Beispielen gesammelt.
Qualität: Sie haben einen „KI-Korrektor" eingesetzt, der alle fehlerhaften Rezepte repariert hat. Wenn ein Rezept nicht funktionierte, hat die KI es so lange umgeschrieben, bis es perfekt kochbar war.
Beschreibungen: Statt nur zu sagen „Zeichne ein Diagramm", haben sie eine andere KI (ein VLM) gebeten, das Bild extrem genau zu beschreiben. Nicht nur „ein roter Kreis", sondern „ein roter Kreis an Position X mit einem blauen Pfeil, der nach rechts zeigt".

3. Der zweistufige Trainingsprozess

Mit diesem neuen Buch haben sie TikZilla in zwei Schritten trainiert:

Schritt 1: Der Lehrling (SFT)
Zuerst hat TikZilla einfach nur die neuen, perfekten Rezepte auswendig gelernt. Es hat gelernt, wie man die Sprache TikZ grammatikalisch korrekt benutzt. Es war jetzt ein guter Lehrling, der weiß, welche Zutaten (Befehle) man in welcher Reihenfolge braucht. Aber es wusste noch nicht, ob das Bild am Ende auch schön aussieht.

Schritt 2: Der Feinschmecker (Reinforcement Learning)
Hier wird es spannend. TikZilla hat jetzt angefangen, eigene Bilder zu zeichnen. Aber wie weiß man, ob das Bild gut ist?
Die Forscher haben einen KI-Gourmet (einen speziellen Bild-Encoder) gebaut. Dieser Gourmet sieht das von TikZilla gezeichnete Bild und vergleicht es mit dem Original.

Wenn das Bild gut aussieht, gibt der Gourmet eine positive Bewertung (eine Belohnung).
Wenn das Bild schief ist oder Linien fehlen, gibt es eine negative Bewertung.

TikZilla hat tausende Male geübt, dabei immer wieder die Bewertung des Gourmets bekommen und sich verbessert. Es hat gelernt: „Aha, wenn ich den Pfeil hier hinmache, schmeckt es besser!" Das nennt man Verstärkungslernen (Reinforcement Learning).

4. Das Ergebnis: Ein kleiner Riese

Das Tolle an TikZilla ist seine Größe. Es ist ein kleines Modell (nur 3 Milliarden oder 8 Milliarden Parameter), während die großen Konkurrenten (wie GPT-4o oder GPT-5) riesige, teure Supercomputer sind.

Trotz seiner geringen Größe hat TikZilla in Tests besser abgeschnitten als die riesigen Modelle:

Es macht weniger Fehler.
Die Bilder sehen genauer aus.
Es braucht weniger Rechenleistung (ist also günstiger und schneller).

Zusammenfassung mit einer Metapher

Stell dir vor, die alten KI-Modelle waren wie Autos ohne Lenkrad: Sie konnten fahren, aber sie steuerten nicht richtig und fuhren oft gegen die Wand.

TikZilla ist wie ein kleiner, sportlicher Rennwagen mit einem genialen Navigator.

Der Navigator (der neue Datensatz) hat dem Fahrer alle perfekten Streckenkarten gezeigt.
Der Fahrer (das Modell) hat gelernt, wie man das Auto bedient.
Ein Trainer (der Reward-Model) hat dem Fahrer bei jeder Kurve gesagt: „Besser! So! Nein, zu scharf!"

Am Ende fährt dieser kleine Rennwagen schneller und sicherer als die riesigen, schweren LKWs (die großen KI-Modelle), die nur schwer zu lenken sind.

Warum ist das wichtig?
Wissenschaftler können jetzt kostenlos und schnell perfekte Diagramme für ihre Papers erstellen, ohne stundenlang Code schreiben zu müssen. Und das Beste: Die Forscher machen alles offen verfügbar, damit jeder davon profitieren kann.

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

1. Das Problem mit den alten Kochbüchern (Daten)

2. Die Lösung: Ein riesiges, neues Kochbuch (DaTikZ-V4)

3. Der zweistufige Trainingsprozess

4. Das Ergebnis: Ein kleiner Riese

Zusammenfassung mit einer Metapher

1. Problemstellung

2. Methodik

A. Datensatz: DaTikZ-V4

B. Trainings-Pipeline: SFT + RL

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

1. Das Problem mit den alten Kochbüchern (Daten)

2. Die Lösung: Ein riesiges, neues Kochbuch (DaTikZ-V4)

3. Der zweistufige Trainingsprozess

4. Das Ergebnis: Ein kleiner Riese

Zusammenfassung mit einer Metapher

1. Problemstellung

2. Methodik

A. Datensatz: DaTikZ-V4

B. Trainings-Pipeline: SFT + RL

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing