TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Il paper introduce TikZilla, una famiglia di modelli linguistici open-source addestrati su un nuovo dataset di alta qualità (DaTikZ-V4) e ottimizzati tramite un processo di apprendimento per rinforzo con segnali di ricompensa visiva, che supera le prestazioni dei modelli più grandi come GPT-4o nella generazione di figure scientifiche TikZ da testo.

Christian Greisinger, Steffen Eger

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎨 Il Problema: Chiedere a un AI di disegnare un diagramma scientifico

Immagina di essere uno scienziato che deve scrivere un articolo. Hai bisogno di un diagramma complesso: un grafico con frecce, cerchi colorati e formule matematiche precise. Invece di disegnarlo a mano (che è noioso) o usare software complicati, vorresti dire a un'intelligenza artificiale: "Ehi, disegnami questo!".

Il problema è che i computer non "disegnano" come noi. Usano un linguaggio speciale chiamato TikZ (una sorta di codice di istruzioni per LaTeX). È come se dovessi dire a un cuoco non "fammi una pizza", ma scrivergli una ricetta chimica esatta con grammi di farina, gradi del forno e secondi di cottura.

Fino a poco tempo fa, le Intelligenze Artificiali (LLM) erano molto brave a scrivere testo, ma quando provavano a scrivere questo codice per i disegni, facevano un disastro:

  • Il codice non funzionava (il "forno" non si accendeva).
  • Il disegno era sbagliato (la pizza era bruciata o aveva la marmellata al posto del pomodoro).
  • L'AI inventava cose che non esistevano (allucinazioni).

🚀 La Soluzione: TikZilla

I ricercatori dell'Università Tecnica di Norimberga hanno creato TikZilla, un nuovo "disegnatore AI" che risolve questi problemi. Ecco come funziona, usando delle metafore semplici:

1. La Biblioteca dei Disegni (Il Dataset DaTikZ-V4)

Immagina di voler insegnare a un bambino a disegnare. Se gli dai solo 10 disegni fatti male, imparerà male.
I ricercatori hanno raccolto oltre 2 milioni di disegni scientifici reali (presi da articoli scientifici su internet, come arXiv e GitHub).

  • Il trucco: Molti di questi disegni avevano descrizioni scritte male o codice rotto. Hanno usato un'altra AI molto potente per "ripulire" il codice rotto (come un meccanico che ripara un motore) e per riscrivere le descrizioni in modo che fossero perfette e dettagliate.
  • Risultato: Hanno creato una "biblioteca" enorme e di alta qualità, molto più grande di quelle usate in passato.

2. L'Allenamento in Due Fasi (SFT + RL)

TikZilla non impara tutto in una volta. Segue un percorso di allenamento in due tappe, come un atleta olimpico:

  • Fase 1: La Scuola di Grammatica (SFT)
    Prima di tutto, l'AI studia la "grammatica" del linguaggio TikZ. Impara le regole, dove mettere le parentesi, come scrivere i colori. È come imparare a scrivere correttamente le parole prima di scrivere un romanzo. In questa fase, l'AI impara a non fare errori di sintassi.

  • Fase 2: Il Giudice Visivo (Reinforcement Learning - RL)
    Qui sta la magia. Dopo aver imparato le regole, l'AI inizia a "provare" a disegnare. Ma come fa a sapere se il disegno è bello?
    Invece di far leggere il codice a un umano (che ci metterebbe ore), hanno creato un "Giudice Visivo" (un Reward Model).

    • L'analogia: Immagina di disegnare un quadro e mostrarlo a un critico d'arte. Il critico non legge le tue note a margine, ma guarda il quadro finito e ti dice: "Bravo, i colori sono giusti!" oppure "No, quella freccia è storta".
    • Questo "Giudice" confronta il disegno generato dall'AI con il disegno originale reale. Se sono simili, l'AI riceve un punto. Se sono diversi, perde punti.
    • L'AI prova migliaia di volte, corregge gli errori basandosi sui punti, e impara a fare disegni che non solo hanno la grammatica giusta, ma che sembrano davvero quello che hai chiesto.

🏆 I Risultati: Chi vince?

Hanno messo alla prova TikZilla contro i giganti del settore, come GPT-4o e il nuovissimo GPT-5.

  • Dimensioni: TikZilla è "piccolo" (ha solo 3 o 8 miliardi di parametri), mentre i giganti sono enormi. È come confrontare un'auto sportiva leggera con un camioncino pesante.
  • Performance: Sorprendentemente, TikZilla ha battuto GPT-4o e ha raggiunto le stesse prestazioni di GPT-5 nel creare disegni scientifici corretti.
  • Affidabilità: Il codice che produce TikZilla funziona quasi sempre al 100% (compilazione), mentre gli altri spesso falliscono.
  • Efficienza: Produce disegni più puliti e con meno "spazzatura" nel codice.

💡 Perché è importante?

Prima, per avere un bel diagramma scientifico, dovevi pagare servizi costosi o avere competenze tecniche elevate. Con TikZilla:

  1. È open-source (gratis e accessibile a tutti).
  2. È piccolo (può girare su computer meno potenti).
  3. È preciso (rispetta la scienza).

In sintesi, i ricercatori hanno costruito un "tutor" che insegna alle AI a leggere le istruzioni scientifiche e a tradurle in immagini perfette, usando una biblioteca gigantesca di esempi e un "giudice" che le corregge visivamente. Il risultato è un assistente che rende la scienza più facile da comunicare a tutti.