TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

🎨 Il Problema: Chiedere a un AI di disegnare un diagramma scientifico

Immagina di essere uno scienziato che deve scrivere un articolo. Hai bisogno di un diagramma complesso: un grafico con frecce, cerchi colorati e formule matematiche precise. Invece di disegnarlo a mano (che è noioso) o usare software complicati, vorresti dire a un'intelligenza artificiale: "Ehi, disegnami questo!".

Il problema è che i computer non "disegnano" come noi. Usano un linguaggio speciale chiamato TikZ (una sorta di codice di istruzioni per LaTeX). È come se dovessi dire a un cuoco non "fammi una pizza", ma scrivergli una ricetta chimica esatta con grammi di farina, gradi del forno e secondi di cottura.

Fino a poco tempo fa, le Intelligenze Artificiali (LLM) erano molto brave a scrivere testo, ma quando provavano a scrivere questo codice per i disegni, facevano un disastro:

Il codice non funzionava (il "forno" non si accendeva).
Il disegno era sbagliato (la pizza era bruciata o aveva la marmellata al posto del pomodoro).
L'AI inventava cose che non esistevano (allucinazioni).

🚀 La Soluzione: TikZilla

I ricercatori dell'Università Tecnica di Norimberga hanno creato TikZilla, un nuovo "disegnatore AI" che risolve questi problemi. Ecco come funziona, usando delle metafore semplici:

1. La Biblioteca dei Disegni (Il Dataset DaTikZ-V4)

Immagina di voler insegnare a un bambino a disegnare. Se gli dai solo 10 disegni fatti male, imparerà male.
I ricercatori hanno raccolto oltre 2 milioni di disegni scientifici reali (presi da articoli scientifici su internet, come arXiv e GitHub).

Il trucco: Molti di questi disegni avevano descrizioni scritte male o codice rotto. Hanno usato un'altra AI molto potente per "ripulire" il codice rotto (come un meccanico che ripara un motore) e per riscrivere le descrizioni in modo che fossero perfette e dettagliate.
Risultato: Hanno creato una "biblioteca" enorme e di alta qualità, molto più grande di quelle usate in passato.

2. L'Allenamento in Due Fasi (SFT + RL)

TikZilla non impara tutto in una volta. Segue un percorso di allenamento in due tappe, come un atleta olimpico:

Fase 1: La Scuola di Grammatica (SFT)
Prima di tutto, l'AI studia la "grammatica" del linguaggio TikZ. Impara le regole, dove mettere le parentesi, come scrivere i colori. È come imparare a scrivere correttamente le parole prima di scrivere un romanzo. In questa fase, l'AI impara a non fare errori di sintassi.
Fase 2: Il Giudice Visivo (Reinforcement Learning - RL)
Qui sta la magia. Dopo aver imparato le regole, l'AI inizia a "provare" a disegnare. Ma come fa a sapere se il disegno è bello?
Invece di far leggere il codice a un umano (che ci metterebbe ore), hanno creato un "Giudice Visivo" (un Reward Model).
- L'analogia: Immagina di disegnare un quadro e mostrarlo a un critico d'arte. Il critico non legge le tue note a margine, ma guarda il quadro finito e ti dice: "Bravo, i colori sono giusti!" oppure "No, quella freccia è storta".
- Questo "Giudice" confronta il disegno generato dall'AI con il disegno originale reale. Se sono simili, l'AI riceve un punto. Se sono diversi, perde punti.
- L'AI prova migliaia di volte, corregge gli errori basandosi sui punti, e impara a fare disegni che non solo hanno la grammatica giusta, ma che sembrano davvero quello che hai chiesto.

🏆 I Risultati: Chi vince?

Hanno messo alla prova TikZilla contro i giganti del settore, come GPT-4o e il nuovissimo GPT-5.

Dimensioni: TikZilla è "piccolo" (ha solo 3 o 8 miliardi di parametri), mentre i giganti sono enormi. È come confrontare un'auto sportiva leggera con un camioncino pesante.
Performance: Sorprendentemente, TikZilla ha battuto GPT-4o e ha raggiunto le stesse prestazioni di GPT-5 nel creare disegni scientifici corretti.
Affidabilità: Il codice che produce TikZilla funziona quasi sempre al 100% (compilazione), mentre gli altri spesso falliscono.
Efficienza: Produce disegni più puliti e con meno "spazzatura" nel codice.

💡 Perché è importante?

Prima, per avere un bel diagramma scientifico, dovevi pagare servizi costosi o avere competenze tecniche elevate. Con TikZilla:

È open-source (gratis e accessibile a tutti).
È piccolo (può girare su computer meno potenti).
È preciso (rispetta la scienza).

In sintesi, i ricercatori hanno costruito un "tutor" che insegna alle AI a leggere le istruzioni scientifiche e a tradurle in immagini perfette, usando una biblioteca gigantesca di esempi e un "giudice" che le corregge visivamente. Il risultato è un assistente che rende la scienza più facile da comunicare a tutti.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'uso dei Large Language Models (LLM) per assistere gli scienziati nella generazione di figure da descrizioni testuali è una sfida crescente. Il linguaggio di programmazione grafica TikZ è lo standard de facto in ambito accademico per la creazione di figure scientifiche all'interno dell'ecosistema LaTeX grazie alla sua precisione e interpretabilità. Tuttavia, esistono due ostacoli principali:

Qualità dei Dati: I dataset esistenti per il compito "Text-to-TikZ" (come DaTikZ-V3) sono troppo piccoli e rumorosi. Le didascalie (caption) originali sono spesso insufficienti per ricostruire fedelmente la figura, mancando di dettagli strutturali, attributi e relazioni spaziali.
Limiti dei Modelli Esistenti: Gli approcci precedenti si basano esclusivamente sul Supervised Fine-Tuning (SFT). Questo metodo non espone il modello alla semantica visiva della figura renderizzata, portando a errori comuni come cicli infiniti, contenuti irrilevanti, relazioni spaziali errate e bassi tassi di compilazione del codice LaTeX.

2. Metodologia

Gli autori propongono un approccio in due fasi che combina la creazione di un dataset su larga scala ad alta qualità con un training avanzato basato sul Reinforcement Learning (RL).

A. Dataset: DaTikZ-V4

È stato costruito un nuovo dataset, DaTikZ-V4, che supera di oltre 4 volte le dimensioni del predecessore (DaTikZ-V3), raggiungendo oltre 2 milioni di campioni unici.

Fonti: Dati raccolti da arXiv (fino a metà 2025), GitHub (oltre 400k campioni estratti da repository .tex/.pgf), TeX StackExchange e dati sintetici.
Pulizia e Debug: È stata implementata una pipeline di filtraggio basata su regole (rimozione di dipendenze esterne, standardizzazione del codice) e un pipeline di debug basata su LLM. Un modello LLM (Qwen-32B) viene utilizzato per correggere automaticamente il codice TikZ che non compila, riparando circa 600.000 istanze.
Descrizioni VLM: Poiché le didascalie originali sono scarse, sono state generate nuove descrizioni testuali precise utilizzando Vision Language Models (VLM), specificamente Qwen2.5-VL-7B-Instruct. Queste descrizioni sono semanticamente ricche e dettagliate, essenziali per la ricostruzione della figura.

B. Architettura del Modello: TikZilla

È stata sviluppata una famiglia di modelli open-source basati su Qwen (varianti da 3B e 8B parametri), denominata TikZilla, addestrata con una pipeline a due stadi:

Supervised Fine-Tuning (SFT): Allineamento sintattico del modello al linguaggio TikZ e alle distribuzioni dei token specifiche del compito.
Reinforcement Learning (RL): Utilizzo dell'algoritmo GRPO (Group Relative Policy Optimization) per ottimizzare la generazione basandosi sul feedback visivo.

C. Modello di Ricompensa (Reward Model)

Il cuore dell'innovazione è il modello di ricompensa specifico per il dominio.

Invece di metriche generiche come CLIPScore o DreamSIM (che spesso falliscono nel catturare le sfumature delle figure scientifiche), gli autori hanno riaddestrato un encoder di immagini (parte di DeTikZify-V2) sul nuovo dataset DaTikZ-V4 per il compito di Inverse Graphics (Immagine $\to$ TikZ).
Questo encoder, mantenuto congelato durante l'RL, genera embedding semantici ricchi.
La ricompensa è calcolata utilizzando la Distanza del Trasportatore di Terra (Earth Mover's Distance - EMD) tra gli embedding dei patch delle immagini ground truth e quelle generate. Questo misura la similarità semantica in modo più accurato rispetto alla semplice similarità coseno.
Viene aggiunta una ricompensa di formato per garantire che il codice LaTeX sia valido (inizi e finisca con gli ambienti corretti).

3. Risultati Chiave

Le valutazioni sono state condotte su un set di test pulito da contaminazione (1.047 campioni) e includono metriche automatiche e valutazioni umane.

Prestazioni Automatiche:
- TikZilla-3B-RL e TikZilla-8B-RL ottengono i punteggi medi (AVG) più alti, superando GPT-5 (0.385 vs 0.365) e GPT-4o.
- Miglioramenti significativi rispetto a modelli precedenti come TikZero-Plus-10B: +0.085 su CLIPScore e +0.334 su DreamSIM.
- Tasso di Compilazione (CR): I modelli RL raggiungono tassi di compilazione del 95-98%, contro il 50-88% dei modelli base o dei competitor.
- Efficienza: I modelli RL generano codice più breve (meno token) e più efficiente, riducendo la ridondanza.
Valutazione Umana:
- Su una scala Likert da 1 a 5, TikZilla supera i modelli base di 1.5-2 punti.
- TikZilla-3B-RL e TikZilla-8B-RL superano GPT-4o di 0.5 punti e eguagliano le prestazioni di GPT-5 nella valutazione basata sull'immagine, pur operando con dimensioni del modello molto inferiori (3B/8B vs modelli proprietari massicci).
Robustezza (Out-of-Distribution):
- Su benchmark OOD come SPIQA (figure da matplotlib, ggplot2, ecc., non native TikZ), TikZilla-3B-RL e TikZilla-8B-RL superano GPT-5, dimostrando una forte capacità di generalizzazione strutturale.

4. Contributi Principali

Analisi della Qualità delle Didascalie: Dimostrazione empirica che le didascalie grezze sono insufficienti per la ricostruzione di figure scientifiche e che le descrizioni generate da VLM sono superiori.
Scalabilità del Dataset: Introduzione di DaTikZ-V4, il dataset più grande e di alta qualità per Text-to-TikZ, raddoppiato rispetto ai precedenti grazie all'uso massiccio di GitHub e arXiv, arricchito da debug LLM e descrizioni VLM.
Pipeline di Debug LLM: Un metodo efficace per riparare automaticamente il codice TikZ non compilabile, aumentando drasticamente la quantità di dati utilizzabili.
Modello di Ricompensa Specifico per Dominio: Il primo reward model per Text-to-TikZ basato su un encoder di immagini riaddestrato su inverse graphics, che cattura meglio la semantica rispetto alle metriche generiche.
Modelli TikZilla: Rilascio di modelli open-source piccoli (3B e 8B) che, grazie alla combinazione di SFT e RL, eguagliano o superano i sistemi commerciali più potenti (GPT-4o, GPT-5) in termini di qualità, compilabilità ed efficienza.

5. Significato e Impatto

Il lavoro dimostra che è possibile costruire sistemi di generazione di immagini scientifiche riproducibili, efficienti e di alta qualità utilizzando modelli open-source di piccole dimensioni, riducendo la dipendenza da costose soluzioni proprietarie.
L'approccio evidenzia l'importanza cruciale della qualità dei dati (descrizioni VLM, codice corretto) e del feedback visivo tramite RL per allineare la generazione sintattica con la semantica visiva. Questo apre la strada a strumenti autonomi per la scienza che possono generare figure pubblicabili direttamente da descrizioni testuali, accelerando il processo di ricerca scientifica.

Limitazioni e Futuro:
L'unico limite significativo è che le descrizioni sono generate automaticamente da VLM, il che potrebbe introdurre allucinazioni o omissioni. Futuri lavori si concentreranno su metodi di annotazione più affidabili e sull'estensione di questo approccio ad altri compiti di generazione strutturata (tabelle LaTeX, CAD, diagrammi di flusso).