TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le "Langage des Dessins Scientifiques"

Imaginez que vous êtes un scientifique. Vous avez une idée brillante pour un graphique ou un schéma (par exemple, un diagramme montrant comment une maladie se propage). Vous voulez le dessiner pour votre article, mais vous ne savez pas utiliser les outils de dessin classiques comme PowerPoint, car ils ne sont pas assez précis pour la science.

À la place, les scientifiques utilisent un langage spécial appelé TikZ. C'est un peu comme un code informatique qui dit à l'ordinateur : "Dessine un cercle bleu ici, relie-le à un carré rouge là-bas, et écris 'Résultat' en dessous."

Le problème ?
Écrire ce code à la main est très difficile. C'est comme essayer d'écrire un roman en apprenant d'abord l'alphabet. De plus, les intelligences artificielles (les "robots" qui écrivent du texte) ont du mal à le faire. Quand on leur demande de dessiner un schéma scientifique, elles font souvent des erreurs :

Elles oublient des pièces du puzzle.
Elles dessinent des choses qui n'ont pas de sens.
Le code qu'elles écrivent ne fonctionne pas (l'ordinateur dit : "Erreur !").

🛠️ La Solution : TIKZILLA (Le Super-Héros du Dessin)

Les chercheurs de cette étude ont créé TikZilla, un nouvel assistant intelligent conçu spécifiquement pour transformer vos idées en dessins scientifiques parfaits.

Voici comment ils ont fait, étape par étape, avec des analogies simples :

1. L'Entraînement : La "Bibliothèque Géante" (DaTikZ-V4)

Pour apprendre à un robot à dessiner, il faut lui montrer des milliers d'exemples. Avant, les chercheurs avaient une petite bibliothèque de dessins (environ 360 000). C'était trop petit et plein de fautes.

L'analogie : Imaginez essayer d'apprendre à cuisiner en regardant seulement 5 recettes, dont 2 sont illisibles.
Ce qu'ils ont fait : Ils ont construit DaTikZ-V4, une bibliothèque gigantesque contenant plus de 2 millions de dessins scientifiques trouvés sur internet (dans des thèses, des livres, etc.).
Le nettoyage : Beaucoup de ces dessins étaient "cassés" (le code ne marchait pas). Ils ont utilisé un autre robot pour réparer ces codes, comme un mécanicien qui répare des voitures avant de les vendre.

2. Les Descriptions : De "C'est joli" à "Voici comment le faire"

Le problème principal était que les robots recevaient de mauvaises instructions. On leur disait souvent : "Voici un graphique de la population." C'est trop vague.

L'analogie : Si vous demandez à un peintre de faire un portrait en disant juste "Fais un homme", il va faire n'importe quoi. Il faut dire : "Un homme avec une barbe rousse, un chapeau bleu, et un sourire triste."
Ce qu'ils ont fait : Ils ont utilisé une intelligence artificielle très avancée (un "Vision Language Model") pour regarder les dessins et écrire des descriptions très précises. Au lieu de dire "voici un graphique", elle dit : "Dessine trois rectangles verts alignés, relie-les par des flèches bleues, et écris 'Données' en dessous."

3. L'Entraînement en Deux Temps : La Méthode "École + Coaching"

Ils n'ont pas juste laissé le robot apprendre tout seul. Ils ont utilisé une méthode en deux étapes :

Étape 1 : L'École (SFT)
Le robot apprend d'abord les règles de base du langage TikZ. C'est comme apprendre la grammaire et le vocabulaire. Il sait maintenant écrire des phrases correctes, mais il ne sait pas encore si son dessin est beau ou logique.
Étape 2 : Le Coaching (Reinforcement Learning - RL)
C'est ici que la magie opère. Le robot dessine, et un juge expert (une autre intelligence artificielle entraînée à voir les dessins) regarde le résultat.
- Si le dessin ressemble au but, le robot reçoit des points (une récompense).
- Si le dessin est moche ou faux, il perd des points.
- L'analogie : C'est comme un élève qui fait un dessin, et un professeur qui lui dit : "Non, la flèche est trop courte, recommence !". Le robot apprend de ses erreurs et s'améliore rapidement.

🏆 Les Résultats : Qui gagne ?

Ils ont mis TikZilla en compétition contre les géants du marché (comme GPT-4o et GPT-5) et contre d'autres modèles spécialisés.

La surprise : TikZilla est un modèle très petit (il est léger et rapide), alors que les concurrents sont des "géants" très lourds et coûteux.
Le score : Malgré sa taille, TikZilla a gagné !
- Il dessine mieux que GPT-4o.
- Il est aussi bon que GPT-5 (le modèle le plus puissant du moment).
- Son code fonctionne presque toujours (98% de réussite), alors que les autres échouent souvent.

💡 Pourquoi est-ce important ?

Pour les scientifiques : Ils peuvent enfin dire à l'ordinateur : "Fais-moi ce graphique" et obtenir un résultat utilisable immédiatement, sans passer des heures à corriger le code.
Pour l'écologie et le budget : Comme TikZilla est petit, il consomme beaucoup moins d'énergie et coûte moins cher à utiliser que les énormes modèles de Google ou OpenAI.
Pour l'avenir : Cela montre qu'on n'a pas besoin de modèles géants pour tout faire. Avec de bonnes données (la bibliothèque géante) et une bonne méthode d'apprentissage (le coaching), on peut créer des outils très performants et accessibles à tous.

En résumé : TIKZILLA, c'est comme avoir un assistant personnel qui connaît par cœur le langage des dessins scientifiques, qui ne se trompe presque jamais, et qui est capable de transformer vos idées en images parfaites, le tout sans consommer la moitié de l'électricité d'une ville.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération de figures scientifiques à partir de descriptions textuelles est une tâche cruciale pour l'automatisation des processus de recherche. Le langage TikZ, intégré à l'écosystème LaTeX, est la norme de facto dans le milieu académique pour sa précision et son interprétabilité. Cependant, sa syntaxe complexe et sa courbe d'apprentissage raide rendent sa maîtrise difficile, tant pour les humains que pour les modèles de langage (LLM).

Les travaux précédents (comme AutomaTikZ ou TikZero) souffrent de plusieurs limitations majeures :

Données insuffisantes et bruyantes : Les jeux de données existants sont trop petits et contiennent des légendes (captions) souvent incomplètes ou imprécises, incapables de capturer la complexité structurelle et sémantique des figures.
Manque de feedback visuel : Les approches basées uniquement sur le Supervised Fine-Tuning (SFT) apprennent la syntaxe mais ne sont pas exposées aux sémantiques du rendu final. Cela entraîne des erreurs fréquentes : boucles infinies, contenu hors sujet, relations spatiales incorrectes et taux de compilation faible.
Limites des modèles actuels : Même les grands modèles propriétaires (comme GPT-4o) peinent à générer du code TikZ compilable et fidèle aux descriptions complexes.

2. Méthodologie

Les auteurs proposent une approche en deux étapes combinant un jeu de données massivement augmenté et un apprentissage par renforcement (RL) guidé par un modèle de récompense spécifique au domaine.

A. Construction du Jeu de Données : DaTikZ-V4

Pour surmonter le manque de données, l'équipe a construit DaTikZ-V4, un jeu de données plus de quatre fois plus grand que son prédécesseur (DaTikZ-V3), totalisant plus de 2 millions d'instances uniques.

Sources : Données extraites d'arXiv (post-2021), GitHub (environ 400k échantillons), TeX StackExchange et des données synthétiques.
Pipeline de nettoyage et de débogage :
- Filtrage avancé : Extraction récursive des sous-figures, standardisation du code (environ standalone), détection dynamique des packages LaTeX, et suppression des commentaires et dépendances externes.
- Débogage par LLM : Un pipeline utilisant un LLM (Qwen-32B) pour corriger automatiquement le code TikZ qui ne compile pas (taux de réussite initial de 31,3% sur arXiv porté à 600k instances réparées).
- Descriptions par VLM : Remplacement des légendes bruyantes par des descriptions textuelles précises générées par des modèles Vision-Language (VLM, Qwen2.5-VL-7B), décrivant géométrie, couleurs, et relations spatiales.

B. Architecture du Modèle : TikZilla

L'équipe a entraîné une famille de modèles open-source basés sur Qwen (3B et 8B paramètres) via un pipeline en deux étapes :

Supervised Fine-Tuning (SFT) : Alignement syntaxique sur le code TikZ propre de DaTikZ-V4.
Reinforcement Learning (RL) : Utilisation de l'algorithme GRPO (Group Relative Policy Optimization).
- Modèle de Récompense (Reward Model) : C'est une innovation clé. Au lieu d'utiliser des métriques génériques (CLIPScore), les auteurs ont réentraîné un encodeur d'images (basé sur DeTikZify-V2) via une tâche d'inverse graphics (Image $\to$ TikZ) sur le nouveau corpus. Cet encodeur, figé pendant le RL, mesure la similarité sémantique entre l'image générée par le code prédit et l'image de référence (Ground Truth) en utilisant une distance de transport optimal (Earth Mover's Distance sur les patchs d'embeddings).
- Objectif : Maximiser la fidélité visuelle tout en maintenant la validité du code.

3. Contributions Clés

Analyse de la qualité des légendes : Démonstration que les légendes existantes sont insuffisantes pour la reconstruction de figures, justifiant l'utilisation de descriptions générées par VLM.
Échelle du jeu de données : Introduction de DaTikZ-V4 (2M+ échantillons), quadruplant l'échelle des données précédentes et incluant une source majeure (GitHub) précédemment sous-exploitée.
Pipeline de qualité : Combinaison de filtrage basé sur des règles, de descriptions VLM et d'un pipeline de débogage LLM pour garantir un code compilable et riche.
Modèle de récompense spécifique au domaine : Création d'un premier modèle de récompense pour Text-to-TikZ, entraîné via inverse graphics, qui corrèle fortement avec le jugement humain et évite le "reward hacking".
Modèles TikZilla : Publication de modèles open-source (3B et 8B) qui surpassent les géants propriétaires.

4. Résultats

Les évaluations ont été menées sur un ensemble de test contaminé (1 047 échantillons) et incluent des métriques automatiques et une évaluation humaine par 9 experts.

Performance Automatique :
- TikZilla-3B-RL et TikZilla-8B-RL atteignent les meilleurs scores globaux (AVG), surpassant GPT-5 (0,385 vs 0,365) et GPT-4o.
- Amélioration significative par rapport à TikZero-Plus-10B : +0,085 sur CLIPScore, +0,334 sur DreamSIM, et un taux de compilation de 98% (contre 61% pour TikZero).
- Efficacité : Les modèles TikZilla génèrent des séquences plus courtes (moins de tokens) tout en étant plus précis.
Évaluation Humaine (Likert 1-5) :
- Les modèles TikZilla-RL obtiennent des scores de 3,40 à 3,46 sur l'alignement image, surpassant GPT-4o et égalant GPT-5.
- Le RL apporte un gain substantiel (+0,67 à +0,75 points) par rapport aux versions SFT seules.
- Les modèles de 3B paramètres, une fois entraînés avec RL, surpassent même les modèles Qwen3-8B de base, montrant l'efficacité de la méthode.
Robustesse (OOD) : Sur le benchmark SPIQA (données hors distribution provenant de matplotlib/ggplot2), TikZilla-3B-RL et TikZilla-8B-RL surpassent GPT-5, démontrant une bonne généralisation à des structures complexes non natives TikZ.

5. Signification et Conclusion

Ce travail démontre qu'il est possible de construire des systèmes de génération d'images scientifiques reproductibles, efficaces et de haute qualité en utilisant de petits modèles open-source (3B-8B), à condition de disposer de données massives de haute qualité et d'un mécanisme de feedback visuel précis.

Impact scientifique : Réduction de la dépendance aux solutions propriétaires coûteuses pour la génération de figures scientifiques.
Avancée méthodologique : La combinaison de l'échelle des données (DaTikZ-V4) et d'un modèle de récompense basé sur l'encodage sémantique des images (via inverse graphics) constitue une nouvelle référence pour les tâches de génération de code structurel complexe.
Limites et perspectives : Les descriptions générées par VLM peuvent encore contenir des omissions ou des hallucinations, ce qui pourrait biaiser l'entraînement. Les travaux futurs visent à améliorer les méthodes d'annotation et à étendre cette approche à d'autres tâches de génération structurée (tableaux LaTeX, CAO, organigrammes).

En résumé, TikZilla établit un nouvel état de l'art pour la génération de figures scientifiques, prouvant que des modèles compacts, correctement entraînés avec des données de qualité et du RL, peuvent rivaliser avec, voire surpasser, les modèles les plus puissants du marché.