TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que eres un científico o un ingeniero que necesita dibujar gráficos complejos para sus investigaciones. En el mundo académico, el "idioma" estándar para hacer estos dibujos no es un programa de diseño como Photoshop, sino un código muy preciso llamado TikZ. Es como escribir una receta de cocina, pero en lugar de ingredientes, usas coordenadas, líneas y formas para crear un gráfico perfecto.

El problema es que escribir este código a mano es difícil, aburrido y propenso a errores. Aquí es donde entra la Inteligencia Artificial. La idea es simple: tú le dices a la IA "dibuja un gráfico de barras que muestre el crecimiento de las plantas" y ella escribe el código por ti.

Pero hasta ahora, las IAs eran como chefs novatos: a veces entendían la receta, pero el plato salía quemado, sin sal o con ingredientes que no pediste.

Este paper presenta a TikZilla, un nuevo "chef" (un modelo de IA) que ha aprendido a cocinar gráficos científicos de una manera revolucionaria. Aquí te explico cómo lo hizo, usando analogías sencillas:

1. El Problema: La "Receta" estaba mal escrita

Antes de TikZilla, los modelos de IA se entrenaban con datos que eran como notas de voz mal grabadas.

El ruido: Los datos antiguos tenían descripciones de gráficos muy vagas (ej: "un gráfico azul"). La IA intentaba adivinar, y a menudo alucinaba cosas que no existían o escribía código que no funcionaba (como intentar hornear un pastel sin harina).
El tamaño: Tenían muy pocos ejemplos para aprender. Era como intentar aprender a tocar el piano escuchando solo tres canciones.

2. La Solución: La Biblioteca Gigante (DaTikZ-V4)

Los autores crearon una nueva base de datos llamada DaTikZ-V4.

La analogía: Imagina que antes tenías un cuaderno de notas pequeño con 300 recetas. Ahora, han recolectado 2 millones de recetas de libros de texto, repositorios de código (GitHub) y foros de científicos.
La limpieza: Pero tener 2 millones de recetas no sirve si están escritas en un idioma que nadie entiende. Usaron una IA muy inteligente (VLM) para reescribir las descripciones. En lugar de decir "un gráfico azul", la IA ahora describe: "Tres barras azules, la primera mide 5cm, la segunda 10cm, y están separadas por 2cm". ¡Ahora la IA sabe exactamente qué hacer!
El corrector: También crearon un "detective de errores" (LLM Debugging) que revisa el código generado. Si el código tiene un error de sintaxis (como un paréntesis faltante), el detective lo arregla automáticamente antes de que la IA lo aprenda.

3. El Entrenamiento: De "Copiar" a "Entender"

Aquí es donde TikZilla brilla con su método de dos etapas:

Etapa 1: La Escuela (SFT - Aprendizaje Supervisado)
Imagina que le das a un estudiante un libro de texto y le pides que copie los ejercicios. La IA aprende la gramática y la estructura del código TikZ. Ahora sabe cómo escribir el código, pero no siempre sabe si el dibujo final se parece a lo que pidió el usuario.
Etapa 2: El Entrenamiento con Refuerzo (RL - Aprendizaje por Refuerzo)
Esta es la magia. Imagina que el estudiante dibuja algo y lo muestra a un profesor experto (un modelo de visión).
- Si el dibujo se parece al original, el profesor le da una estrella dorada (recompensa).
- Si el dibujo está torcido o tiene colores incorrectos, el profesor le da una reprimenda (castigo).
- A diferencia de métodos anteriores, este "profesor" no solo lee el código, sino que mira la imagen resultante. Aprende a juzgar la belleza y precisión del gráfico final, no solo si el código se ve bien en papel.

4. Los Resultados: El Pequeño Gigante

Lo más impresionante es que TikZilla es un modelo "pequeño" (tiene 3 mil millones o 8 mil millones de parámetros), mientras que los gigantes comerciales como GPT-4o o GPT-5 son enormes.

La analogía: Es como si un niño de 10 años, con una libreta de notas muy bien organizada y un entrenador personal, pudiera dibujar planos de ingeniería mejor que un arquitecto famoso con una computadora gigante.
El éxito: En las pruebas, TikZilla:
- Genera gráficos que se compilan (funcionan) el 98% de las veces (GPT-4o fallaba mucho más).
- Los humanos prefieren sus gráficos sobre los de GPT-4o.
- Incluso empata o supera a GPT-5 en la calidad visual, a pesar de ser mucho más pequeño y rápido.

En Resumen

Este paper nos dice que no necesitas un "superordenador" para hacer cosas increíbles. Si tienes:

Datos de alta calidad (recetas claras y limpias).
Un buen sistema de corrección (detectar errores antes de aprenderlos).
Un entrenador que mira el resultado final (no solo el código),

...puedes crear una herramienta pequeña, eficiente y gratuita que hace el trabajo mejor que las herramientas más caras y cerradas del mercado.

TikZilla es la prueba de que, en la ciencia de datos, a veces la calidad y la estrategia importan más que el tamaño.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "TIKZILLA: SCALING TEXT-TO-TIKZ WITH HIGH-QUALITY DATA AND REINFORCEMENT LEARNING", presentado en ICLR 2026.

1. El Problema

La generación de figuras científicas a partir de descripciones textuales es una tarea crítica para asistir a los investigadores, pero presenta desafíos significativos:

Complejidad del Lenguaje: TikZ es el estándar de facto en la academia para gráficos vectoriales debido a su precisión e integración con LaTeX, pero su sintaxis es compleja y difícil de dominar tanto para humanos como para Modelos de Lenguaje Grande (LLM).
Limitaciones de Datos Previos: Los conjuntos de datos existentes (como DaTikZ-V3) son demasiado pequeños, ruidosos y carecen de descripciones textuales precisas. Las "captions" (subtítulos) originales de los artículos a menudo omiten detalles estructurales, colores o relaciones espaciales necesarias para la reconstrucción fiel.
Fallas en la Generación: Los enfoques anteriores, basados únicamente en Fine-Tuning Supervisado (SFT), no exponen al modelo a la semántica visual real de la figura renderizada. Esto resulta en errores comunes como bucles infinitos, contenido irrelevante, relaciones espaciales incorrectas y bajas tasas de compilación del código LaTeX.

2. Metodología

Los autores proponen un enfoque integral que combina la creación de un dataset masivo y de alta calidad con una estrategia de entrenamiento en dos etapas.

A. Dataset DaTikZ-V4

Se construyó un nuevo dataset que supera en escala y calidad a sus predecesores:

Escala: Más de 2 millones de muestras únicas (cuatro veces más grande que DaTikZ-V3), obtenidas de arXiv (post-2021), GitHub, TeX StackExchange y datos sintéticos.
Limpieza y Depuración (Debugging): Se implementó una tubería basada en LLMs para reparar código TikZ que no se compilaba. Utilizando Qwen-32B, se repararon exitosamente 600k instancias de un corpus de 1.3M de código no compilable, aumentando drásticamente la utilidad del dataset.
Descripciones Mejoradas: Dado que las captions originales son insuficientes, se utilizaron Modelos de Lenguaje Visuales (VLMs, específicamente Qwen2.5-VL-7B) para generar descripciones textuales precisas, ricas en detalles geométricos, etiquetas y relaciones espaciales para cada figura compilable.

B. Entrenamiento del Modelo: TikZilla

Se desarrolló una familia de modelos de código abierto basados en Qwen (3B y 8B parámetros) mediante un pipeline de dos etapas:

Fine-Tuning Supervisado (SFT): Entrenamiento inicial para alinear el modelo con la sintaxis de TikZ y las distribuciones de tokens específicas de la tarea.
Aprendizaje por Refuerzo (RL): Se aplica Group Relative Policy Optimization (GRPO) para refinar la generación.
- Modelo de Recompensa Específico del Dominio: En lugar de métricas generales (como CLIPScore), se entrenó un codificador de imágenes (basado en DeTikZify-V2) mediante una tarea de gráficos inversos (Imagen $\to$ TikZ) en el nuevo dataset DaTikZ-V4.
- Cálculo de Recompensa: La recompensa se calcula midiendo la similitud semántica entre la imagen generada y la imagen de referencia (Ground Truth) utilizando la Distancia del Transportista Óptimo (Earth Mover's Distance - EMD) sobre las embebings de parches, lo que captura mejor la alineación semántica que la similitud coseno simple.
- Recompensa de Formato: Se añade una recompensa binaria para asegurar que el código comience y termine con las estructuras de documento LaTeX válidas.

3. Contribuciones Clave

Análisis de Calidad de Captions: Demostraron empíricamente que las descripciones textuales disponibles públicamente son insuficientes para la reconstrucción de figuras, validando la necesidad de descripciones generadas por VLMs.
Escalado de Dataset: Introducción de DaTikZ-V4, el dataset más grande y limpio hasta la fecha para Text-to-TikZ, con un enfoque en la depuración automática de código.
Modelo de Recompensa Inverso: Desarrollo del primer modelo de recompensa específico para Text-to-TikZ, entrenado mediante gráficos inversos, que supera a las métricas de similitud visual genéricas.
TikZilla: Lanzamiento de modelos pequeños (3B y 8B) que, mediante el pipeline SFT+RL, superan a sistemas propietarios mucho más grandes.

4. Resultados

Los experimentos se realizaron en un conjunto de prueba libre de contaminación de 1,047 muestras y evaluaciones humanas con más de 1,000 juicios.

Rendimiento Automático:
- TikZilla-3B-RL y TikZilla-8B-RL lograron las mejores puntuaciones agregadas (AVG), superando a GPT-5 (el modelo de razonamiento más potente de OpenAI) y a GPT-4o.
- Mejoras significativas en métricas de alineación texto-imagen (CLIPScore, DreamSIM) y similitud de código (TeX Edit Distance).
- Tasa de Compilación: Los modelos ajustados con RL alcanzaron tasas de compilación del 95-98%, muy por encima de los modelos base y competidores (que rondaban el 50-80%).
Evaluación Humana:
- En una escala Likert de 1 a 5, TikZilla mejoró entre 1.5 y 2 puntos sobre sus versiones base.
- TikZilla-8B-RL igualó el rendimiento de GPT-5 en la evaluación basada en imágenes (3.46 vs 3.48) y superó a GPT-4o en todas las métricas.
- Los modelos pequeños (3B) demostraron que el entrenamiento con RL puede cerrar e incluso superar la brecha con modelos más grandes (8B) si se dispone de datos de alta calidad.
Eficiencia: Los modelos generaron código más conciso (menos tokens) y con menos errores estructurales que los modelos base.

5. Significado e Impacto

El trabajo TikZilla es significativo por varias razones:

Democratización de la Generación Científica: Demuestra que es posible construir sistemas de generación de imágenes científicas de alta fidelidad utilizando modelos de código abierto pequeños (3B-8B), reduciendo la dependencia de soluciones propietarias costosas y de gran escala.
Validación del RL en Tareas Estructuradas: Confirma que el Aprendizaje por Refuerzo, guiado por un modelo de recompensa semántico específico del dominio, es crucial para corregir errores de alinearación visual que el SFT por sí solo no puede resolver.
Calidad de Datos como Factor Crítico: Subraya que la calidad de las descripciones (generadas por VLMs) y la limpieza del código (depuración por LLM) son tan importantes como el tamaño del modelo.
Aplicabilidad Práctica: Al lograr tasas de compilación cercanas al 100% y generar código LaTeX limpio y editable, TikZilla se convierte en una herramienta viable para integrarse en flujos de trabajo científicos reales, ayudando a los investigadores a visualizar datos y conceptos complejos de manera eficiente.

En resumen, el artículo establece un nuevo estado del arte en la generación de gráficos vectoriales científicos, demostrando que la combinación de datos masivos de alta calidad y optimización por refuerzo con recompensas semánticas permite a modelos pequeños superar a gigantes comerciales.

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

1. El Problema: La "Receta" estaba mal escrita

2. La Solución: La Biblioteca Gigante (DaTikZ-V4)

3. El Entrenamiento: De "Copiar" a "Entender"

4. Los Resultados: El Pequeño Gigante

En Resumen

1. El Problema

2. Metodología

A. Dataset DaTikZ-V4

B. Entrenamiento del Modelo: TikZilla

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models