TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um cientista ou um estudante universitário. Você tem uma ideia brilhante para um gráfico, um diagrama de fluxo ou uma equação visual que precisa colocar no seu trabalho. O problema? Você não é um artista e não sabe a "linguagem secreta" que os computadores usam para desenhar essas imagens com precisão matemática. Essa linguagem se chama TikZ.

Pense no TikZ como a "receita de bolo" para gráficos científicos. Se você escrever a receita certa, o computador assa o bolo perfeito. Se errar um ingrediente, o bolo fica torto ou não sai do forno.

O artigo que você enviou, chamado TIKZILLA, conta a história de como os pesquisadores criaram um novo "chef de cozinha" (uma Inteligência Artificial) capaz de ler suas ideias em português (ou inglês) e escrever a receita perfeita automaticamente.

Aqui está a explicação passo a passo, usando analogias simples:

1. O Problema: A Cozinha Bagunçada

Antes do TikZilla, existiam outros "chefs" (modelos de IA) tentando fazer isso, mas eles tinham dois grandes problemas:

Ingredientes ruins: Os livros de receitas (conjuntos de dados) que eles usavam eram pequenos, sujos e cheios de erros. Era como tentar aprender a cozinhar com um livro onde as páginas estavam rasgadas e faltavam ingredientes.
Aprendizado cego: Eles aprendiam apenas a copiar a receita, mas nunca viam o bolo final. Eles não sabiam se o bolo estava queimado ou cru. Por isso, eles frequentemente escreviam receitas que o computador não conseguia entender (erros de compilação) ou desenhavam coisas que não faziam sentido.

2. A Solução: O Novo Livro de Receitas (DaTikZ-V4)

Os autores criaram um novo e gigantesco livro de receitas chamado DaTikZ-V4.

Tamanho: É 4 vezes maior que o anterior. Eles vasculharam a internet (arXiv, GitHub) para pegar milhões de receitas reais usadas por cientistas.
Limpeza: Eles usaram um "robô detetive" (uma IA) para corrigir as receitas que estavam quebradas. Se uma receita tinha um erro de digitação que impedia o bolo de sair, o robô consertava.
Descrições Melhores: Em vez de apenas dizer "desenhe um gráfico", eles usaram outra IA (um Vision Language Model) para olhar para o gráfico final e escrever uma descrição super detalhada: "Desenhe um círculo azul no topo, com uma seta vermelha apontando para baixo...". Isso deu muito mais clareza para o chef aprender.

3. O Treinamento: Do Aprendiz ao Mestre (SFT + RL)

Eles treinaram o TikZilla em duas etapas, como se fosse um estágio de culinária:

Etapa 1: O Estágio (SFT - Ajuste Supervisionado)
O TikZilla (que é um modelo pequeno e eficiente, como um "chef júnior") leu milhões de receitas e descrições. Ele aprendeu a gramática, a sintaxe e como escrever o código corretamente. Ele parou de cometer erros básicos de digitação.
Etapa 2: O Paladar Crítico (RL - Aprendizado por Reforço)
Aqui está a mágica. Eles não deixaram o chef apenas copiar. Eles criaram um "Gourmet" (um modelo de recompensa).
- O chef escreve uma receita.
- O computador gera o gráfico.
- O "Gourmet" olha para o gráfico gerado e compara com a imagem original (a verdade).
- Se o gráfico estiver bonito e preciso, o chef ganha um ponto. Se estiver torto, perde pontos.
- Com esse feedback, o chef aprende a ajustar sua receita para ficar visualmente perfeita, não apenas gramaticalmente correta. É como se ele aprendesse a "ver" o que está fazendo.

4. O Resultado: O Chef TikZilla

O resultado foi surpreendente:

Pequeno, mas poderoso: O TikZilla é um modelo pequeno (3 bilhões ou 8 bilhões de "cérebros" artificiais), enquanto os gigantes do mercado (como o GPT-4o ou GPT-5) são enormes e caros.
Venceu os Gigantes: Em testes humanos e automáticos, o TikZilla fez gráficos melhores e mais precisos do que o GPT-4o e empatou com o GPT-5, mas usando muito menos energia e dinheiro.
Precisão Cirúrgica: Ele consegue desenhar diagramas complexos de física, biologia e matemática que outros modelos falhavam, criando códigos que funcionam de verdade (98% de taxa de sucesso, contra 78% do GPT-4o).

Resumo em uma Frase

Os autores pegaram um livro de receitas gigante e limpo, ensinaram um chef júnior a ler, e depois treinaram esse chef com um "gourmet" que avaliava visualmente o resultado, criando uma IA pequena, barata e incrivelmente inteligente capaz de transformar ideias em desenhos científicos perfeitos.

Por que isso importa?
Isso democratiza a ciência. Agora, qualquer pesquisador, mesmo sem saber programar, pode pedir para a IA criar gráficos de nível de publicação científica, acelerando a descoberta de novos conhecimentos.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: TIKZILLA

1. O Problema

A geração de figuras científicas de alta qualidade a partir de descrições textuais é uma tarefa crítica para auxiliar pesquisadores, mas enfrenta desafios significativos. O padrão de facto na academia para essas figuras é o TikZ, uma linguagem de programação gráfica integrada ao ecossistema LaTeX. No entanto, o TikZ possui uma curva de aprendizado íngreme e sintaxe complexa.

As abordagens anteriores (como AutomaTikZ e TikZero) enfrentam três limitações principais:

Dados Insuficientes e Ruidosos: Os conjuntos de dados existentes são pequenos e contêm legendas (captions) inadequadas que não descrevem com precisão elementos estruturais, atributos e relações espaciais necessárias para a reconstrução fiel.
Falta de Feedback Visual: Modelos treinados apenas com Fine-Tuning Supervisionado (SFT) não têm acesso à semântica da imagem renderizada, levando a erros como loops infinitos, conteúdo irrelevante e relações espaciais incorretas.
Baixa Taxa de Compilação: O código gerado frequentemente falha ao compilar devido a erros de sintaxe ou dependências de pacotes não declaradas.

2. Metodologia

Os autores propõem uma solução em duas frentes: a criação de um novo conjunto de dados massivo e de alta qualidade, e um pipeline de treinamento em duas etapas combinando SFT e Aprendizado por Reforço (RL).

A. Dataset: DaTikZ-V4
Para superar a escassez de dados, foi construído o DaTikZ-V4, que é mais de 4 vezes maior que sua versão anterior (DaTikZ-V3), contendo mais de 2 milhões de amostras únicas.

Fontes: Dados extraídos do arXiv (pós-2021), GitHub (repositórios com arquivos .tex/.pgf), TeX StackExchange e dados sintéticos.
Limpeza e Padronização: Implementação de filtros baseados em regras para extração de subfiguras, padronização em ambientes standalone, detecção dinâmica de pacotes LaTeX e remoção de comentários e dependências de arquivos externos.
Pipeline de Debug com LLM: Devido à baixa taxa de compilação inicial (31,3% no arXiv), utilizou-se um LLM (Qwen-32B) para corrigir automaticamente códigos que falhavam na compilação, recuperando 600.000 instâncias.
Descrições Geradas por VLM: Reconhecendo que legendas originais são insuficientes, utilizou-se o modelo de visão e linguagem Qwen2.5-VL-7B para gerar descrições textuais precisas e ricas semanticamente para cada figura compilável, substituindo as legendas originais.

B. Modelo: TikZilla
Família de modelos de linguagem abertos baseados no Qwen (3B e 8B parâmetros), treinados em duas etapas:

Etapa 1: SFT (Supervised Fine-Tuning): Alinhamento sintático e de distribuição de tokens usando o DaTikZ-V4.
Etapa 2: RL (Reinforcement Learning): Uso do algoritmo GRPO (Group Relative Policy Optimization) para otimizar a geração baseada em feedback visual.
- Modelo de Recompensa (Reward Model): Diferente de métricas genéricas (como CLIPScore), os autores treinaram um codificador de imagens específico para o domínio (baseado em DeTikZify-V2) usando o grande corpus de DaTikZ-V4.
- Cálculo de Recompensa: A similaridade semântica entre a imagem gerada e a imagem ground truth é calculada usando Earth Mover's Distance (EMD) sobre os embeddings de patches, capturando nuances de alinhamento espacial e estilo científico.
- Recompensa de Formato: Garante que o código gerado tenha a estrutura de documento LaTeX válida.

3. Principais Contribuições

Análise de Qualidade de Legendas: Demonstração empírica de que legendas disponíveis publicamente são insuficientes para reconstrução de figuras, motivando o uso de descrições geradas por VLMs.
Escalonamento de Dados (DaTikZ-V4): Introdução do maior conjunto de dados de Text-to-TikZ até a data, com 2M+ amostras, incluindo uma pipeline robusta de depuração via LLM.
Modelo de Recompensa Específico para Domínio: Criação de um reward model treinado via inverse graphics (imagem $\to$ TikZ) que supera métricas genéricas na avaliação de fidelidade visual de diagramas científicos.
Modelos TikZilla: Lançamento de modelos open-source pequenos (3B e 8B) que superam sistemas proprietários massivos, demonstrando que a combinação de dados de alta qualidade e RL é mais eficaz do que apenas aumentar o tamanho do modelo.

4. Resultados

Os modelos foram avaliados em métricas automáticas e avaliação humana (mais de 1.000 julgamentos por especialistas).

Desempenho Automático:
- O TikZilla-3B-RL alcançou uma pontuação agregada (AVG) de 0.385, superando o GPT-5 (0.365) e o GPT-4o (0.320).
- Melhorias significativas em DreamSIM (fidelidade perceptual) e CLIPScore (alinhamento texto-imagem) em comparação com modelos base e o TikZero-Plus-10B.
- Taxa de Compilação (CR): Os modelos com RL atingiram taxas de 95-98%, comparado a 50-79% dos modelos base e concorrentes.
Desempenho Humano:
- Em uma escala de 1 a 5, o TikZilla-3B-RL e o TikZilla-8B-RL superaram o GPT-4o em 0,5 pontos e empataram com o GPT-5 na avaliação baseada em imagem.
- Os modelos com RL mostraram melhoria de 1,5 a 2 pontos sobre suas versões base (apenas SFT).
Eficiência:
- O modelo de 3B parâmetros com RL gerou código mais curto (menos tokens) e com maior precisão do que modelos muito maiores (como Qwen3-32B ou GPT-5).
- O RL reduziu naturalmente o comprimento da sequência, penalizando elementos alucinados ou redundantes.
Robustez (OOD): No conjunto de dados SPIQA (figuras de outras ferramentas como Matplotlib, não nativas em TikZ), o TikZilla-3B-RL superou o GPT-5, demonstrando boa generalização.

5. Significado e Impacto

O trabalho TikZilla estabelece um novo estado da arte na geração de gráficos científicos programáticos. Ele demonstra que:

A qualidade dos dados (descrições geradas por VLM e código corrigido) é tão crucial quanto o tamanho do modelo.
O Aprendizado por Reforço com modelos de recompensa específicos para o domínio é essencial para corrigir erros semânticos e espaciais que o SFT sozinho não consegue resolver.
É possível construir sistemas de geração de imagens científicos reprodutíveis e eficientes usando modelos de código aberto pequenos (3B-8B), reduzindo a dependência de soluções proprietárias caras e de grande porte.

O código, os dados (DaTikZ-V4) e os modelos (TikZilla) serão disponibilizados publicamente, fomentando avanços na automação de outputs científicos.

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

1. O Problema: A Cozinha Bagunçada

2. A Solução: O Novo Livro de Receitas (DaTikZ-V4)

3. O Treinamento: Do Aprendiz ao Mestre (SFT + RL)

4. O Resultado: O Chef TikZilla

Resumo em uma Frase

Resumo Técnico: TIKZILLA

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Impacto

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing