RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

O artigo apresenta o \texttt{RealChart2Code}, um novo benchmark em larga escala baseado em dados reais e cenários de conversação multi-turno, que revela limitações significativas nos atuais Modelos Visuais-Linguísticos ao gerar visualizações complexas a partir de dados brutos.

Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang

Publicado 2026-03-30
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma foto de um painel de controle complexo, cheio de gráficos, linhas coloridas e dados de vendas, e pede para um "robô inteligente" (uma Inteligência Artificial) recriar exatamente aquele painel usando código de computador.

Até hoje, os robôs eram muito bons em copiar desenhos simples, como um gráfico de pizza ou uma barra de pizza. Mas, quando o desenho era complexo, cheio de várias telas juntas e dados reais (não inventados), eles começavam a falhar feio.

Foi para resolver isso que os autores criaram o RealChart2Code. Vamos entender como funciona essa história com algumas analogias:

1. O Problema: O Aluno que Decora, mas não Entende

Imagine que você tem um aluno que estudou para uma prova de desenho. Ele decorou como desenhar um "sol" e uma "nuvem". Se você pedir para ele desenhar um sol e uma nuvem, ele faz perfeitamente.

Mas, se você mostrar a ele uma foto de uma cidade inteira com prédios, carros, pessoas e sombras complexas, e pedir para ele desenhar tudo de novo, ele trava. Ele tenta desenhar os prédios, mas esquece das janelas; desenha os carros, mas eles ficam flutuando.

Os modelos de IA atuais são como esse aluno. Eles são ótimos em tarefas simples (o "sol e a nuvem"), mas quando colocamos diante deles dados reais do mundo real (como planilhas de milhões de linhas de vendas de uma empresa) e gráficos complexos, eles perdem a cabeça.

2. A Solução: O "Exame Real" (RealChart2Code)

Os pesquisadores criaram um novo "exame" chamado RealChart2Code. Em vez de usar desenhos simples ou dados inventados, eles pegaram:

  • Dados Reais: Milhares de arquivos de planilhas reais (como dados de saúde, finanças, clima) que existem de verdade no mundo.
  • Desafios Reais: Eles criaram três tipos de tarefas:
    1. Cópia: "Aqui está a foto do gráfico, faça o código para ele."
    2. Reprodução: "Aqui está a foto E os dados brutos. Faça o código que gera exatamente isso." (É como pedir para o aluno não só desenhar, mas usar a massa de modelagem correta).
    3. Refinamento: "O gráfico está com um erro (ex: a cor está errada ou os dados estão trocados). Conserte o código." (É como um chefe dizendo: "Isso aqui está torto, arrume").

3. O Que Eles Descobriram?

Eles testaram 14 dos "cérebros" de IA mais famosos do mundo (como GPT, Claude, Gemini, etc.) nesse novo exame difícil. O resultado foi um choque:

  • A Queda Livre: Modelos que tiravam nota 9,9 em exames simples, tiravam nota 3,0 ou 4,0 no exame RealChart2Code.
  • A Diferença entre "Robô de Loja" e "Robô de Fábrica":
    • Os modelos pago (como Claude e GPT) foram os melhores, mas ainda assim falharam muito em gráficos complexos. Eles conseguiam escrever o código, mas às vezes misturavam os dados (colocavam o preço de um carro no lugar da velocidade).
    • Os modelos gratuitos (open-source) tiveram um desempenho muito pior. Eles frequentemente escreviam códigos que nem sequer rodavam (erros de sintaxe) ou criavam gráficos que não faziam sentido visual.

4. Onde Eles Errou? (As Falhas Comuns)

Os pesquisadores analisaram os erros e encontraram padrões engraçados e preocupantes:

  • Alucinação de Bibliotecas: Alguns robôs inventaram comandos que não existem. É como se o aluno dissesse: "Usei a tinta mágica 'SuperAzul' para pintar o céu", mas essa tinta não existe na loja. O código falha porque o comando é falso.
  • Perda do Mapa: Eles conseguiam desenhar uma parte do gráfico perfeitamente, mas quando tinham que juntar 4 ou 5 gráficos em uma só tela, eles perdiam o espaço. Os gráficos ficavam um em cima do outro, ilegíveis.
  • Confusão de Dados: Eles olhavam para a foto e diziam: "Ah, essa linha vermelha é a temperatura", mas na verdade era a chuva. O código rodava, mas o gráfico mostrava a história errada.

5. Por que isso importa?

Hoje, muitas empresas querem usar IA para analisar dados e criar relatórios visuais automaticamente. Se a IA não consegue entender dados reais e complexos, ela é inútil para tarefas sérias.

O RealChart2Code é como um "teste de estresse" para a IA. Ele nos diz: "Ei, vocês são bons em brincar de casinha, mas ainda não estão prontos para construir arranha-céus".

Resumo da Ópera

Este paper é um aviso: A Inteligência Artificial ainda não é um "engenheiro de dados" completo. Ela precisa evoluir muito para conseguir pegar dados reais, bagunçados e complexos, e transformá-los em gráficos perfeitos sem precisar de um humano para corrigir cada erro. O novo banco de dados deles é a ferramenta que vai ajudar a treinar esses robôs para o mundo real, e não apenas para o mundo dos desenhos simples.