TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TikZilla 的新项目，它的核心目标是解决一个让科学家和研究人员头疼的问题：如何把一段文字描述，自动变成一张完美的、可编辑的科学图表代码（TikZ）。

为了让你更容易理解，我们可以把整个过程想象成**“教一个新手厨师（AI）做一道极其复杂的分子料理”**。

1. 背景：为什么这很难？

在学术界，科学家喜欢用一种叫 TikZ 的语言画图。它就像是一个“乐高积木说明书”，用代码指令告诉电脑怎么画线条、怎么放方块、怎么写字。

以前的困境：现有的 AI（比如 GPT-4o）虽然很聪明，但让它直接写这种“乐高说明书”时，经常出错。
- 它可能会胡编乱造（比如画个不存在的形状）。
- 它可能会死循环（代码写了一半停不下来）。
- 它可能会位置放错（把“苹果”画在“桌子”下面，而不是上面）。
- 最惨的是，它写出来的代码经常无法运行（就像乐高积木拼不上，或者说明书缺页）。

以前的数据集太小、太乱，就像给厨师一本只有几页且字迹模糊的食谱，AI 学不好是正常的。

2. 解决方案：TikZilla 的三大法宝

作者团队（来自纽伦堡工业大学）做了一件大事，他们给 AI 准备了一套全新的“特训营”。

法宝一：DaTikZ-V4（超级食谱库）

以前：食谱库只有几百道菜，而且很多菜名（文字描述）和实际做出来的菜（图片）对不上。
现在：他们从 arXiv（学术论文库）、GitHub（代码库）等地方，搜集了超过 200 万个真实的科学图表和对应的代码。
关键升级：
- LLM 调试员：很多原始代码是坏的（拼不上乐高）。他们训练了一个 AI 专门当“修理工”，把坏代码修好，确保每一道菜都能做出来。
- VLM 描述员：以前的菜名太简单（比如“画个图”）。他们让视觉 AI（VLM）像专业的艺术评论家一样，重新给每张图写详细的“食谱”。比如，不再只说“画个圆”，而是说“在左上角画一个红色的圆，直径 2 厘米，里面写着字母 A"。
- 结果：现在的食谱库不仅大，而且精准度极高。

法宝二：两阶段训练法（先学语法，再学审美）

他们训练 TikZilla 模型（基于 Qwen 模型，有 30 亿和 80 亿参数两种大小）分两步走：

第一阶段：死记硬背（SFT）
- 让 AI 大量阅读“描述 + 代码”的配对数据。
- 目的：让 AI 学会 TikZ 的语法规则，知道怎么开头、怎么结尾，确保写出来的代码能运行（不会编译报错）。
第二阶段：强化学习（RL）—— 也就是“试吃打分”
- 这是最精彩的一步。AI 写完代码后，电脑会真的把它渲染成图片。
- 然后，把生成的图片和“标准答案图片”放在一起，让一个**专门的“美食评委”（奖励模型）**来打分。
- 评委是谁？ 这是一个经过特殊训练的图像编码器，它非常懂科学图。如果 AI 画的图里，箭头指错了方向，或者颜色不对，评委就会给低分；如果画得完美，就给高分。
- 目的：AI 根据分数不断调整，学会**“看图说话”，确保画出来的东西和描述一模一样**。

法宝三：TikZilla 模型（小身材，大能量）

他们发布的模型只有 30 亿或 80 亿参数（相比 GPT-5 这种几百亿甚至上千亿参数的巨兽，它很小巧）。
效果：虽然个头小，但因为“食谱”好、“训练方法”对，它表现得比 GPT-4o 更好，甚至能媲美 GPT-5。

3. 成果如何？

编译率飙升：以前 AI 写的代码经常报错，现在95%-98% 的代码都能直接运行，生成图片。
人类评价：在让 1000 多位人类专家打分时，TikZilla 的得分比 GPT-4o 高出 0.5 分（满分 5 分），达到了 GPT-5 的水平。
效率：它生成的代码更简洁，不会啰里啰嗦，而且更懂科学图表的逻辑（比如流程图、数学公式图）。

4. 总结与比喻

想象一下，以前让 AI 画科学图，就像让一个刚学做饭的学徒，拿着一本缺页且字迹模糊的食谱去厨房，结果做出来的菜要么没熟，要么味道全错。

TikZilla 的做法是：

找来了全世界最好的 200 万道菜的完美食谱（DaTikZ-V4 数据集）。
派了一个专业的修理工把坏食谱都修好（LLM 调试）。
派了一个美食评论家给每一道菜重新写详细的制作指南（VLM 描述）。
让学徒先背熟食谱（SFT），然后让他反复试做，每做一道，评论家就尝一口打分，做得不好就重来，直到做出米其林星级的菜肴（RL 强化学习）。

最终，这个小个子学徒（TikZilla）做出来的菜，比那些昂贵的顶级大厨（GPT-4o/5）还要好吃、还要精准，而且成本更低、速度更快。

这项研究不仅让科学家能更快地生成论文图表，也证明了高质量的数据 + 聪明的训练方法，比单纯堆砌模型参数更重要。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文 《TIKZILLA: SCALING TEXT-TO-TIKZ WITH HIGH-QUALITY DATA AND REINFORCEMENT LEARNING》 的详细技术总结。

1. 研究背景与问题 (Problem)

核心任务：将科学领域的文本描述（Text）转换为高质量的 TikZ 代码（Text-to-TikZ）。TikZ 是学术界生成矢量图形的标准语言，因其精确性和与 LaTeX 生态的无缝集成而被广泛使用。

现有挑战：

数据质量差且规模小：现有的 Text-to-TikZ 数据集（如 DaTikZ-V3）规模太小，且包含大量噪声。原始的科学论文标题（Captions）通常过于简略，缺乏重建图形所需的详细结构、属性和空间关系信息，导致模型生成时出现幻觉、循环或空间关系错误。
训练方法局限：以往的方法主要依赖监督微调（SFT）。SFT 仅让模型学习文本到代码的映射，缺乏对渲染后图像语义的反馈。这导致模型生成的代码虽然语法可能正确，但渲染出的图像与描述不符（例如节点位置错误、连线缺失）。
编译率低：由于代码错误，许多生成的 TikZ 程序无法编译，限制了其实用性。

2. 方法论 (Methodology)

作者提出了一套完整的解决方案，包括高质量数据集构建、两阶段训练流程以及特定的奖励模型设计。

A. 数据集构建：DaTikZ-V4

为了克服数据瓶颈，作者构建了 DaTikZ-V4，其规模是前代（DaTikZ-V3）的 4 倍以上（超过 200 万条样本）。

数据来源：从 arXiv（2021-2025 年）、GitHub（约 40 万条）、TeX StackExchange 以及合成数据中收集。
数据清洗与增强：
- 规则过滤：提取 tikz-cd 和 circuitikz 等环境，标准化代码结构（包裹在 standalone 环境中），移除外部依赖和注释。
- LLM 调试管道：针对无法编译的代码，利用 LLM（Qwen-32B）根据编译器错误日志进行自动修复，成功修复了约 60 万条样本。
- VLM 描述生成：利用视觉语言模型（VLM，如 Qwen2.5-VL）为每个可编译的 TikZ 图形生成精确的、语义丰富的文本描述，替代了原本质量低下的原始标题。

B. 模型训练：TikZilla

作者基于 Qwen 系列模型（3B 和 8B 参数）开发了 TikZilla 模型家族，采用两阶段训练策略：

阶段一：监督微调 (SFT)
- 使用 DaTikZ-V4 数据集对模型进行 SFT，使模型掌握 TikZ 语法和特定任务的 Token 分布，确保代码的基本可编译性。
阶段二：强化学习 (RL)
- 算法：采用组相对策略优化（GRPO）。
- 奖励模型 (Reward Model)：这是核心创新。作者没有使用通用的图像相似度指标（如 CLIPScore），而是训练了一个领域特定的奖励模型。
  - 该模型基于 DeTikZify-V2 的图像编码器，在 DaTikZ-V4 上进行端到端重训练（逆图形任务：图像 $\to$ TikZ）。
  - 利用地球移动距离（Earth Mover's Distance, EMD）计算生成图像与真实图像（Ground Truth）在 Patch 级嵌入之间的语义相似度，作为奖励信号。
- 优化目标：通过 RL 优化，使模型生成的代码不仅语法正确，而且在视觉语义上与目标图像高度对齐，减少幻觉和空间错误。

3. 关键贡献 (Key Contributions)

标题质量分析：证明了现有的科学论文标题不足以用于图形重建，必须使用 VLM 生成的详细描述。
大规模高质量数据集：发布了 DaTikZ-V4，包含超过 200 万条独特的 TikZ 样本，并通过 LLM 调试和 VLM 描述显著提升了数据质量。
领域特定奖励模型：提出了首个针对 Text-to-TikZ 任务的奖励模型，利用逆图形训练的图像编码器来捕捉科学图形的语义细节，优于通用指标。
TikZilla 模型系列：发布了开源的 3B 和 8B 参数模型。这些模型在自动指标和人工评估中均表现出色，且训练成本远低于大型商业模型。

4. 实验结果 (Results)

实验在自动指标和人工评估两个维度上进行了广泛测试。

自动指标表现：
- TikZilla-3B-RL 和 TikZilla-8B-RL 在综合得分（AVG）上分别达到 0.385 和 0.384。
- 超越 GPT-5：尽管 GPT-5 是强大的推理模型，但 TikZilla-3B-RL 在综合得分上仍高出 0.02 分（0.385 vs 0.365）。
- 编译率：RL 微调后，模型的编译率（Compilation Rate）提升至 95%-98%，远超基线模型（如 GPT-4o 为 78%，GPT-5 为 88%）。
- 效率：TikZilla 生成的代码平均 Token 数更少，且无需像某些 SVG 生成方法那样显式奖励代码效率，RL 自然促进了代码的简洁性。
人工评估：
- 由 9 位专家（包括博士和教授）对 1000+ 个样本进行 1-5 分评分。
- TikZilla-3B-RL 在图像对齐（Image Alignment）上得分为 3.30，文本对齐（Text Alignment）为 3.40。
- TikZilla-8B-RL 在图像对齐上得分为 3.46，与 GPT-5 (3.48) 持平，但在文本对齐上略低（3.68 vs 4.18）。
- 总体而言，TikZilla 系列模型显著优于基线模型（提升 1.5-2 分），且 3B 小模型的表现甚至超过了部分大参数模型。
消融实验：
- 验证了 VLM 描述优于原始标题。
- 证明了 LLM 调试管道对扩大可用数据集规模至关重要。
- 证实了领域特定奖励模型（RSim）比 CLIPScore 或 DreamSIM 与人类判断的相关性更高（ $\rho = 0.714$ ）。

5. 意义与影响 (Significance)

小模型也能胜任复杂任务：证明了通过高质量数据和针对性的强化学习，参数量仅为 3B-8B 的开源模型可以超越甚至匹敌 GPT-4o/GPT-5 等巨型商业模型在特定科学绘图任务上的表现。
可复现性与低成本：TikZilla 是开源的，为科学界提供了一种低成本、可复现的自动化科学绘图解决方案，减少了对昂贵专有 API 的依赖。
方法论启示：该工作展示了在代码生成任务中，结合“高质量数据清洗 + 领域特定奖励模型 + 强化学习”的范式，可以有效解决生成式模型在结构化输出中的幻觉和语义对齐问题。
未来方向：虽然描述由 VLM 自动生成可能存在偏差，但这为未来设计更细粒度的奖励函数和自动评估指标提供了基础，并可推广至 LaTeX 表格、CAD 等其他结构化生成任务。

总结：TikZilla 通过构建超大规模高质量数据集和引入基于逆图形语义的强化学习，成功解决了 Text-to-TikZ 任务中的数据噪声和语义对齐难题，实现了小参数模型在科学图形生成领域的 SOTA 性能。