TIQA: Human-Aligned Text Quality Assessment in Generated Images

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让 AI 画图很头疼的问题：AI 生成的图片里，文字总是写得歪歪扭扭、错别字连篇，或者笔画断裂。

为了让你更容易理解，我们可以把这篇论文的核心内容想象成**“给 AI 生成的文字图片请了一位专业的‘文字质检员’"**。

以下是用通俗语言和比喻做的详细解读：

1. 现在的痛点：AI 是个“文盲画家”

想象一下，你让一个很有才华的画家（现在的 AI 绘图模型）画一张海报。

画得好吗？ 画得真不错！风景很美，人物很生动，色彩也很棒。
但是... 海报上的字写得像“天书”。有的字母缺胳膊少腿，有的笔画断开了，有的字间距乱成一团。
以前的检查方法：
- OCR（光学字符识别）检查： 就像让一个只会认字的机器人看。只要它能勉强认出字是"Hello"，它就给你打高分。但它不管这个字是不是写得像“鬼画符”，也不管笔画是不是断的。
- 大模型（VLM）检查： 就像请一位博学的教授来打分。教授虽然聪明，但他容易受Prompt（提示词）的影响，而且打分不稳定，今天心情好给 5 分，明天心情不好给 3 分，而且太慢了，没法大规模使用。

结果就是： 我们缺乏一种专门用来**“看字写得漂不漂亮”**的尺子。

2. 这篇论文做了什么？（TIQA 任务）

作者们提出了一个叫 TIQA（Text-in-Image Quality Assessment，图中文字质量评估）的新任务。

它的目标： 不管字的意思对不对（比如是不是拼写错误），只关心字长得好不好看。
- 比喻： 就像书法老师批改作业。如果学生写了一个错别字，但笔锋漂亮、结构工整，老师会给高分；如果字写对了，但像蚯蚓一样扭来扭去，老师会打低分。
它的作用： 给每一张 AI 生成的文字图片打一个**“颜值分”**（0 到 5 分），这个分数和人类专家的感觉高度一致。

3. 他们准备了什么“教材”？（数据集）

为了训练这个“文字质检员”，作者们准备了两个超级大的题库：

TIQA-Crops（文字切片库）： 像切菜一样，把 1 万张图里的文字部分切下来，让 4500 个人给这些“文字切片”打分。这就像让评委专门盯着“字”看，不看背景。
TIQA-Images（整图库）： 1500 张完整的图，让评委既给整张图打分，也给图里的文字单独打分。

这些题库涵盖了 20 多种不同的 AI 绘图模型，包括很多还没公开的“秘密武器”模型。

4. 他们发明了什么新工具？（ANTIQA 模型）

作者训练了一个叫 ANTIQA 的小模型，它就是那个“文字质检员”。

它的特点：
- 眼睛很尖： 它专门盯着笔画的断裂、字体的扭曲、间距的混乱。
- 反应很快： 它不像大模型那样慢吞吞，处理速度非常快，适合在工厂流水线上用。
- 更懂人类： 实验证明，它打分的结果比 OCR 机器人和那些大模型教授都要准，跟人类评委的打分最像。

5. 这个工具有什么用？（实际应用场景）

想象一下，你是一家广告公司的老板，需要 AI 生成 100 张海报，然后挑出最好的 5 张。

以前： 你只能人工一张张看，或者用 OCR 跑一下，结果选出来的海报字还是歪的。
现在（用了 ANTIQA）：
1. 自动筛选（Best-of-K）： AI 生成 5 张图，ANTIQA 瞬间给它们打分，直接挑出字写得最漂亮的那张。
2. 效果提升： 论文说，用了这个工具，选出来的海报，人类评委觉得文字质量平均提升了 14%！
3. 流水线优化： 在生成过程中，如果 AI 发现生成的字很难看，就可以自动扔掉重画，不用浪费算力。

总结

这篇论文就像是在 AI 绘画的“文字工厂”里，安装了一套自动化的“文字美容仪”检测系统。

它不再纠结于“字写对了没”，而是专注于“字写得美不美”。通过这套系统，我们可以更高效地从 AI 生成的海量图片中，筛选出那些文字清晰、美观、可以直接拿来用的作品，让 AI 生成的海报、文档和 UI 界面真正变得可用。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着文生图（Text-to-Image, T2I）模型的快速发展，图像生成的语义理解和全局真实感已显著提升。然而，文本渲染（Text Rendering） 仍然是这些模型的一个主要故障模式。生成的图像中常出现字形畸形、笔画断裂、粗细不一致、字距（kerning）和基线不稳定等视觉伪影。

现有的评估方法存在以下局限性：

OCR 依赖： 传统的评估主要依赖 OCR（光学字符识别）的准确率或置信度。这种方法侧重于语义正确性（即文字是否可读），而忽略了人类对视觉伪影的敏感度。即使文字能被识别，人类也会因笔画断裂或排版混乱而给予低分。
VLM 评估（大视觉语言模型）： 使用 VLM 作为评判者存在标准化困难、提示词敏感、版本漂移以及计算成本高等问题。此外，VLM 往往难以在整图中精准定位微小的文本局部伪影。
通用图像质量评估（IQA）： 通用的无参考 IQA 指标（如 BRISQUE, NIMA, TOPIQ）主要针对自然图像失真（模糊、噪声），无法有效捕捉生成式文本特有的排版和字形错误。

核心问题： 缺乏一种能够独立于语义正确性，专门针对生成图像中文本渲染的感知质量（Perceptual Fidelity）进行量化评估的专用任务和方法。

2. 核心任务定义 (Task Definition)

作者提出了 TIQA (Text-in-Image Quality Assessment) 任务：

输入： 从 AI 生成图像中提取的文本区域（Text Crops）。
输出： 一个标量感知质量分数（Scalar Quality Score），该分数与人类对渲染文本保真度的判断（Mean Opinion Score, MOS）高度一致。
关键特性： 评估的是**“文字看起来怎么样”（字形、笔画、排版），而不是“文字写的是什么”**（语义）。即使拼写错误，只要视觉渲染完美，分数也应较高；反之，即使拼写正确但视觉崩坏，分数应较低。

3. 方法论 (Methodology)

3.1 数据集构建

为了训练和评估 TIQA 模型，作者发布了两个大规模基准数据集：

TIQA-Crops：
- 包含 120,000 个文本裁剪区域，来自 12 种不同的 T2I 模型。
- 10,000 个样本带有 MOS 标签（由约 4,500 名人类标注者基于 0-5 分制评分，重点关注视觉伪影，忽略语义）。
- 110,000 个样本带有 OCR 置信度标签，用于代理监督预训练（Proxy-supervised pretraining）。
TIQA-Images：
- 包含 1,500 张完整的、富含文本的 AI 生成图像，来自 10 种最新模型（包括 GPT Image 1.5, Nano Banana Pro 等专有模型）。
- 每张图像包含两个 MOS 标签：整体质量 (OQ-MOS) 和 纯文本质量 (TQ-MOS)。
- 为了分离文本质量与背景干扰，还构建了配对的“纯文本视图”（Text-only view），即保留文本区域，其余部分填充为白色。

3.2 模型架构：ANTIQA

作者提出了一种轻量级的专用模型 ANTIQA，专门针对文本渲染的几何特性设计：

输入处理： 将文本裁剪转换为灰度图，并拼接 Sobel 边缘图，以增强笔画和轮廓特征。
骨干网络： 采用紧凑的多尺度 CNN 回归器。
- 方向性条纹卷积 (Strip Convolutions)： 使用 $1\times k $和$ k\times 1$ 的残差块，引入各向异性归纳偏置（Inductive Bias），以匹配文本笔画、基线和字形的长条状几何特征。
- SE Block (Squeeze-and-Excitation)： 进行轻量级的通道重校准，抑制字体风格差异带来的噪声，增强对关键特征的响应。
多尺度融合： 提取三个分辨率的特征，通过自适应平均池化和最大池化（APB）融合，最后通过 MLP 头回归出 MOS 分数。
训练策略：
1. 预训练： 利用 110k 个 OCR 置信度样本，通过神经最优传输（Neural Optimal Transport）将 OCR 置信度映射到 MOS 分布进行预训练。
2. 微调： 在 10k 个 MOS 标注样本上进行微调，结合均方误差（MSE）损失和成对排序损失（Pairwise Ranking Loss），以同时保证分数校准和相对排序准确性。

4. 实验结果 (Results)

4.1 相关性评估 (Correlation)

在 TIQA-Crops 和 TIQA-Images 数据集上，ANTIQA 的表现显著优于基线：

TIQA-Crops (裁剪级)： ANTIQA 的皮尔逊线性相关系数 (PLCC) 达到 0.942，SROCC 为 0.935。
- 相比次优方法（Qwen3 VLM, PLCC 0.891）提升约 0.05。
- 相比 OCR 置信度（PaddleOCR, PLCC 0.778）和通用 IQA（TOPIQ, PLCC 0.401）有巨大优势。
TIQA-Images (图像级)：
- 在纯文本质量 (TQ-MOS) 上，ANTIQA 的 PLCC 为 0.842。
- 在整体质量 (OQ-MOS) 上，ANTIQA 的 PLCC 为 0.810，甚至优于专门针对整体图像设计的通用 IQA 模型。
- 相比次优方法提升约 0.08。

4.2 下游任务：Best-of-K 选择

在“从 5 次生成中选择最佳结果”的任务中，使用 ANTIQA 进行重排序（Reranking）：

文本质量提升： 平均 MOS 提升 +0.36 (约 14%)。
整体质量提升： 平均 MOS 提升 +0.30 (约 9.9%)。
相比之下，OCR 置信度虽然能提升文本质量，但对整体质量提升有限；VLM 和通用 IQA 的表现均不如 ANTIQA。

4.3 模型分析

鲁棒性： ANTIQA 在未见过的 SOTA 生成器上表现出良好的泛化能力。
文本与整体质量耦合： 研究发现，在富含文本的提示词下，文本渲染质量是决定整体图像偏好的主要因素（OQ-MOS 与 TQ-MOS 的相关性高达 0.78）。
VLM 的局限性： VLM 对提示词敏感，且在整图评估中容易受非文本内容干扰，导致对微小文本伪影的敏感度下降。

5. 主要贡献 (Key Contributions)

新任务定义 (TIQA)： 首次明确定义了独立于语义正确性的“图像内文本感知质量评估”任务，填补了生成式 AI 文本渲染评估的空白。
基准数据集： 发布了 TIQA-Crops (10k MOS + 110k OCR) 和 TIQA-Images (1.5k 全图 + 双 MOS 标注)，涵盖了 20+ 种 T2I 模型，包括最新的专有模型。
专用模型 (ANTIQA)： 提出了一种轻量级、具有文本特定归纳偏置（条纹卷积、边缘图输入）的 CNN 模型，在效率和精度上均超越了 VLM 和通用 IQA 模型。
实证价值： 证明了 TIQA 分数在生成流水线中的实际价值，能够显著提升 Best-of-K 筛选效果，并有效预测 OCR 和 VLM 的失败案例。

6. 意义与影响 (Significance)

闭环优化： TIQA 为 T2I 模型提供了缺失的局部反馈信号，可用于训练引导、重排序或作为奖励信号（Reward Signal）来优化文本渲染，而无需改变提示词语义。
生产管线过滤： 在数据清洗、模型路由和生成后处理中，ANTIQA 可作为高效的过滤器，自动剔除文本渲染低劣的样本，降低人工审核成本。
评估范式转变： 推动了从“语义正确性”向“感知保真度”的评估范式转变，强调了在视觉生成任务中，人类对视觉细节（如笔画断裂）的感知比机器可读性更为关键。

综上所述，该论文通过构建专用数据集和模型，解决了生成式 AI 中文本渲染质量评估难、现有指标不匹配人类感知的问题，为提升文生图模型的实用性和文本生成能力提供了重要的技术支撑。