Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GLoTran 的新方法，旨在解决一个非常具体的难题：如何让 AI 把高清大图里的文字（比如海报、菜单、路牌）准确、完整地翻译成另一种语言。

为了让你轻松理解，我们可以把这项技术想象成**“一位拥有‘广角眼’和‘放大镜’的超级翻译官”**。

1. 以前的翻译官遇到了什么麻烦？

想象一下，你手里拿着一张巨大的、密密麻麻写满字的高清海报（比如一张复古的纽约杂志封面），上面有各种字体、装饰图案，文字还挤在一起。

老式方法（流水线作业）： 先让一个机器把字“认”出来（OCR），再让另一个机器把认出来的字“翻”过去。
- 比喻： 就像让一个视力不好的人先拿放大镜把字一个个抄下来，再交给翻译。如果抄错了（比如把"O"看成"0"），后面翻译全错，而且效率很低。
现在的 AI 大模型（MLLMs）： 它们很聪明，能直接看图说话。但是，当图片太大、字太密时，它们会“晕头转向”。
- 比喻： 就像让一个普通人直接看那张巨大的海报。因为图片太大，他要么看不清小字（漏译），要么被旁边的装饰图案干扰（幻觉，瞎编），要么顾头不顾尾（翻译到后面忘了前面的语境，导致逻辑不通）。

2. GLoTran 是怎么解决的？（核心魔法）

GLoTran 提出了一种**“全局 + 局部”的双重感知策略**。我们可以把它想象成**“先退后看全景，再凑近看细节”**。

第一步：全局视角（广角眼）

做法： 先把那张巨大的高清海报，缩小成一张小图（比如手机屏幕大小）。
作用： 这张小图虽然看不清具体的字，但能看清整体布局。
- 比喻： 就像你站在山顶看整个城市。虽然看不清每家每户的招牌，但你知道哪里是商业区，哪里是公园，哪条路通向哪里。这给了翻译官一个**“大局观”**，知道这段文字是在讲什么场景。

第二步：局部视角（放大镜）

做法： 同时，系统会把海报上每一块有文字的区域单独裁剪出来，变成一个个清晰的小切片。
作用： 这些切片非常清晰，能看清每一个笔画。
- 比喻： 就像翻译官拿着放大镜，凑近看海报上的每一个小字块，确保把"Menu"翻译成“菜单”而不是“门”。

第三步：双重配合（指挥与执行）

做法： 翻译官（AI 模型）在翻译每一个小切片时，手里同时拿着**“小图”（全局）和“放大镜下的切片”**（局部）。
指令： 系统会告诉 AI：“看着这张小图（全局），知道这是‘节日特刊’；现在请翻译这个切片（局部）里的字，并且要符合刚才翻译过的内容。”
记忆回放： 如果前面已经翻译了“圣尼古拉斯”，后面再遇到相关词汇，系统会提醒 AI：“嘿，前面叫圣尼古拉斯，这里也要保持一致，别翻成别的。”

3. 他们做了什么准备？（GLoD 数据集）

为了训练这位“超级翻译官”，作者们并没有只靠现成的数据，而是自己造了一个巨大的**“训练场”**，叫 GLoD。

规模： 包含了 51 万张 图片。
内容： 涵盖了菜单、路牌、海报、文档等各种真实场景。
特点： 每一张图片都精心准备了“全局小图” + “局部切片” + “标准翻译答案”。
比喻： 就像给翻译官准备了一套包含 51 万道题的**“全景 + 特写”对照练习册**，让他反复练习如何既看大局又抓细节。

4. 效果怎么样？

实验结果显示，这套方法非常有效：

更完整： 以前 AI 容易漏掉角落的小字，现在几乎都能翻出来。
更准确： 以前 AI 容易把装饰图案当成文字乱翻，现在能分清主次。
更连贯： 以前翻到后面容易忘前面，现在能保持整篇文章逻辑通顺。
性价比更高： 以前为了看清字，AI 需要处理巨大的图片，非常消耗算力（像开大卡车运小包裹）；现在用“小图 + 切片”的方法，既省资源又翻得好。

总结

简单来说，这篇论文就是教 AI 学会**“退后一步看整体，凑近一步看细节”**。

以前 AI 翻译图片文字，要么像近视眼（看不清细节），要么像走马观花（忽略细节）。而 GLoTran 给 AI 配了一副**“全景眼镜”加“高倍放大镜”**，让它既能看懂整张海报的氛围，又能精准翻译每一个生僻字，从而实现了高质量的图片文字翻译。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation》（面向高分辨率文本丰富图像翻译的多模态大模型全局 - 局部双重感知）的详细技术总结。

1. 研究背景与问题 (Problem)

文本图像机器翻译 (TIMT) 旨在将嵌入在图像中的源语言文本翻译成目标语言，这需要视觉感知与语言理解的协同工作。尽管现有的多模态大语言模型 (MLLMs) 在该领域取得了一定进展，但在处理高分辨率、文本丰富 (Text-Rich) 的图像（如海报、文档、菜单、路牌等）时仍面临严峻挑战：

视觉干扰与注意力分散：高分辨率图像包含复杂的背景、非文本元素（图标、装饰）以及多样的字体，导致 MLLM 的视觉注意力被分散，难以聚焦于关键文本区域。
现有方法的局限性：
- 级联方法 (Cascade)：先 OCR 后翻译，存在误差传播、结构冗余和高延迟问题。
- 传统端到端模型：难以泛化到多样化的真实场景，常出现文本遗漏、误识别和语义漂移。
- 现有 MLLM 方法：直接处理高分辨率图像时，由于输入分辨率限制和视觉 Token 过多，导致局部文本遗漏 (Omission)、误翻译 (Mistranslation) 和幻觉 (Hallucination)，且无法保持全局上下文的一致性。

2. 核心方法论 (Methodology)

作者提出了 GLoTran，一种专为 MLLM 设计的全局 - 局部双重视觉感知框架。其核心思想是平衡“场景级上下文理解”与“细粒度文本关注”。

2.1 架构概览

GLoTran 不直接处理整张高分辨率图像，而是采用以下策略：

文本区域检测与切片：使用高性能检测器（如 PaddleOCR）识别图像中的可翻译文本区域，裁剪出多个局部切片 (Local Slices)。
全局视图下采样：将原始高分辨率图像下采样为低分辨率全局视图 (Global Image)，用于捕捉场景布局、整体语义和上下文先验。
回归式区域翻译：
- 将全局图像和局部切片同时输入 MLLM。
- 采用结构化提示 (Structured Prompt) 指导模型：全局图像作为上下文参考，局部切片作为具体翻译对象。
- 翻译回放机制 (Replay Mechanism)：在翻译第 $i$ 个切片时，模型不仅参考全局图像，还参考前 $\eta$ 个区域的翻译结果（ $P_{<i}$ ），以确保术语一致性和语篇连贯性。

2.2 全局 - 局部双重感知机制

特征编码：全局图像 ( $I_g$ ) 和局部切片 ( $I_i$ ) 分别通过共享的视觉编码器提取特征。
分层交叉注意力 (Hierarchical Cross-Attention)：在 Transformer 的早期层引入全局特征与局部特征之间的交叉注意力机制。
- 允许局部 Token 选择性地关注语义相关的全局 Token。
- 通过可学习的偏置项 ( $b_{ij}$ ) 增强空间感知，帮助模型利用场景上下文解决局部文本的歧义（例如，通过背景判断模糊文字的含义），同时保持行内连贯性。
损失函数：采用交叉熵损失，并在训练中使用 Teacher Forcing 策略，利用前序真实标签进行上下文学习。

2.3 提示工程 (Prompt Construction)

设计了包含四个组件的结构化提示 $P$ ：

全局理解指令：编码整体场景语义和空间布局。
局部聚焦指令：引导模型关注当前切片的细粒度文本，忽略无关背景。
全局 - 局部一致性规则：强制要求局部翻译与全局场景语义一致，防止上下文漂移。
翻译指令与回放：明确翻译任务，并注入前序切片的翻译结果作为上下文线索。

3. 关键贡献 (Key Contributions)

提出 GLoTran 框架：
- 首个针对高分辨率文本丰富图像翻译的全局 - 局部双重感知框架。
- 通过联合建模场景级上下文和细粒度文本区域，有效解决了 MLLM 在复杂视觉环境下的遗漏、幻觉和语义漂移问题。
构建 GLoD 数据集：
- 构建了大规模 GLoD 数据集，包含 51 万+ 高分辨率全局 - 局部图像 - 文本对。
- 覆盖 40+ 种真实场景（菜单、文档、海报、路牌等）和 5 种语言。
- 数据经过严格的多阶段清洗、检测、分组、双向翻译融合及人工校验，专门用于训练全局 - 局部双重感知范式。
实验验证与性能提升：
- 在多个基准测试（MCiTon, MTIT6）上，GLoTran 显著优于现有的开源和闭源 SOTA MLLM（如 Qwen3-VL, InternVL3, GPT-4o）。
- 证明了在高分辨率文本翻译任务中，感知策略的优化比单纯增加模型参数量更有效。

4. 实验结果 (Results)

多场景翻译性能：
- 在 MCiTon 数据集（包含文档、海报、菜单等 8 种场景）上，基于 Qwen3-VL 8B 的 GLoTran 在 BLEU 和 COMET 指标上均取得最佳成绩。
- 相比基线 Qwen3-VL 8B，平均 BLEU 提升 7.49%，COMET 提升 2.49%。
- 在文本密集且布局杂乱的场景（如文档、海报）中，BLEU 平均提升 4.6% - 5.4%。
- 在文本细小分散的场景（如简介、传单）中，提升更为显著，解决了小文本遗漏问题。
多语言翻译能力：
- 在 MTIT6 数据集（6 种语言对）上，GLoTran 在所有任务中均表现最佳，超越了参数量更大的模型。
消融实验与敏感性分析：
- 骨干网络：GLoTran 策略在不同规模模型（4B, 7B, 8B）上均带来显著提升，特别是在小参数模型上提升幅度巨大（如 InternVL2.5 4B 在 ko→zh 任务上 BLEU 提升 132%）。
- 分辨率：全局图像分辨率在 224 或 448 时效果最佳，过高分辨率反而因视觉干扰导致性能下降。
- 回放窗口：前序翻译回放窗口 $\eta=4$ 时效果最佳，平衡了上下文连贯性与噪声积累。
效率分析：
- GLoTran 在保持高分辨率输入（如 448x448 或 224x224）的同时，通过局部切片策略，避免了全图高分辨率处理带来的巨大计算开销（Token 数量显著低于直接处理全图的高分辨率模型）。
- 在 Novel 和 zh→jp 任务中，GLoTran 以较低的 Token 消耗实现了比 Qwen3-VL 全图处理更高的 BLEU 分数。

5. 意义与总结 (Significance)

范式转变：GLoTran 提出了一种新的 TIMT 范式，即不再单纯依赖“更大模型”或“更高分辨率输入”，而是通过全局上下文引导 + 局部细粒度聚焦的策略来解决复杂视觉场景下的翻译难题。
解决核心痛点：有效缓解了 MLLM 在处理高分辨率、文本丰富图像时常见的“顾此失彼”问题（即关注全局时丢失细节，关注细节时丢失上下文）。
资源高效：证明了通过合理的架构设计和数据构建，可以在有限的计算资源下（如 8B 参数模型）实现超越超大模型（如 200B+ 参数）的翻译质量。
数据基石：GLoD 数据集的发布填补了高质量、全局 - 局部对齐的文本图像翻译数据的空白，为未来相关研究提供了重要基准。

综上所述，该论文通过创新的架构设计和大规模数据集构建，显著提升了多模态大模型在复杂高分辨率文本图像翻译任务中的准确性、完整性和鲁棒性。