Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

本文提出了名为 GLoTran 的框架,通过结合全局与局部双重视觉感知策略及构建大规模 GLoD 数据集,有效解决了多模态大语言模型在处理高分辨率、文本密集图像翻译时面临的文本遗漏、语义漂移及上下文不一致等挑战。

Junxin Lu, Tengfei Song, Zhanglin Wu, Pengfei Li, Xiaowei Liang, Hui Yang, Kun Chen, Ning Xie, Yunfei Lu, Jing Zhao, Shiliang Sun, Daimeng Wei

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GLoTran 的新方法,旨在解决一个非常具体的难题:如何让 AI 把高清大图里的文字(比如海报、菜单、路牌)准确、完整地翻译成另一种语言。

为了让你轻松理解,我们可以把这项技术想象成**“一位拥有‘广角眼’和‘放大镜’的超级翻译官”**。

1. 以前的翻译官遇到了什么麻烦?

想象一下,你手里拿着一张巨大的、密密麻麻写满字的高清海报(比如一张复古的纽约杂志封面),上面有各种字体、装饰图案,文字还挤在一起。

  • 老式方法(流水线作业): 先让一个机器把字“认”出来(OCR),再让另一个机器把认出来的字“翻”过去。
    • 比喻: 就像让一个视力不好的人先拿放大镜把字一个个抄下来,再交给翻译。如果抄错了(比如把"O"看成"0"),后面翻译全错,而且效率很低。
  • 现在的 AI 大模型(MLLMs): 它们很聪明,能直接看图说话。但是,当图片太大、字太密时,它们会“晕头转向”。
    • 比喻: 就像让一个普通人直接看那张巨大的海报。因为图片太大,他要么看不清小字(漏译),要么被旁边的装饰图案干扰(幻觉,瞎编),要么顾头不顾尾(翻译到后面忘了前面的语境,导致逻辑不通)。

2. GLoTran 是怎么解决的?(核心魔法)

GLoTran 提出了一种**“全局 + 局部”的双重感知策略**。我们可以把它想象成**“先退后看全景,再凑近看细节”**。

第一步:全局视角(广角眼)

  • 做法: 先把那张巨大的高清海报,缩小成一张小图(比如手机屏幕大小)。
  • 作用: 这张小图虽然看不清具体的字,但能看清整体布局
    • 比喻: 就像你站在山顶看整个城市。虽然看不清每家每户的招牌,但你知道哪里是商业区,哪里是公园,哪条路通向哪里。这给了翻译官一个**“大局观”**,知道这段文字是在讲什么场景。

第二步:局部视角(放大镜)

  • 做法: 同时,系统会把海报上每一块有文字的区域单独裁剪出来,变成一个个清晰的小切片
  • 作用: 这些切片非常清晰,能看清每一个笔画。
    • 比喻: 就像翻译官拿着放大镜,凑近看海报上的每一个小字块,确保把"Menu"翻译成“菜单”而不是“门”。

第三步:双重配合(指挥与执行)

  • 做法: 翻译官(AI 模型)在翻译每一个小切片时,手里同时拿着**“小图”(全局)和“放大镜下的切片”**(局部)。
  • 指令: 系统会告诉 AI:“看着这张小图(全局),知道这是‘节日特刊’;现在请翻译这个切片(局部)里的字,并且要符合刚才翻译过的内容。”
  • 记忆回放: 如果前面已经翻译了“圣尼古拉斯”,后面再遇到相关词汇,系统会提醒 AI:“嘿,前面叫圣尼古拉斯,这里也要保持一致,别翻成别的。”

3. 他们做了什么准备?(GLoD 数据集)

为了训练这位“超级翻译官”,作者们并没有只靠现成的数据,而是自己造了一个巨大的**“训练场”**,叫 GLoD

  • 规模: 包含了 51 万张 图片。
  • 内容: 涵盖了菜单、路牌、海报、文档等各种真实场景。
  • 特点: 每一张图片都精心准备了“全局小图” + “局部切片” + “标准翻译答案”。
  • 比喻: 就像给翻译官准备了一套包含 51 万道题的**“全景 + 特写”对照练习册**,让他反复练习如何既看大局又抓细节。

4. 效果怎么样?

实验结果显示,这套方法非常有效:

  • 更完整: 以前 AI 容易漏掉角落的小字,现在几乎都能翻出来。
  • 更准确: 以前 AI 容易把装饰图案当成文字乱翻,现在能分清主次。
  • 更连贯: 以前翻到后面容易忘前面,现在能保持整篇文章逻辑通顺。
  • 性价比更高: 以前为了看清字,AI 需要处理巨大的图片,非常消耗算力(像开大卡车运小包裹);现在用“小图 + 切片”的方法,既省资源又翻得好。

总结

简单来说,这篇论文就是教 AI 学会**“退后一步看整体,凑近一步看细节”**。

以前 AI 翻译图片文字,要么像近视眼(看不清细节),要么像走马观花(忽略细节)。而 GLoTran 给 AI 配了一副**“全景眼镜”加“高倍放大镜”**,让它既能看懂整张海报的氛围,又能精准翻译每一个生僻字,从而实现了高质量的图片文字翻译。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →