ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

本文介绍了 ICDAR 2025 端到端文档图像机器翻译竞赛,该竞赛通过 OCR 免提与 OCR 辅助两个赛道及不同规模模型子任务,吸引了 69 支团队参与,旨在推动复杂版本文档翻译研究并展示了大模型在该领域的巨大潜力。

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一场名为 ICDAR 2025 的“文档图像机器翻译”比赛。为了让你更容易理解,我们可以把这项技术想象成**“给一本复杂的书做翻译”**,而不仅仅是翻译一段文字。

📖 核心故事:翻译一本“乱糟糟”的书

想象一下,你手里有一本外文书,但这书不是普通的小说,它排版非常复杂:

  • 有的地方是多栏的(像报纸);
  • 有的地方是表格
  • 有的地方还有脚注(在页面底部的小字);
  • 甚至有的文字是倒着或者乱序的。

现在的任务不是让你把书里的字一个个认出来再翻译,而是直接看着这张图片,把它变成一本排版完美、内容通顺的目标语言(中文)电子书

这场比赛就是为了让 AI 学会这项“神技”。


🏆 比赛的两个“赛道”:两种不同的解题思路

比赛分成了两个大方向,就像让选手用两种不同的工具去完成任务:

1. “带翻译器”赛道 (OCR-based)

  • 比喻:这就好比你请了一个**“识字助手”**。
  • 过程:助手先把图片里的字都认出来(OCR),把字和它们的位置(坐标)都列给你。但是,助手是个“直肠子”,它把字认出来了,但顺序可能是乱的(比如先读了右下角,再读左上角)。
  • 选手的任务:你需要利用大模型,把这些乱序的单词重新排好队,整理成通顺的句子,并翻译成中文。
  • 难点:不仅要翻译,还要像个编辑一样,把打乱的拼图拼回原来的样子。

2. “纯视觉”赛道 (OCR-free)

  • 比喻:这就好比你是个**“天才画家”**,完全不需要助手,直接看图说话。
  • 过程:你直接看着那张复杂的图片,脑子里要同时理解:哪里是标题?哪里是表格?哪行字属于哪一段?然后直接输出排版好的中文 Markdown 文档。
  • 难点:这是最难的模式。AI 必须自己学会“看”懂复杂的排版,不能依赖任何现成的文字识别工具。这就像让一个不懂外语的人,直接看着外文书的插图和排版,猜出内容并翻译出来。

🧠 两种“大脑”:大模型 vs 小模型

为了测试不同能力的 AI,每个赛道又分成了两个小组:

  • 超级大脑 (LLM, >10 亿参数):像 InternVLQwen 这样的巨型模型。它们知识渊博,理解力强,能处理最复杂的乱局。
  • 小巧大脑 (Small, <10 亿参数):像 1B500M 参数的小模型。它们更轻量,适合在普通电脑或手机上运行,但能力相对有限。

比赛结果很有趣

  • 超级大脑确实更厉害,它们像经验丰富的老教授,能把复杂的表格、脚注处理得井井有条。
  • 小巧大脑虽然不如超级大脑,但经过精心“特训”(微调),也能交出不错的答卷,证明了小模型在特定任务上也能很聪明。

🏅 谁赢了?(比赛亮点)

  • 冠军团队:来自华为翻译服务中心 (Hw-tsc) 的团队几乎在所有赛道都拿了第一!
  • 他们的秘密武器:他们使用了一种叫 InternVL2.5 的超级模型,并且用了一种叫“多任务学习”和“思维链”的方法。
    • 通俗解释:他们不只是让 AI 死记硬背,而是教 AI 像人一样思考:“先看布局,再读内容,最后翻译”。他们还用了“贝叶斯解码”这种高级技巧来确保翻译出来的句子最自然、最准确。
  • 另一个亮点:有些团队(如 Lucky Star)尝试把“排版识别”和“翻译”分开做,先排好序再翻译,这也是一种很聪明的策略。

💡 这篇论文告诉我们什么?

  1. AI 正在变强:以前,让 AI 翻译一张排版复杂的图片几乎是不可能的任务。现在,AI 不仅能翻译,还能保持原来的表格、标题和段落格式,这非常了不起。
  2. “直接看图”是未来:虽然目前“带翻译器”(OCR 辅助)的方法更准,但“纯视觉”(OCR-free)的方法进步神速。未来,我们可能不再需要先把字认出来再翻译,AI 直接“看”图就能懂。
  3. 大模型是主力:在处理这种复杂任务时,参数越大的模型(超级大脑)表现越好。但小模型经过优化,也有很大的实用价值。
  4. 未来的挑战:虽然进步很大,但面对极其复杂的现实世界文档(比如手写体、模糊图片、极度混乱的排版),AI 还需要继续进化。

总结一句话
这场比赛就像是一场**“AI 排版翻译大赛”**,它证明了现在的 AI 已经不仅能“读”懂乱糟糟的外文图片,还能像人类编辑一样,把它们整理成漂亮的中文文档。华为团队凭借强大的模型和巧妙的训练方法,暂时站在了顶峰。