ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

이 논문은 2024 년 12 월부터 2025 년 4 월까지 진행된 ICDAR 2025 복잡한 레이아웃 문서 이미지 기계 번역 (DIMT) 경연대회에 대한 개요, 데이터셋, 작업 정의, 평가 프로토콜 및 69 개 팀의 참가 결과를 요약하고, 대규모 모델 접근법이 복잡한 레이아웃 문서 번역을 위한 유망한 패러다임을 제시함을 보여줍니다.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📄 복잡한 문서 번역 대회, ICDAR 2025: "눈으로 읽고, 머리로 번역하는" 인공지능의 도전

이 논문은 2025 년 ICDAR(국제 문서 분석 및 인식 컨퍼런스) 에서 열린 '문서 이미지 기계 번역 (DIMT)' 대회의 결과를 정리한 보고서입니다.

쉽게 말해, **"종이 위에 찍힌 복잡한 문서 (신문, 논문, 보고서 등) 를 사진으로 찍어서, 인공지능이 그 내용을 다른 언어로 번역해 내는 대회"**였습니다.

이 대회가 왜 중요하고, 어떤 일이 일어났는지 일상적인 비유로 설명해 드릴게요.


1. 왜 이런 대회가 열렸을까요? (문제 상황)

지금까지 인공지능 (LLM) 은 평범한 텍스트 번역이나 글자 인식 (OCR) 을 잘해냈습니다. 하지만 실제 세상의 문서는 훨씬 복잡합니다.

  • 비유: 평범한 텍스트 번역은 **'순서대로 나열된 레고 블록'**을 다른 언어로 바꾸는 작업이라면, 문서 번역은 **'잡동사니가 섞여 있고, 표가 있고, 각주가 달린 레고 성'**을 해체하지 않고 그대로 다른 언어로 재조립하는 것과 같습니다.
  • 난관: 글자가 뒤섞여 있거나, 표가 깨져 있거나, 이미지가 흐릿하면 인공지능은 "어디서부터 읽어야 하지?", "이 글자는 이 표의 일부인가?"라고 혼란에 빠집니다.

이 대회는 바로 이런 **복잡한 레이아웃 (배치)**을 가진 문서를 완벽하게 번역할 수 있는 인공지능을 찾기 위해 열렸습니다.


2. 대회는 어떻게 진행되었나요? (두 가지 트랙)

참가자들은 두 가지 방식 중 하나를 선택해 경쟁했습니다.

🅰️ 트랙 1: "OCR 보조를 받는 팀" (OCR-based)

  • 상황: 대회 주최측이 먼저 **"이 문서의 글자들을 다 뽑아냈어! (OCR 결과)"**라고 알려줍니다. 하지만 글자들이 뒤죽박죽 섞여 있습니다.
  • 미션: 인공지능은 뒤섞인 글자들을 올바른 순서로 정리하고, 그다음 번역해야 합니다.
  • 비유: 친구가 "이 책의 글자들을 다 잘라냈는데 순서가 엉망이야. 너가 순서대로 붙여놓고 번역해 줘!"라고 하는 상황입니다.

🅱️ 트랙 2: "OCR 없이 눈으로만 보는 팀" (OCR-free)

  • 상황: 글자 추출 도구는 전혀 없습니다. 오직 이미지 (사진) 하나만 주어집니다.
  • 미션: 인공지능은 이미지 속의 글자를 스스로 찾아내고, 레이아웃을 파악한 뒤, 마크다운 (정리된 문서) 형식으로 번역 결과를 내야 합니다.
  • 비유: 외국어로 된 복잡한 메뉴판 사진을 보고, 아무런 도움 없이 내용을 읽고 한국어로 정리된 메뉴를 만들어야 하는 상황입니다. 가장 어렵지만 가장 혁신적인 방식입니다.

각 트랙은 다시 **"작은 모델 (휴대폰용)"**과 **"거대 모델 (슈퍼컴퓨터용)"**로 나뉘어 경쟁했습니다.


3. 누가 이겼나요? (결과 요약)

총 69 개 팀이 참가했고, 그중 27 개 팀이 유효한 결과를 냈습니다.

  • 최강자의 등장: 화웨이 번역 서비스 센터 (Hw-tsc) 팀이 거의 모든 부문에서 1 위를 차지했습니다.
    • 그들이 사용한 InternVL2.5라는 거대 모델은 마치 **"수만 권의 책을 읽은 천재 번역가"**처럼 작동했습니다. 복잡한 표와 글자 배열을 눈치채고 자연스럽게 번역해냈습니다.
  • 작은 모델의 활약: 모델 크기가 작아도 (휴대폰 정도 크기), 잘만 다듬으면 (파인튜닝) 거대 모델과 거의 비슷한 실력을 낼 수 있다는 것을 증명했습니다.
    • 비유: 거대한 트럭 (거대 모델) 이 무거운 짐을 싣고 가지만, 잘 튜닝된 오토바이 (작은 모델) 도 좁은 골목길에서는 빠르고 효율적으로 달릴 수 있다는 뜻입니다.
  • OCR vs OCR-free:
    • OCR 보조를 받은 팀이 더 잘했습니다. (글자를 먼저 뽑아주니 실수가 적음)
    • 하지만 OCR 없이 이미지만 본 팀도 놀라운 발전을 보였습니다. 과거에는 불가능에 가까웠던 일이지만, 이제 인공지능이 이미지 속 글자를 직접 읽는 능력도 급성장하고 있습니다.

4. 이 대회가 우리에게 주는 교훈

  1. 크기가 중요하지만, '학습'이 더 중요하다: 모델이 크면 좋지만, 특정 문서 데이터로 **잘 훈련 (Fine-tuning)**시키는 것이 승패를 가릅니다.
  2. 복잡한 레이아웃을 이해하는 게 핵심: 단순히 글자를 번역하는 게 아니라, "이 글자는 제목이고, 저것은 표의 내용이다"라는 구조를 이해하는 것이 중요합니다.
  3. 미래는 'OCR-free'로 가고 있다: 아직은 글자를 먼저 뽑아주는 도구가 도움이 되지만, 인공지능이 이미지 자체를 완벽하게 이해하는 시대가 곧 올 것입니다.

🎉 결론

이 대회는 **"인공지능이 복잡한 문서 (논문, 보고서, 신문) 를 사람처럼 읽고, 구조를 파악하며, 다른 언어로 자연스럽게 번역하는 기술"**이 얼마나 발전했는지 보여준 무대였습니다.

앞으로 우리는 스마트폰으로 복잡한 외국어 문서를 찍기만 하면, 표와 그림까지 그대로 유지된 채 완벽한 번역본을 받아볼 수 있는 날이 머지않았습니다. 이 대회는 그 미래를 여는 중요한 디딤돌이 되었습니다.