Each language version is independently generated for its own context, not a direct translation.
📄 복잡한 문서 번역 대회, ICDAR 2025: "눈으로 읽고, 머리로 번역하는" 인공지능의 도전
이 논문은 2025 년 ICDAR(국제 문서 분석 및 인식 컨퍼런스) 에서 열린 '문서 이미지 기계 번역 (DIMT)' 대회의 결과를 정리한 보고서입니다.
쉽게 말해, **"종이 위에 찍힌 복잡한 문서 (신문, 논문, 보고서 등) 를 사진으로 찍어서, 인공지능이 그 내용을 다른 언어로 번역해 내는 대회"**였습니다.
이 대회가 왜 중요하고, 어떤 일이 일어났는지 일상적인 비유로 설명해 드릴게요.
1. 왜 이런 대회가 열렸을까요? (문제 상황)
지금까지 인공지능 (LLM) 은 평범한 텍스트 번역이나 글자 인식 (OCR) 을 잘해냈습니다. 하지만 실제 세상의 문서는 훨씬 복잡합니다.
- 비유: 평범한 텍스트 번역은 **'순서대로 나열된 레고 블록'**을 다른 언어로 바꾸는 작업이라면, 문서 번역은 **'잡동사니가 섞여 있고, 표가 있고, 각주가 달린 레고 성'**을 해체하지 않고 그대로 다른 언어로 재조립하는 것과 같습니다.
- 난관: 글자가 뒤섞여 있거나, 표가 깨져 있거나, 이미지가 흐릿하면 인공지능은 "어디서부터 읽어야 하지?", "이 글자는 이 표의 일부인가?"라고 혼란에 빠집니다.
이 대회는 바로 이런 **복잡한 레이아웃 (배치)**을 가진 문서를 완벽하게 번역할 수 있는 인공지능을 찾기 위해 열렸습니다.
2. 대회는 어떻게 진행되었나요? (두 가지 트랙)
참가자들은 두 가지 방식 중 하나를 선택해 경쟁했습니다.
🅰️ 트랙 1: "OCR 보조를 받는 팀" (OCR-based)
- 상황: 대회 주최측이 먼저 **"이 문서의 글자들을 다 뽑아냈어! (OCR 결과)"**라고 알려줍니다. 하지만 글자들이 뒤죽박죽 섞여 있습니다.
- 미션: 인공지능은 뒤섞인 글자들을 올바른 순서로 정리하고, 그다음 번역해야 합니다.
- 비유: 친구가 "이 책의 글자들을 다 잘라냈는데 순서가 엉망이야. 너가 순서대로 붙여놓고 번역해 줘!"라고 하는 상황입니다.
🅱️ 트랙 2: "OCR 없이 눈으로만 보는 팀" (OCR-free)
- 상황: 글자 추출 도구는 전혀 없습니다. 오직 이미지 (사진) 하나만 주어집니다.
- 미션: 인공지능은 이미지 속의 글자를 스스로 찾아내고, 레이아웃을 파악한 뒤, 마크다운 (정리된 문서) 형식으로 번역 결과를 내야 합니다.
- 비유: 외국어로 된 복잡한 메뉴판 사진을 보고, 아무런 도움 없이 내용을 읽고 한국어로 정리된 메뉴를 만들어야 하는 상황입니다. 가장 어렵지만 가장 혁신적인 방식입니다.
각 트랙은 다시 **"작은 모델 (휴대폰용)"**과 **"거대 모델 (슈퍼컴퓨터용)"**로 나뉘어 경쟁했습니다.
3. 누가 이겼나요? (결과 요약)
총 69 개 팀이 참가했고, 그중 27 개 팀이 유효한 결과를 냈습니다.
- 최강자의 등장: 화웨이 번역 서비스 센터 (Hw-tsc) 팀이 거의 모든 부문에서 1 위를 차지했습니다.
- 그들이 사용한 InternVL2.5라는 거대 모델은 마치 **"수만 권의 책을 읽은 천재 번역가"**처럼 작동했습니다. 복잡한 표와 글자 배열을 눈치채고 자연스럽게 번역해냈습니다.
- 작은 모델의 활약: 모델 크기가 작아도 (휴대폰 정도 크기), 잘만 다듬으면 (파인튜닝) 거대 모델과 거의 비슷한 실력을 낼 수 있다는 것을 증명했습니다.
- 비유: 거대한 트럭 (거대 모델) 이 무거운 짐을 싣고 가지만, 잘 튜닝된 오토바이 (작은 모델) 도 좁은 골목길에서는 빠르고 효율적으로 달릴 수 있다는 뜻입니다.
- OCR vs OCR-free:
- OCR 보조를 받은 팀이 더 잘했습니다. (글자를 먼저 뽑아주니 실수가 적음)
- 하지만 OCR 없이 이미지만 본 팀도 놀라운 발전을 보였습니다. 과거에는 불가능에 가까웠던 일이지만, 이제 인공지능이 이미지 속 글자를 직접 읽는 능력도 급성장하고 있습니다.
4. 이 대회가 우리에게 주는 교훈
- 크기가 중요하지만, '학습'이 더 중요하다: 모델이 크면 좋지만, 특정 문서 데이터로 **잘 훈련 (Fine-tuning)**시키는 것이 승패를 가릅니다.
- 복잡한 레이아웃을 이해하는 게 핵심: 단순히 글자를 번역하는 게 아니라, "이 글자는 제목이고, 저것은 표의 내용이다"라는 구조를 이해하는 것이 중요합니다.
- 미래는 'OCR-free'로 가고 있다: 아직은 글자를 먼저 뽑아주는 도구가 도움이 되지만, 인공지능이 이미지 자체를 완벽하게 이해하는 시대가 곧 올 것입니다.
🎉 결론
이 대회는 **"인공지능이 복잡한 문서 (논문, 보고서, 신문) 를 사람처럼 읽고, 구조를 파악하며, 다른 언어로 자연스럽게 번역하는 기술"**이 얼마나 발전했는지 보여준 무대였습니다.
앞으로 우리는 스마트폰으로 복잡한 외국어 문서를 찍기만 하면, 표와 그림까지 그대로 유지된 채 완벽한 번역본을 받아볼 수 있는 날이 머지않았습니다. 이 대회는 그 미래를 여는 중요한 디딤돌이 되었습니다.