Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

이 논문은 고해상도 텍스트가 풍부한 이미지 번역의 정확성과 완전성을 향상시키기 위해 전역 및 국소적 이중 시각 지각 프레임워크인 GLoTran 과 대규모 데이터셋 GLoD 를 제안합니다.

Junxin Lu, Tengfei Song, Zhanglin Wu, Pengfei Li, Xiaowei Liang, Hui Yang, Kun Chen, Ning Xie, Yunfei Lu, Jing Zhao, Shiliang Sun, Daimeng Wei

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧐 문제: AI 가 "글자 많은 그림"을 볼 때 겪는 고민

상상해 보세요. 아주 복잡한 지하철 노선도나, 글씨가 빽빽하게 적힌 옛날 잡지 표지, 혹은 메뉴판이 있습니다. 이걸 AI 에게 번역하라고 하면, 기존 AI 들은 두 가지 실수를 자주 합니다.

  1. 멀리서 보면 글자가 안 보임 (세부 정보 누락): AI 가 이미지를 전체적으로 한 번에 보려고 하면, 너무 많은 정보가 쏟아져서 중요한 글자 하나하나를 놓쳐버립니다. 마치 거대한 도서관 전체를 한 번에 훑어보려고 하다가, 책장 한 줄에 적힌 작은 제목을 못 찾는 것과 같습니다.
  2. 가까이서 보면 맥락을 잃음 (맥락 오류): 반대로 글자만 확대해서 보면, "이 글자가 이 문장의 어떤 부분인지"를 모릅니다. 마치 책장 한 줄만 확대해서 읽다가, 앞뒤 문맥을 잃고 엉뚱한 뜻으로 해석하는 것과 같습니다.

기존의 AI 는 이 두 가지 사이에서 줄타기를 하느라, 글자를 빼먹거나 (Omission), 엉뚱한 번역을 하거나 (Hallucination), 문맥이 맞지 않게 번역하는 실수를 저지릅니다.


💡 해결책: GLoTran (글로벌 - 로컬 듀얼 퍼셉션)

우리는 이 문제를 해결하기 위해 "한눈에 전체를 보고, 동시에 세부 사항을 꼼꼼히 살피는" 두 가지 눈을 동시에 가진 새로운 AI 방식을 만들었습니다. 이를 GLoTran이라고 부릅니다.

1. 비유: "지도와 현미경"을 동시에 쓰는 탐정

이 방식은 마치 탐정이 사건을 해결할 때 쓰는 방법과 같습니다.

  • 글로벌 눈 (지도): 먼저 저해상도의 전체 이미지를 봅니다. 이는 마치 사건 현장의 전체 지도를 보는 것과 같습니다. "여기가 도서관인지, 식당인지, 어떤 분위기의 장소인지"라는 **큰 맥락 (Context)**을 파악합니다.
  • 로컬 눈 (현미경): 그다음 **글자가 있는 부분만 잘라낸 작은 조각 (Local Slices)**을 봅니다. 이는 현미경으로 글자 하나하나를 확대해서 보는 것과 같습니다. "이 글자가 정확히 뭐라고 쓰여 있는지"를 세부적으로 확인합니다.

GLoTran은 이 두 가지를 동시에 AI 에게 보여줍니다. "전체 지도 (글로벌) 를 보며 이 현미경 (로컬) 으로 본 글자의 뜻을 파악해라"라고 지시합니다. 덕분에 AI 는 글자를 놓치지 않으면서도, 그 글자가 어떤 상황에서 쓰였는지 정확히 이해할 수 있게 됩니다.

2. 비유: "조각난 퍼즐"을 맞추는 방식

기존 AI 는 거대한 퍼즐을 한 번에 맞추려다 지치거나 헷갈려 했지만, GLoTran 은 퍼즐을 작은 덩어리 (지역별) 로 나누어 번역합니다.

  • 먼저 첫 번째 덩어리를 번역하면, 그 결과를 **기억 (Replay)**해 둡니다.
  • 다음 덩어리를 번역할 때, "아까 번역한 내용과 이어지도록 해라"라고 이전 내용을 참고하게 합니다.
  • 이렇게 하면 문장이 끊어지거나, 같은 단어가 문맥에 따라 다르게 번역되는 실수를 막을 수 있습니다.

📚 새로운 자료: GLoD (거대한 학습 교재)

AI 가 이 능력을 배우려면 많은 연습이 필요합니다. 그래서 우리는 GLoD라는 새로운 거대한 학습 데이터셋을 만들었습니다.

  • 규모:51 만 개의 이미지와 번역 쌍을 포함합니다.
  • 특징: 메뉴판, 도로 표지판, 문서, 포스터 등 실제 세상에서 볼 수 있는 다양한 복잡한 상황을 담았습니다.
  • 구조: 각 이미지마다 '전체 그림'과 '글자 부분'을 짝지어 놓았습니다. 마치 학생에게 '전체 지도'와 '세부 지도'를 동시에 주고 연습시키는 교재와 같습니다.

🏆 결과: 왜 이것이 중요한가요?

실험 결과, GLoTran 은 기존 최고의 AI 들보다 더 빠르고, 더 정확하게, 더 꼼꼼하게 번역했습니다.

  • 작은 글자도 놓치지 않음: 메뉴판의 작은 글씨나 복잡한 문서의 세부 사항도 빠뜨리지 않고 번역합니다.
  • 맥락을 잃지 않음: 글자 하나하나의 뜻이 전체 그림의 분위기와 어긋나지 않게 번역합니다.
  • 효율성: 고해상도 이미지를 다 처리하기 위해 컴퓨터 성능을 엄청나게 쓰는 대신, 적은 계산량으로도 높은 정확도를 냅니다.

🌟 한 줄 요약

"GLoTran 은 AI 에게 '전체 그림 (지도)'과 '세부 글자 (현미경)'를 동시에 보여주어, 복잡한 텍스트가 가득한 이미지를 번역할 때 글자를 빼먹지 않고 맥락도 정확히 잡도록 만든 새로운 기술입니다."

이 기술 덕분에 앞으로 AI 는 복잡한 메뉴판, 낡은 문서, 혹은 복잡한 도로 표지판 등을 번역할 때 훨씬 더 똑똑하고 신뢰할 수 있는 도우미가 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →