Each language version is independently generated for its own context, not a direct translation.
1. 문제: 기존 AI 들의 실수 (과거의 도서관 사서들)
지금까지 AI 가 문서를 읽을 때는 두 가지 방식 중 하나만 사용했습니다. 하지만 둘 다 문제가 있었죠.
- 방식 A (텍스트만 보는 사서):
- 상황: AI 가 문서의 글자만 뽑아내서 읽습니다. (OCR 기술 사용)
- 문제: 그림, 차트, 표, 복잡한 레이아웃이 있는 문서는 "글자"로 변환할 수 없거나 의미가 깨집니다. 마치 책의 내용만 읽은 채로, 책에 그려진 중요한 지도나 사진을 무시하고 설명하는 것과 같습니다.
- 방식 B (이미지만 보는 사서):
- 상황: AI 가 문서 전체를 사진처럼 보고 이해합니다. (시각 언어 모델 사용)
- 문제: 글자가 너무 많거나 작으면 AI 가 글자를 정확히 읽지 못합니다. 마치 사진을 한눈에 훑어보는데, 중요한 숫자나 작은 글씨를 놓치는 것과 같습니다.
2. 해결책: CMRAG (두 가지 능력을 모두 갖춘 조사관)
저자들은 **"왜 하나만 고집하나요? 두 가지를 모두 쓰면 안 되나요?"**라고 생각했습니다. 그래서 CMRAG를 만들었습니다.
이것은 **글자 (텍스트) 와 그림 (이미지) 을 동시에 보는 '초능력 조사관'**과 같습니다.
- 동시 작업: 질문이 들어오면, 조사관은 문서의 글자 내용도 읽으면서 동시에 그림과 표도 봅니다.
- 비유: 마치 복도 (이미지) 를 훑어보면서 동시에 책장 (텍스트) 의 제목도 확인하는 것과 같습니다. 그래서 "어디에 뭐가 있는지"를 정확히 찾아냅니다.
3. 핵심 기술: 두 가지 비법
이 조사관이 어떻게 그렇게 똑똑해질 수 있었을까요? 두 가지 비법이 있습니다.
① 통일된 언어 번역기 (UEM - Unified Encoding Model)
- 상황: 글자는 '한국어'로, 그림은 '영어'로 되어 있는 것처럼 서로 다른 언어로 되어 있어 AI 가 혼란을 겪습니다.
- 해결: CMRAG 는 질문, 글자, 그림을 모두 **하나의 공통된 언어 (공유된 공간)**로 번역합니다.
- 비유: 서로 다른 말을 하는 사람들과 대화할 때, 모두 **영어 (공통 언어)**로 통역해 주는 통역사가 있는 셈입니다. 그래서 질문과 문서의 글자, 그리고 그림이 서로 완벽하게 연결됩니다.
② 점수 맞추기 게임의 공정한 심판 (UCMR - Unified Co-modality Retrieval)
- 상황: 글자 점수와 그림 점수를 합치려는데, 기준이 다릅니다. (예: 글자 점수는 0
100 점인데, 그림 점수는 010 점이라서 합치면 안 됨) - 해결: AI 는 이 점수들을 **공정한 기준 (통계적 정규화)**으로 맞춰줍니다.
- 비유: 키가 큰 사람과 작은 사람의 키를 비교할 때, 단순히 'cm'로만 재지 않고 **자신의 평균 키 대비 얼마나 큰지 (백분위)**로 비교하는 것과 같습니다. 이렇게 해야 글자 점수와 그림 점수를 합쳐서 "어떤 문서가 가장 관련 있는지"를 정확히 판단할 수 있습니다.
4. 왜 이것이 중요한가요? (실생활 예시)
이 기술이 있으면 어떤 일이 가능할까요?
- 기업 보고서 분석: "2023 년 매출이 어떻게 변했나요?"라고 물으면, AI 는 글자만 읽지 않고 **매출이 적힌 표 (그림)**와 **그걸 설명하는 문장 (글자)**을 동시에 보고 정확한 숫자를 찾아냅니다.
- 기술 매뉴얼: "이 기계가 고장 난 이유는?"이라고 물으면, 고장 난 부위의 사진과 해당 부분의 설명 글을 함께 보고 정확한 원인을 찾아냅니다.
5. 결론
이 논문은 **"글자만 보거나 그림만 보는 것은 불완전하다"**는 것을 증명했습니다. CMRAG는 이 두 가지를 하나로 합쳐서, AI 가 복잡한 문서를 인간처럼 더 정확하게 이해하고 답할 수 있게 만들었습니다.
한 줄 요약:
**"글자도 읽고 그림도 보는, 두 눈과 두 귀를 모두 갖춘 똑똑한 AI 조사관"**을 만들어서, 복잡한 문서에서 정답을 찾는 속도와 정확도를 높였습니다.