Each language version is independently generated for its own context, not a direct translation.

📄 "AgenticOCR": 필요한 것만 골라내는 똑똑한 문서 읽기 비서

이 논문은 **'검색된 생성 (RAG)'**이라는 기술이 문서 검색 분야에서 겪고 있는 큰 문제를 해결하기 위해 제안한 새로운 방법, AgenticOCR에 대해 설명합니다.

기존 방식과 AgenticOCR 의 차이를 이해하기 위해, **'거대한 도서관'**과 **'현명한 사서'**의 비유를 들어보겠습니다.

1. 문제: "모든 페이지를 다 읽으라고?" (기존 방식의 한계)

지금까지 문서 검색 시스템은 사용자의 질문을 받으면, 관련이 있을 것 같은 문서 전체 페이지를 AI 에게 보여줬습니다.

비유: 친구가 "내일 날씨 어때?"라고 물었을 때, 당신이 친구에게 **전체 일기장 (1 년 치)**을 다 펼쳐 보여주고 "여기서 날씨만 찾아봐"라고 시키는 것과 같습니다.
문제점:
1. 정보 과부하: AI 는 불필요한 광고, 머리글, 발음기호, 관련 없는 그림까지 모두 읽어야 하므로 중요한 정보 (날씨) 에 집중하기 어렵습니다.
2. 할루시네이션 (환각): 너무 많은 정보를 한 번에 처리하려다 보니, AI 가 없는 내용을 만들어내거나 엉뚱한 답을 할 확률이 높아집니다.
3. 비효율: 고해상도 문서 전체를 처리하려면 엄청난 계산 자원 (비용) 이 듭니다.

2. 해결책: AgenticOCR (요구사항에 맞춰 필요한 부분만 잘라내는 비서)

이 논문은 AgenticOCR을 소개합니다. 이는 단순히 글자를 읽는 것이 아니라, **"질문을 분석해서 필요한 부분만 찾아내어 확대해 보여주는 똑똑한 비서"**입니다.

핵심 개념: "모든 것을 읽기 (Parsing Everything)"에서 **"필요한 것만 읽기 (Parsing Only What You Need)"**로 패러다임을 바꿉니다.
어떻게 작동할까요? (창의적 비유)
- 스마트한 사서: 사용자가 "2023 년 매출이 얼마야?"라고 질문하면, AgenticOCR 비서는 문서 전체를 훑어보지 않습니다. 대신 **"아, 매출 표가 있는 페이지를 찾아야겠구나"**라고 생각한 후, 해당 페이지의 매출 표가 있는 작은 부분만 잘라내어 (Crop) 확대해 줍니다.
- 줌인 (Zoom-in) 기능: 표가 작거나 글자가 흐릿하면, 비서가 직접 그 부분을 **확대경 (Zoom)**으로 확대하고, 심지어 **회전 (Rotate)**까지 시켜서 글자를 또렷하게 읽습니다.
- 필터링: 관련 없는 페이지는 아예 무시하고, 정말 필요한 정보만 AI 생성 모델에게 전달합니다.

3. 왜 이것이 혁신적인가요?

정밀도 향상: AI 가 불필요한 정보에 방해받지 않고, 오직 '증거'가 되는 부분에만 집중하므로 답이 훨씬 정확해집니다.
비용 절감: 문서 전체를 고해상도로 처리할 필요가 없어, AI 가 사용하는 계산 자원 (토큰) 이 크게 줄어듭니다.
유연성: 문서의 레이아웃이 복잡하거나 표가 비뚤어져 있어도, 비서가 직접 그 부분을 바로잡아 읽어주기 때문에 실수가 적습니다.

4. 실제 사례: 재무제표 읽기

상황: "2023 년 12 월 31 일과 2024 년 9 월 30 일의 총자산 증가액은 얼마야?"라는 질문이 들어옵니다.
기존 방식: 재무제표 전체 페이지를 AI 에게 보여줍니다. AI 는 헤더, 푸터, 다른 표들 사이에서 숫자를 찾아야 하므로 헷갈릴 수 있습니다.
AgenticOCR 방식:
1. 비서가 "총자산 (Total Assets)"이 적힌 **표 (Table)**를 찾아냅니다.
2. 해당 표만 잘라내어 확대합니다.
3. AI 는 확대된 표만 보고 "307,351 에서 290,136 을 빼면 17,215 이다"라고 바로 계산해냅니다.
4. 결과: 정확한 답변을 빠르고 저렴하게 얻습니다.

5. 결론: 문서 처리의 새로운 표준

AgenticOCR 은 OCR(광학 문자 인식) 기술을 수동적인 '전체 스캔'에서 능동적인 '질문 기반 탐색'으로 변화시켰습니다. 마치 도서관에서 책 전체를 다 읽는 대신, 사서가 질문의 핵심을 파악해 정확한 페이지의 정확한 줄만 가리켜주는 것과 같습니다.

이 기술은 복잡한 재무 보고서, 기술 매뉴얼, 학술 논문 등을 다루는 AI 시스템의 정확성과 효율성을 획기적으로 높여줄 것으로 기대됩니다.

한 줄 요약:

"문서 전체를 다 읽게 하지 말고, 질문에 딱 맞는 부분만 잘라내어 확대해 보여주는 똑똑한 비서를 도입하자!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

시각적 문서 (금융 보고서, 기술 매뉴얼 등) 를 대상으로 한 검색 증강 생성 (RAG) 의 확장 과정에서 다음과 같은 핵심 병목 현상이 발생하고 있습니다.

페이지 단위 청킹의 비효율성: 기존 시각적 RAG 는 문서를 페이지 단위로 분할하여 검색합니다. 이로 인해 생성 모델 (Generator) 에는 헤더, 푸터, 장식 요소 등 질문과 무관한 방대한 시각적 컨텍스트가 함께 전달됩니다.
주의 메커니즘의 희석: 불필요한 시각적 정보가 생성 모델의 어텐션 (Attention) 메커니즘을 희석시켜, 질문과 관련된 핵심 증거 (Evidence) 에 집중하는 능력을 저하시킵니다.
토큰 예산의 낭비 및 할루시네이션: 고해상도 페이지를 제한된 비주얼 토큰 예산으로 압축해야 하므로, 미세한 세부 사항이 손실되거나 모델이 환각 (Hallucination) 을 일으킬 위험이 증가합니다. 특히 회전된 표나 작은 글씨, 복잡한 수식이 포함된 경우 이러한 문제가 심화됩니다.
정적 OCR 의 한계: 기존 OCR 은 "모든 것을 파싱하는 (Parsing Everything)" 정적 전처리 과정으로, 사용자의 특정 질의 (Query) 에 따라 필요한 부분만 동적으로 추출하는 요구를 충족하지 못합니다.

2. 방법론 (Methodology)

저자들은 OCR 을 정적 전처리 단계에서 질의 기반의 동적 에이전트 프로세스로 전환하는 AgenticOCR을 제안합니다. 이는 시각적 RAG 파이프라인에서 '검색 (Retrieval)'과 '생성 (Generation)' 사이의 제 3 의 핵심 구성 요소로 작동합니다.

2.1 핵심 도구: `image_zoom_and_ocr_tool`

모델이 문서를 직접 조작할 수 있는 단일하고 다목적의 도구를 설계했습니다.

기능: 입력 이미지 ( $I$ ) 에서 특정 영역 ( $bbox$ ) 을 자르고, 회전 ( $\theta$ ) 을 보정하며, 해당 영역의 시맨틱 유형 ( $\tau$ : 텍스트, 표, 수식, 이미지 등) 에 따라 OCR 또는 레이아웃 분석을 수행합니다.
동작 방식:
- Region 모드: 복잡한 영역에 대해 레이아웃 분석 후 세분화된 인식을 수행 (MinerU 파이프라인 활용).
- Element 모드: 레이아웃 검출을 생략하고 텍스트/표/수식에 대해 직접 인식을 수행하여 효율성 극대화.
- Image 모드: OCR 없이 시각적 패치만 반환하여 순수 시각적 지각 가능.
의미: 모델이 "어디를 볼지", "어떻게 방향을 잡을지", "어떤 세밀함으로 파싱할지"를 스스로 결정하여 인간과 유사한 시각적 주의를 모방합니다.

2.2 훈련 파이프라인 (Two-Stage Training)

초기화 (Supervised Fine-Tuning, SFT):
- 트랙토리 증류 (Trajectory Distillation): Gemini-3-Pro-Preview 를 사용하여 고품질의 도구 사용 궤적을 생성하고, 거부 샘플링 (Rejection Sampling) 을 통해 정밀한 바운딩 박스 매칭을 가진 양질의 데이터 (5k 개) 를 선별합니다.
- 부정 샘플링: 관련 없는 페이지에서 도구를 호출하지 않도록 학습시키기 위해, 의미론적으로 유사하지만 논리적으로 관련 없는 페이지 (1.5k 개) 를 부정 샘플로 구성합니다.
정렬 (Reinforcement Learning, GRPO):
- GRPO (Group Relative Policy Optimization): SFT 이후 공간적 정밀도와 인간 선호도를 최적화하기 위해 강화 학습을 적용합니다.
- 보상 함수 설계:
  - 정확도: Recall (IoU 기반) 을 최대화.
  - 행동 제약: 불필요한 예측 (Spurious Prediction), 중복된 영역 (Redundant Overlap), 전체 페이지를 자르는 것 (Lazy Full-Page Parsing) 에 대해 페널티를 부과하여 최소한의 필요한 영역만 추출하도록 유도합니다.

2.3 RAG 통합 프로토콜

AgenticOCR 은 페이지 검색 후 생성 전 단계에서 플러그 앤 플레이 (Plug-and-play) 미들웨어로 작동합니다.

검색된 페이지를 분석하여 질의와 관련된지 판단.
관련성이 있다면 image_zoom_and_ocr_tool 을 호출하여 구조화된 증거 (자른 이미지 + OCR 텍스트) 추출.
추출된 증거를 저해상도 페이지 스크린샷과 함께 생성 모델 (예: Gemini) 에 전달.

3. 주요 기여 (Key Contributions)

개념적 정립: 시각적 문서 RAG 스택에서 임베딩 (Embedding) 및 재랭킹 (Reranking) 모듈과 병렬로 작동하는 **"세 번째 빌딩 블록"**으로서 AgenticOCR 을 정립했습니다.
모델 구현: Qwen3-VL 기반의 AgenticOCR 모델 (4B, 8B) 을 개발하고 오픈소스화했습니다. SFT 와 GRPO 를 결합한 2 단계 훈련을 통해 고품질의 에이전트 행동을 학습시켰습니다.
실증적 검증: 복잡한 시각적 문서 이해 (긴 문서, 표, 차트 등) 에서 기존 에이전트 프레임워크 및 인간 전문가 수준을 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

벤치마크: MMLongBench-Doc (긴 문서 이해) 및 FinRAGBench-V (금융 문서).

전체 성능:
- MMLongBench-Doc: AgenticOCR-8B 모델이 Evidence+OCR 입력 구성에서 **66.4%**의 정확도를 기록하여, 인간 전문가 베이스라인 (65.8) 을 상회하고 최적화된 DocLens 프레임워크 (66.1) 와 경쟁 가능한 수준을 달성했습니다.
- FinRAGBench-V: **78.6%**의 정확도로 기존 모든 에이전트 프레임워크를 압도했습니다.
모달리티별 강점: 텍스트 (TXT), 레이아웃 (LAY), 그림 (FIG) 처리에서 탁월한 성능을 보였으며, 이는 에이전트가 필요한 부분을 정밀하게 확대 (Zoom) 하고 파싱하는 능력 덕분입니다.
효율성:
- 불필요한 시각적 노이즈를 제거하여 생성 모델의 **신호 - 토큰 비율 (Signal-to-Token Ratio)**을 극대화했습니다.
- 일부 생성 모델 (Qwen3-VL) 의 경우, 전체 페이지를 입력하는 것보다 필요한 부분만 잘라낸 증거를 입력할 때 토큰 소비를 줄이면서도 정확도를 높였습니다.
한계: 표 (Table) 의 경우 헤더 없이 일부만 추출되는 경우가 발생하며, 답변 불가능 (Unanswerable) 인 질문에 대한 판별력은 아직 개선의 여지가 있습니다.

5. 의의 및 결론 (Significance)

패러다임의 전환: "모든 것을 파싱하는" 정적 OCR 에서 "필요한 것만 파싱하는" 동적 에이전트 OCR 로의 전환을 주도했습니다.
비용 절감 및 정확도 향상: 생성 모델이 처리해야 할 시각적 토큰 양을 줄이면서도 핵심 정보의 밀도를 높여, 장기 문서 이해의 정확도와 효율성을 동시에 개선합니다.
미래 방향: 페이지 검색의 구조화된 색인 구축, 데이터 엔지니어링을 통한 검색 정밀도 향상, 그리고 시각적 에이전트와 생성형 LLM 간의 더 긴밀한 통합을 통해 향후 연구의 방향성을 제시합니다.

이 논문은 시각적 RAG 시스템의 핵심 병목 현상을 해결하기 위해, OCR 을 단순한 전처리 도구가 아닌 지능형 에이전트 도구로 재정의함으로써 문서 이해 기술의 새로운 지평을 열었습니다.

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

📄 "AgenticOCR": 필요한 것만 골라내는 똑똑한 문서 읽기 비서

1. 문제: "모든 페이지를 다 읽으라고?" (기존 방식의 한계)

2. 해결책: AgenticOCR (요구사항에 맞춰 필요한 부분만 잘라내는 비서)

3. 왜 이것이 혁신적인가요?

4. 실제 사례: 재무제표 읽기

5. 결론: 문서 처리의 새로운 표준

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

2.1 핵심 도구: image_zoom_and_ocr_tool

2.2 훈련 파이프라인 (Two-Stage Training)

2.3 RAG 통합 프로토콜

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

MERIT: Memory-Enhanced Retrieval for Interpretable Knowledge Tracing

Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data

Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs

2.1 핵심 도구: `image_zoom_and_ocr_tool`