OCR-Agent: Agentic OCR with Capability and Memory Reflection

이 논문은 비전 - 언어 모델이 반복적인 수정 과정에서 발생하는 인지 편향을 해결하고 안정적으로 성능을 향상시키기 위해, 오류 진단 및 수정 계획 수립을 위한 '역량 반영 (Capability Reflection)'과 과거 시도 재검토를 통한 반복 방지 및 새로운 해결책 탐색을 위한 '기억 반영 (Memory Reflection)'을 결합한 새로운 자기 수정 프레임워크인 OCR-Agent 를 제안합니다.

Shimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 OCR-Agent: 실수를 인정하고 기억하며 smarter 해지는 AI 비서

이 논문은 **"OCR-Agent"**라는 새로운 인공지능 시스템을 소개합니다. 쉽게 말해, 이 시스템은 사진 속 글자를 읽는 AI 가 단순히 한 번 읽고 끝내는 게 아니라, **스스로 실수를 발견하고, 과거의 실수를 기억하며, 더 정확한 답을 찾아내는 '똑똑한 비서'**가 되는 방법입니다.

기존의 AI 는 복잡한 문제를 풀 때 "내가 잘 못 봤나?"라고 생각하기는커녕, 같은 실수를 반복하거나 "사진을 고쳐보자"처럼 AI 가 할 수 없는 일을 제안하며 허둥지둥하곤 했습니다. OCR-Agent 는 이 문제를 해결하기 위해 두 가지 특별한 능력을 장착했습니다.


🧠 두 가지 핵심 능력: "자신에 대한 성찰"과 "기억력"

이 시스템은 마치 숙제하는 학생처럼 작동합니다.

1. 능력 성찰 (Capability Reflection): "내가 할 수 있는 일만 하자!"

  • 상황: 학생이 수학 문제를 풀다가 "아, 이 숫자가 너무 흐릿해서看不清 (안 보임) 이네. 현미경으로 확대해서 다시 보자!"라고 말합니다.
  • 문제: 학생은 현미경을 가지고 있지 않아요. AI 도 마찬가지입니다. "사진을 고쳐라"거나 "사람에게 확인해 달라"는 말은 AI 가 할 수 없는 일입니다.
  • 해결책 (OCR-Agent): 이 AI 는 **"내가 할 수 있는 일만 계획하자"**라고 스스로에게 말합니다.
    • ❌ "사진을 고쳐라" (할 수 없음) → 거부
    • ✅ "이미지 속 특정 부분을 다시 집중해서 읽어라" (할 수 있음) → 수용
    • 비유: 요리사가 "요리할 때 마법 지팡이로 재료를 변형하자"라고 생각하지 않고, "내가 가진 칼과 불로 어떻게 요리할까?"라고 현실적으로 계획을 세우는 것과 같습니다.

2. 기억 성찰 (Memory Reflection): "지난번에 같은 실수 하지 말자!"

  • 상황: 학생이 문제를 풀다가 틀렸어요. 다음 번에 다시 풀 때, "어? 아까도 이렇게 풀었는데 틀렸네. 또 같은 방법으로 해보자!"라고 다시 실수를 반복합니다.
  • 문제: 많은 AI 는 같은 실수를 반복하며 답을 못 찾습니다.
  • 해결책 (OCR-Agent): 이 AI 는 **"지난번에 왜 틀렸는지, 어떤 생각이 잘못되었는지"**를 메모장에 적어두고 기억합니다.
    • "아, 지난번에 'B'를 고르라고 생각했는데, 지도를 보면 'B'는 틀렸어. 그건 다시 하지 말자."
    • 비유: 길을 잃었을 때, "아까 왼쪽으로 갔더니 막혔었지? 이번엔 오른쪽으로 가자"라고 과거의 경험을 바탕으로 새로운 길을 찾는 것과 같습니다.

🚀 어떻게 작동할까요? (3 단계 과정)

이 AI 는 한 번에 답을 내지 않고, 3 번의 단계를 거쳐 답을 다듬습니다.

  1. 초기 답변: AI 가 사진을 보고 일단 답을 냅니다. (예: "A 와 B 가 정답이야!")
  2. 성찰과 계획:
    • "잠깐, 내가 '사진을 고쳐보자'고 생각했는데, 그건 내가 못 하는 일이야. (능력 성찰)"
    • "지난번에 B 를 고르려다가 틀렸었지. 그건 다시 하지 말아야 해. (기억 성찰)"
    • "그럼 다시 집중해서 A 와 C 를 확인해 보자."
  3. 최종 답변: 새로운 계획을 바탕으로 다시 생각해서 더 정확한 답을 냅니다. (예: "아, 다시 보니 B 는 틀리고 A 만 맞아!")

🏆 결과가 어땠나요?

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

  • 기존 AI 들: 같은 실수를 반복하거나, 답이 점점 나빠지기도 했습니다.
  • OCR-Agent: 스스로 수정하는 능력 덕분에 정답률이 크게 올라갔습니다. 특히 복잡한 그림을 보고 추리하는 문제나, 한자/영어로 된 텍스트를 읽는 문제에서 최고의 성능을 보였습니다.

💡 결론

이 논문은 **"AI 가 무조건 똑똑해지는 게 아니라, 자신의 한계를 알고, 실수를 기억하며, 현실적으로 계획을 수정하는 과정이 중요하다는 것"**을 보여줍니다.

마치 숙련된 탐정이 사건을 해결할 때, "내가 가진 단서만 가지고 다시 추리해보자"라고 생각하며 과거의 실수를 교정하듯이, OCR-Agent 는 스스로를 성찰하고 기억하는 능력을 통해 더 신뢰할 수 있는 AI 가 되었습니다. 이제부터는 AI 가 "내가 잘 못 봤어, 다시 볼게!"라고 말하며 더 똑똑해질 수 있는 시대가 온 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →