MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

이 논문은 시각적 근거에 기반한 반성적 검증 과정을 통해 VLM 의 환각과 논리 오류를 줄이고 추론 정확도를 향상시키는 'MIRROR' 프레임워크와 이를 학습시키기 위한 'ReflectV' 데이터셋을 제안합니다.

Haoyu Zhang, Yuwei Wu, Pengxiang Li, Xintong Zhang, Zhi Gao, Rui Gao, Mingyang Gao, Che Sun, Yunde Jia

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

거울 (MIRROR): AI 가 그림을 보고 "다시 한번 확인해!"라고 말하는 방법

이 논문은 **시각-언어 모델 **(VLM)이라는 AI 가 그림을 보고 질문에 답할 때, 자주 하는 실수인 "**환각 **(Hallucination)"을 해결하기 위한 새로운 방법을 소개합니다.

간단히 말해, "AI 가 그림을 볼 때 한 번 보고 끝내지 말고, 거울처럼 비추어 다시 확인하고 수정하는 과정"을 가르친 것입니다.


1. 왜 이런 연구가 필요할까요? (문제 상황)

지금까지의 AI 는 그림을 보고 질문에 답할 때, 마치 눈을 감고 상상하는 화가와 비슷했습니다.

  • 상황: 그림에 "비행기 5 대"가 있는데, AI 는 "비행기 4 대"라고 답합니다.
  • 기존 AI 의 반응: "아, 내가 4 대라고 생각했어. 그런데 다시 생각해보니 5 대일 수도 있겠네."라고 글자만 바꿔서 답을 수정합니다.
  • 문제점: 하지만 AI 는 실제로 그림을 다시 자세히 보지 않았습니다. 그냥 "글자상으로는 5 대가 더 말이 되겠지"라고 추측만 했을 뿐입니다. 그래서 여전히 틀린 답을 내놓거나, 그림에 없는 물건을 만들어내는 (환각) 실수를 합니다.

2. MIRROR 의 해결책: "거울 (Mirror) 을 들이대다"

이 논문은 AI 에게 **거울 **(MIRROR)을 들이대라고 제안합니다. 여기서 거울은 AI 가 그림의 특정 부분을 다시 한번 집중해서 보는 도구를 의미합니다.

🪞 MIRROR 의 작동 원리 (4 단계 사이클)

  1. **초기 답안 작성 **(Draft) AI 가 그림을 보고 일단 답을 냅니다. (예: "비행기 4 대")
  2. **스스로 반성 **(Critique) AI 가 스스로에게 묻습니다. "내가 정말 다 봤나? 혹시 숨겨진 건 없나?"
  3. **거울로 다시 보기 **(Visual Verification) 이것이 핵심입니다! AI 는 **"이 부분을 다시 봐야겠다"**라고 생각하면, 그림 위에 색깔 점이나 동그라미를 그리는 도구를 켭니다.
    • 예시: "아, 저기 뒤에 숨은 비행기가 있네!"라고 생각하면, AI 는 그림의 그 특정 위치에 보라색 타원을 그려서 표시합니다.
  4. **답안 수정 **(Revision) 이제 AI 는 표시된 부분을 보고 다시 답을 고칩니다. (예: "아, 숨은 비행기가 있었구나! 정답은 5 대다!")

이 과정을 정답이 나올 때까지 반복합니다. 마치 우리가 시험 문제를 풀다가 헷갈리면, 지우개로 지우고 다시 문제를 꼼꼼히 읽는 것처럼 AI 가 그림을 다시 읽는 것입니다.

3. 어떻게 가르쳤을까요? (ReflectV 데이터셋)

AI 에게 이 능력을 가르치기 위해 연구팀은 ReflectV라는 새로운 교재를 만들었습니다.

  • 상상해 보세요: 선생님과 학생이 그림을 보고 대화하는 상황입니다.
    • 학생: "비행기 4 대요!"
    • 선생님: "아니, 저기 뒤에 하나 더 있잖아. 다시 봐봐."
    • **학생 **(스스로 반성) "아! 제가 깜빡했네요. 저기 뒤에 숨은 비행기를 보니까 5 대네요."
  • 연구팀은 이런 실수 → 지적 → 다시 확인 → 수정하는 과정을 2 만 4 천 개나 만들어 AI 에게 가르쳤습니다. 특히 AI 가 "어디를 다시 봐야 하는지"를 **그림 위에 표시 **(점, 선, 박스)하는 법을 배웠습니다.

4. 결과는 어떨까요?

실험 결과, MIRROR 를 적용한 AI 는 다음과 같은 변화를 보였습니다.

  • 환각 감소: 그림에 없는 물건을 만들어내는 실수가 크게 줄었습니다.
  • 정확도 향상: 복잡한 그림이나 글자가 많은 문서에서도 정답을 더 잘 찾습니다.
  • 신뢰성: AI 가 "제 답이 맞는지 그림을 다시 확인했습니다"라고 말하며 근거를 보여주기 때문에, 우리가 믿고 사용할 수 있습니다.

5. 마치며: 왜 중요한가요?

이 연구는 AI 가 단순히 "글을 잘 쓰는 기계"에서 "그림을 보고 꼼꼼히 확인하는 현명한 관찰자"로 변모하게 합니다.

마치 수험생이 문제를 풀 때, "아, 내가 실수했네"라고 생각하면 지우개로 지우고 문제를 다시 꼼꼼히 읽는 것처럼, AI 도 이제 **그림을 다시 보고 **(Look Again) 정답을 찾아냅니다. 이는 AI 가 우리 삶에서 더 신뢰할 수 있는 파트너가 되는 중요한 첫걸음입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →