Each language version is independently generated for its own context, not a direct translation.

거울 (MIRROR): AI 가 그림을 보고 "다시 한번 확인해!"라고 말하는 방법

이 논문은 **시각-언어 모델 **(VLM)이라는 AI 가 그림을 보고 질문에 답할 때, 자주 하는 실수인 "**환각 **(Hallucination)"을 해결하기 위한 새로운 방법을 소개합니다.

간단히 말해, "AI 가 그림을 볼 때 한 번 보고 끝내지 말고, 거울처럼 비추어 다시 확인하고 수정하는 과정"을 가르친 것입니다.

1. 왜 이런 연구가 필요할까요? (문제 상황)

지금까지의 AI 는 그림을 보고 질문에 답할 때, 마치 눈을 감고 상상하는 화가와 비슷했습니다.

상황: 그림에 "비행기 5 대"가 있는데, AI 는 "비행기 4 대"라고 답합니다.
기존 AI 의 반응: "아, 내가 4 대라고 생각했어. 그런데 다시 생각해보니 5 대일 수도 있겠네."라고 글자만 바꿔서 답을 수정합니다.
문제점: 하지만 AI 는 실제로 그림을 다시 자세히 보지 않았습니다. 그냥 "글자상으로는 5 대가 더 말이 되겠지"라고 추측만 했을 뿐입니다. 그래서 여전히 틀린 답을 내놓거나, 그림에 없는 물건을 만들어내는 (환각) 실수를 합니다.

2. MIRROR 의 해결책: "거울 (Mirror) 을 들이대다"

이 논문은 AI 에게 **거울 **(MIRROR)을 들이대라고 제안합니다. 여기서 거울은 AI 가 그림의 특정 부분을 다시 한번 집중해서 보는 도구를 의미합니다.

🪞 MIRROR 의 작동 원리 (4 단계 사이클)

**초기 답안 작성 **(Draft) AI 가 그림을 보고 일단 답을 냅니다. (예: "비행기 4 대")
**스스로 반성 **(Critique) AI 가 스스로에게 묻습니다. "내가 정말 다 봤나? 혹시 숨겨진 건 없나?"
**거울로 다시 보기 **(Visual Verification) 이것이 핵심입니다! AI 는 **"이 부분을 다시 봐야겠다"**라고 생각하면, 그림 위에 색깔 점이나 동그라미를 그리는 도구를 켭니다.
- 예시: "아, 저기 뒤에 숨은 비행기가 있네!"라고 생각하면, AI 는 그림의 그 특정 위치에 보라색 타원을 그려서 표시합니다.
**답안 수정 **(Revision) 이제 AI 는 표시된 부분을 보고 다시 답을 고칩니다. (예: "아, 숨은 비행기가 있었구나! 정답은 5 대다!")

이 과정을 정답이 나올 때까지 반복합니다. 마치 우리가 시험 문제를 풀다가 헷갈리면, 지우개로 지우고 다시 문제를 꼼꼼히 읽는 것처럼 AI 가 그림을 다시 읽는 것입니다.

3. 어떻게 가르쳤을까요? (ReflectV 데이터셋)

AI 에게 이 능력을 가르치기 위해 연구팀은 ReflectV라는 새로운 교재를 만들었습니다.

상상해 보세요: 선생님과 학생이 그림을 보고 대화하는 상황입니다.
- 학생: "비행기 4 대요!"
- 선생님: "아니, 저기 뒤에 하나 더 있잖아. 다시 봐봐."
- **학생 **(스스로 반성) "아! 제가 깜빡했네요. 저기 뒤에 숨은 비행기를 보니까 5 대네요."
연구팀은 이런 실수 → 지적 → 다시 확인 → 수정하는 과정을 2 만 4 천 개나 만들어 AI 에게 가르쳤습니다. 특히 AI 가 "어디를 다시 봐야 하는지"를 **그림 위에 표시 **(점, 선, 박스)하는 법을 배웠습니다.

4. 결과는 어떨까요?

실험 결과, MIRROR 를 적용한 AI 는 다음과 같은 변화를 보였습니다.

환각 감소: 그림에 없는 물건을 만들어내는 실수가 크게 줄었습니다.
정확도 향상: 복잡한 그림이나 글자가 많은 문서에서도 정답을 더 잘 찾습니다.
신뢰성: AI 가 "제 답이 맞는지 그림을 다시 확인했습니다"라고 말하며 근거를 보여주기 때문에, 우리가 믿고 사용할 수 있습니다.

5. 마치며: 왜 중요한가요?

이 연구는 AI 가 단순히 "글을 잘 쓰는 기계"에서 "그림을 보고 꼼꼼히 확인하는 현명한 관찰자"로 변모하게 합니다.

마치 수험생이 문제를 풀 때, "아, 내가 실수했네"라고 생각하면 지우개로 지우고 문제를 다시 꼼꼼히 읽는 것처럼, AI 도 이제 **그림을 다시 보고 **(Look Again) 정답을 찾아냅니다. 이는 AI 가 우리 삶에서 더 신뢰할 수 있는 파트너가 되는 중요한 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

시각 - 언어 모델 (VLM) 은 다양한 멀티모달 작업에서 뛰어난 성능을 보이지만, 복잡하거나 모호한 시각적 입력을 처리할 때 여전히 할루시네이션 (Hallucination) 과 논리적 오류에 취약합니다.

기존 접근법의 한계: 기존 VLM 들은 초기 추론이 틀렸을 때 "반성 (Reflection)"을 하도록 프롬프트를 주더라도, 그 수정 과정이 주로 텍스트 기반으로만 이루어집니다. 이는 모델이 실제 이미지 증거와 단절된 채 언어적 선입견 (linguistic priors) 에 의존하여 "수정된" 답변을 생성하게 만듭니다.
핵심 과제: 모델이 논리적 오류를 감지했을 때, 단순히 텍스트를 다시 쓰는 것이 아니라 이미지의 특정 영역을 다시 확인 (Re-examine) 하여 시각적 증거를 기반으로 답변을 수정하는 폐쇄 루프 (Closed-loop) 검증 메커니즘이 필요합니다.

2. 방법론 (Methodology)

저자들은 이를 해결하기 위해 MIRROR 프레임워크를 제안합니다. 이는 시각적 영역에 대한 반성 (Reflection) 을 통해 멀티모달 반복 추론을 수행하는 폐쇄 루프 검증 프로세스입니다.

A. MIRROR 프레임워크의 핵심 구조

MIRROR 는 4 단계로 구성된 반복적인 사이클을 수행합니다:

초안 작성 (Draft): 초기 답변 생성.
자기 반성 (Critique): 초기 답변의 불확실성이나 오류를 식별.
시각적 검증 (Region-based Verification): 오류가 의심되는 영역을 식별하고, 시각 프롬프트 생성기 (Visual Prompt Generator) 를 호출하여 해당 영역에 마커 (점, 원, 박스 등) 를 추가한 새로운 이미지를 생성합니다.
- 도구: Molmo-7B(텍스트를 좌표로 매핑) 와 SAM 2(세그멘테이션 및 마커 생성) 를 활용합니다.
수정 (Revision): 시각적 마커가 추가된 새로운 이미지 ( $I_k$ ) 와 이전 대화 기록을 입력받아 답변을 수정합니다.
이 과정은 답변이 시각적으로 근거가 있을 때까지 반복됩니다.

B. 데이터셋 구축: ReflectV

이러한 능력을 학습시키기 위해 약 24,000 개의 샘플로 구성된 ReflectV 데이터셋을 구축했습니다.

멀티에이전트 파이프라인: GPT-4V 를 활용해 "학생 (초기 답변 생성)"과 "교사 (피드백 제공)" 시뮬레이션을 수행하여 다중 턱 대화 데이터를 생성합니다.
자기 반성 변환 (Self-Reflective Conversion): 외부 피드백 ("당신의 답은 틀렸습니다") 을 모델이 스스로 인식하는 1 인칭 반성 ("내 답이 틀렸을 수 있습니다") 으로 변환합니다.
시각적 근거화 (Visual Grounding): 반성 텍스트에 구체적인 시각적 속성 (예: "빨간 점으로 표시된 부분") 을 명시적으로 포함시켜, 텍스트 추론이 시각적 증거와 연결되도록 합니다.
데이터 필터링: 시각적 마커가 텍스트와 일치하지 않거나 (Visual Consistency Filtering), 오류 수정이 성공적으로 수렴하지 않은 샘플을 제거하여 고품질 데이터를 확보했습니다.

C. 학습 전략

모델: Qwen2.5-VL-7B 를 기반으로 SFT(지도 미세조정) 수행.
하이브리드 궤적 적응 (Trajectory Adaptation): 다중 턱 반성 데이터와 단일 턱 QA 데이터를 적절히 혼합 (비율 $\rho=0.75$ ) 하여, 모델이 오류 수정 능력과 효율적인 1 회 추론 능력을 모두 갖추도록 학습시킵니다.

3. 주요 기여 (Key Contributions)

MIRROR 프레임워크 제안: VLM 이 시각적 도구를 활용하여 특정 이미지 영역을 능동적으로 검증하고, 이를 통해 폐쇄 루프 추론을 수행할 수 있도록 한 새로운 아키텍처입니다.
ReflectV 데이터셋 구축: 오류 감지, 시각적 검증, 답변 수정의 궤적을 명시적으로 모델링한 고품질 시각적 반성 데이터셋 (약 24k 샘플) 을 공개했습니다.
성능 입증: 다양한 벤치마크에서 기존 최첨단 모델 (SOTA) 과 추론 모델들을 능가하는 성능을 보이며, "시각적 증거를 찾는 과정"으로서의 반성 학습이 할루시네이션 감소와 근거 기반 추론 향상에 필수적임을 입증했습니다.

4. 실험 결과 (Results)

MIRROR 는 Qwen2.5-VL, InternVL3, LLaVA-OneVision 등 강력한 베이스라인 및 다른 추론 모델 (VL-Rethinker, PixelReasoner 등) 과 비교 평가되었습니다.

일반 능력 및 OCR/문서 이해: MM-Vet, OCRBench, ChartQA 등에서 SOTA 성능을 기록했습니다. 특히 OCR 및 문서 이해 작업에서 시각적 세부 사항을 놓치지 않고 정확도를 크게 향상시켰습니다.
할루시네이션 감소: POPE(객체 할루시네이션) 와 HallusionBench에서 기존 모델 대비 약 13% 이상의 성능 향상을 보이며 할루시네이션을 효과적으로 억제했습니다.
세밀한 지각 (Fine-grained Perception): HRBench, MME-RealWorld-Lite 등에서 복잡한 시각적 특징을 식별하는 능력이 크게 개선되었습니다.
효율성: 텍스트 기반 반성 모델 (VL-Rethinker) 에 비해 추론 시간과 토큰 소비량을 약 30~50% 절감하면서도 더 높은 정확도를 달성했습니다.
Ablation Study:
- 도구 사용의 중요성: 시각 프롬프트 생성기를 제거한 버전 (MIRROR w/o tool) 은 성능이 크게 저하되어, 능동적인 시각적 검증이 필수적임을 증명했습니다.
- 학습 패러다임: 단순 QA 데이터로 학습한 모델보다 폐쇄 루프 반성 과정이 포함된 MIRROR 가 훨씬 우수한 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 VLM 의 추론 능력을 향상시키기 위해 반성 (Reflection) 을 단순한 텍스트 수정 단계가 아닌, 능동적인 시각적 증거 탐색 및 검증 과정으로 재정의했다는 점에서 의의가 큽니다.

패러다임 전환: "생각하기 (Thinking)"가 텍스트에만 국한되지 않고, "이미지로 생각하기 (Thinking with Images)"를 넘어 "이미지를 다시 보기 (Looking Again)" 를 통해 검증하는 폐쇄 루프 구조를 확립했습니다.
신뢰성 있는 AI: 시각적 근거에 기반한 추론을 통해 할루시네이션을 줄이고, 복잡한 멀티모달 작업에서 모델의 신뢰성을 높이는 데 기여합니다.
한계 및 향후 과제: 현재 추상적인 수학 문제 (기하학적 논리) 나 복잡한 속성 결합 (예: "5 개의 꽃잎과 3 개의 잎") 에서는 시각적 마커가 추상적 개념을 공간적으로 매핑하는 데 한계가 있음을 인정하며, 향후 추상적 영역에서의 검증 정밀도 향상을 계획하고 있습니다.

요약하자면, MIRROR는 VLM 이 자신의 오류를 감지했을 때 텍스트만 믿지 않고, 시각적 도구를 통해 이미지를 다시 확인하고 증거를 찾아 답변을 수정하는 인간과 유사한 인지 과정을 구현한 획기적인 프레임워크입니다.

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions