See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"보이는 대로 말하기, 그리고 정리하기 (See It, Say It, Sorted)"**라는 제목의 새로운 인공지능 기술을 소개합니다.

이 기술은 거대한 이미지와 언어를 동시에 이해하는 AI(시각 - 언어 모델) 가 실수를 줄이고 더 똑똑하게 생각하도록 도와주는 '무료'이고 '간단한' 방법입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🎭 1. 문제: AI 의 '망상 (Hallucination)'과 '눈이 멀어짐'

지금까지의 AI 는 그림을 보고 설명할 때, 중간 단계에서 한 번 실수하면 그 실수가 계속 이어져서 최종 답이 틀리는 경우가 많았습니다.

비유: imagine 하세요. 친구가 그림을 보고 이야기를 지어내는 게임입니다.
- 친구가 "저기 빨간 차가 있네"라고 말했는데, 사실은 파란 차였습니다.
- 하지만 친구는 이미 "빨간 차"라고 말해버렸으니, 그 다음에 "빨간 차가 빨간색 페인트를 칠하고 있네"라고 계속 이야기를 이어갑니다.
- 결국 결론은 "빨간 페인트가 필요해"가 되어버리고, 사실은 파란 차였는데 완전히 엉뚱한 결론에 도달합니다.
- AI 도 비슷합니다. 한 번 시각적 사실을 놓치면 (망상), 그 잘못된 사실이 논리의 연쇄를 타고 퍼져나갑니다.

기존에는 이 문제를 해결하기 위해 AI 를 엄청나게 많은 데이터로 다시 훈련시키거나, AI 가 스스로 "아, 내가 헷갈리네? 다시 그림을 자세히 봐야겠다"라고 학습하게 만들었습니다. 하지만 이 방법은 비용이 너무 비싸고, 특정 모델에만 적용되는 단점이 있었습니다.

🕵️‍♂️ 2. 해결책: "See It, Say It, Sorted" (보고, 말하고, 정리하기)

이 논문은 AI 를 다시 훈련시키지 않고도 (Training-Free), AI 가 그림을 볼 때 매 순간 '사실 확인'을 거치도록 만드는 새로운 방식을 제안합니다.

이 방식은 두 명의 **'도우미'**가 AI(주인공) 를 도와주는 구조입니다.

① 감시자 (Supervisor): "그게 맞니?"

역할: AI 가 말을 할 때마다, **지금까지 쌓아둔 '사실 카드 (Evidence Pool)'**와 대조해 봅니다.
비유: AI 가 "이건 빨간 차야"라고 말하려고 하면, 감시자가 "잠깐, 우리 카드 보니까 '파란 차'라고 적혀 있는데? 다시 생각해 봐."라고 말합니다.
효과: AI 가 확신할 때는 그대로 두지만, **헷갈릴 때 (확률이 낮을 때)**는 사실에 더 무게를 두어 말을 수정하게 합니다.

② 눈썰미 있는 탐정 (Visual Decider): "자세히 봐봐!"

역할: 감시자도 "이건 정말 헷갈리네"라고 판단하면, AI 가 직접 그림을 다시 자세히 보게 만듭니다.
비유: AI 가 "저기 뭐가 있는 거야?"라고 헤매면, 탐정이 그림의 특정 부분을 확대해서 **"아! 저기 나무 뒤에 숨겨진 파란 차가 있구나!"**라고 짧고 명확한 문장 (사실 카드) 을 적어서 AI 에게 건네줍니다.
중요한 점: 탐정은 그림 자체를 다시 AI 에게 넣는 게 아니라, "파란 차가 있다"는 **텍스트 (사실)**만 적어줍니다. 그래서 AI 는 이 텍스트를 기억해서 나중에 다시 쓸 수 있습니다.

🔄 3. 어떻게 작동하나요? (과정)

이 과정은 **반복적 (Iterative)**으로 일어납니다.

AI 가 말하기 시작: "이 그림에는..."
감시자 확인: "지금까지의 사실 카드와 맞지?"
- 맞다면: "좋아, 계속해." (계속 말하게 함)
- 아니라면 (헷갈림): "잠깐! 여기가 헷갈리는군."
탐정 출동: 탐정이 그림을 보고 **"파란 차가 나무 뒤에 있어"**라는 새로운 사실 카드를 만들어냅니다.
카드 추가: 이 새로운 사실을 AI 의 '사실 카드 뭉치'에 추가합니다.
다시 말하기: AI 는 이제 "파란 차가 나무 뒤에 있어"라는 사실을 바탕으로 다시 논리를 이어갑니다.

이렇게 하면 실수가 생기기도 전에 바로 잡을 수 있고, 잘못된 논리가 퍼지는 것을 막을 수 있습니다.

✨ 4. 이 기술의 놀라운 점

훈련 불필요 (Training-Free): AI 를 다시 가르칠 필요가 없습니다. 이미 만들어진 AI 에다가 이 '도우미' 시스템만 얹으면 됩니다. 마치 스마트폰에 새로운 앱을 깔듯이 플러그 앤 플레이 (Plug-and-play) 방식입니다.
비용 효율적: 탐정 (시각 분석) 은 AI 가 정말 헷갈릴 때만 부릅니다. 매번 그림을 다 보는 게 아니라, 필요할 때만 보니까 계산 비용이 적게 듭니다.
텍스트로 기억: 그림을 다시 넣는 게 아니라, **"파란 차"**라는 텍스트로 기억합니다. 그래서 AI 가 나중에 그 사실을 떠올릴 때 다시 그림을 볼 필요 없이, 기억해 둔 텍스트만 보면 됩니다.

🏆 5. 결과

이 방법을 적용하자, AI 가 그림을 보고 추리하는 능력 (TreeBench 등) 에서 기존 모델보다 16~29% 나 더 좋아졌고, 엉뚱한 소리를 하는 (망상) 비율은 크게 줄었습니다. 심지어 AI 의 크기가 커지거나 작아지거나 상관없이 모든 모델에 똑같이 잘 적용되었습니다.

📝 요약

이 논문은 "AI 가 그림을 볼 때, 중간중간 '사실 확인'을 하고, 헷갈리면 '탐정'에게 도움을 받아 정확한 정보를 텍스트로 받아와서 논리를 이어가게 하는" 아주 똑똑하고 저렴한 방법을 제안합니다.

"보이는 대로 말하고, 헷갈리면 확인하고, 사실을 정리해서 말하자!" 이것이 이 기술의 핵심입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 대형 시각 - 언어 모델 (LVLMs) 은 긴 사고의 사슬 (Chain-of-Thought, CoT) 을 생성하며 뛰어난 추론 능력을 보여주고 있습니다. 그러나 멀티모달 컨텍스트에서의 CoT 추론은 시각적 환각 (Visual Hallucination) 의 전파에 매우 취약합니다.

핵심 문제: 추론 과정의 중간 단계에서 한 번이라도 시각적 증거와 일치하지 않는 토큰이 생성되면, 이후의 논리적 단계가 아무리 타당하더라도 최종 답변이 틀릴 수 있습니다.
원인: 추론이 길어질수록 언어적 선입견 (Language Priors) 이 시각적 근거 (Visual Grounding) 를 압도하게 되어, 모델이 이미지를 '잘못 보게' 됩니다.
기존 솔루션의 한계: 기존에는 강화 학습 (RL) 을 통해 모델이 "이미지를 보며 생각 (Think with images)"하도록 훈련시키는 방법이 주류였습니다. 하지만 이는 비용이 많이 들고, 특정 모델에 종속적이며, 다른 아키텍처로 일반화하기 어렵다는 단점이 있습니다.

2. 방법론 (Methodology)

저자들은 훈련이 필요 없는 (Training-Free), 플러그 앤 플레이 (Plug-and-Play) 방식의 반복적 프레임워크인 ECRD (Evidence-Constrained Reweighting Decoding) 를 제안합니다. 이 방법은 추론 시간 (Test Time) 에 각 단계를 시각적 증거로 감시하여 토큰 선택을 조정합니다.

주요 구성 요소 및 프로세스:

증거 기반 토큰 재가중 (Evidence-Constrained Reweighting):
- 텍스트 증거 풀 (Textual Evidence Pool): 모델이 추론하는 동안 축적된 시각적 증거를 텍스트 형태로 저장합니다.
- 분배 감독자 (Distribution Supervisor): 베이스 모델이 제안한 토큰 후보군 (Top-k) 에 대해, 현재 증거 풀을 기반으로 '증거 유도 선호도 (Evidence-induced preference)'를 계산합니다.
- 협상 (Negotiation): 베이스 모델의 확률 분포와 증거 유도 분포를 가중치 ( $\alpha_i$ $α_{i}$ ) 를 통해 혼합합니다.
  - 베이스 모델이 확신할 때 (확률이 높을 때): 베이스 분포를 유지합니다.
  - 베이스 모델이 불확실할 때 (확률이 낮거나 분산이 클 때): 시각적 증거의 가중치를 높여 환각을 방지합니다.
동적 증거 풀 및 비주얼 디시더 (Visual Decider):
- 불확실성 트리거: 협상된 분포에서 토큰 간 간격이 일정 임계값 ( $\delta$ ) 이하로 좁아지면, 해당 단계를 '잠재적 환각 단계'로 간주합니다.
- 비주얼 디시더 호출: 불확실성이 감지되면 경량화된 비주얼 디시더 (예: GRIT 모델) 를 호출하여 현재 추론 맥락에 맞춰 이미지에서 필요한 부분을 분석하고 간결한 텍스트 미시 관찰 (Micro-observation) 을 생성합니다.
- 증거 축적: 생성된 텍스트 증거는 증거 풀에 추가되어 이후 모든 추론 단계에서 재사용됩니다. 이는 이미지를 다시 인코딩하거나 잘라낸 영역 (Crop) 을 반복적으로 입력하는 방식보다 계산 효율이 높습니다.

3. 주요 기여 (Key Contributions)

훈련 없는 추론 프레임워크: 별도의 파인튜닝이나 강화 학습 없이, 기존 LVLM 을 감싸는 가벼운 프레임워크로 시각적 근거 기반 추론을 가능하게 합니다.
불확실성 기반의 효율적 개입: 불확실성이 높은 단계에서만 비주얼 디시더를 호출하여 비용을 최소화하면서도 환각을 효과적으로 교정합니다.
범용성 및 성능 향상: 다양한 LVLM 백본 (Qwen, LLaVA, InternVL 등) 과 벤치마크에서 일관된 성능 향상을 보여주며, 환각률을 낮추고 추론 정확도를 높입니다.

4. 실험 결과 (Results)

다양한 벤치마크 (TreeBench, RH-Bench, V*Bench 등) 에서 광범위한 실험을 수행했습니다.

TreeBench: 시각적 근거 기반 추론 벤치마크에서 기존 오픈소스 모델 (Qwen2.5-VL-7B 등) 에 대해 16.5% ~ 29.5% 의 정확도 향상을 기록했습니다. 특히 OCR, 물리적 상태, 비교 과목에서 큰 개선을 보였습니다.
RH-Bench: 추론 길이와 환각 간의 균형을 나타내는 RH-AUC 점수가 13.7% 향상되었습니다. 이는 긴 추론 사슬에서도 정확도가 유지됨을 의미합니다.
비교 우위: RL 기반의 시각적 추론 시스템 (DeepEyes, PixelReasoner 등) 과 경쟁하거나 능가하는 성능을 보이면서도, 추가 훈련 비용이 전혀 들지 않습니다.
효율성: 불확실성 임계값 ( $\delta \approx 0.08$ ) 을 설정함으로써, 불필요한 디시더 호출을 줄이고 비용 - 정확도 트레이드오프를 최적화했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LVLM 의 시각적 환각 문제를 해결하기 위해 학습 (Training) 이 아닌 추론 시간의 제어 (Decoding-time Control) 에 초점을 맞춘 새로운 패러다임을 제시합니다.

비용 효율성: 고비용의 RL 훈련 없이도, 경량화된 모듈을 통해 모델의 추론 능력을 극대화할 수 있음을 증명했습니다.
해석 가능성: 이미지를 직접 다시 처리하는 대신, 텍스트 형태의 '미시 관찰'을 증거로 축적함으로써 모델이 왜 그 결론에 도달했는지 추적하기 쉽습니다.
실용성: 다양한 모델 아키텍처에 즉시 적용 가능한 플러그 앤 플레이 방식이므로, 실제 배포 환경에서 시각적 오류를 줄이는 데 매우 유용합니다.

결론적으로, ECRD는 "보이고 (See It), 말하고 (Say It), 정리한다 (Sorted)"는 원칙 하에, 시각적 증거를 지속적으로 검증하며 추론의 정확성을 보장하는 효율적이고 강력한 프레임워크입니다.