ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

ChainMPQ 는 훈련 없이 텍스트와 시각적 기억을 활용한 교차 체인 추론을 통해 대규모 비전 - 언어 모델의 관계 할루시네이션을 효과적으로 완화하는 방법론을 제안합니다.

Yike Wu, Yiwei Wang, Yujun Cai

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

체인 MPQ: 그림 속 관계를 제대로 이해하는 '단계별 추리' 비법

이 논문은 최신 AI(대형 시각-언어 모델) 가 가진 치명적인 약점인 **'관계 착각 (Relation Hallucination)'**을 해결하는 새로운 방법을 소개합니다.

AI 가 그림을 볼 때 물체는 잘 알아도, 그 물체들 사이의 관계를 엉뚱하게 말해버리는 경우가 많습니다. 예를 들어, "서핑을 타는 사람"을 보고 "서핑 보드에 서 있는 사람"이라고 잘못 말하죠. 이 논문은 이를 해결하기 위해 **체인 MPQ(ChainMPQ)**라는 방법을 제안합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: AI 의 '성급한 추측' 버릇

일반적인 AI 는 그림을 볼 때 마치 무언가를 보자마자 바로 결론을 내리는 성급한 사람과 같습니다.

  • 상황: 그림에 서핑 보드 위에 탄 남자가 있습니다.
  • AI 의 실수: "남자가 서핑 보드에 서 있네!"라고 말합니다. (실제는 타고 있는 건데요)
  • 원인: AI 는 물체 (남자, 보드) 는 잘 보지만, 두 물체가 어떻게 연결되어 있는지 (타고 있는 것 vs 서 있는 것) 를 한 번에 파악하려다 실수합니다. 언어적 편견 ("보드 위에 있으면 서 있는 게 당연하지?"라는 생각) 에 휩쓸려 시각적 증거를 무시하는 거죠.

2. 해결책: 체인 MPQ (ChainMPQ)

이 논문이 제안한 방법은 AI 에게 **"서두르지 말고, 단계별로 하나씩 확인해 보라"**고 가르치는 것입니다. 마치 수사관이 사건을 해결할 때처럼요.

비유: "수사관과 증인"

이 방법은 AI 를 한 번에 모든 걸 다 안다고 믿는 초능력자가 아니라, 차근차근 증거를 수집하는 현명한 수사관으로 바꿉니다.

1 단계: 핵심 인물 찾기 (시각적 기억 강화)

  • 질문이 "남자가 보드 위에 서 있는가?"라면, AI 는 먼저 **'남자'**와 **'보드'**라는 두 핵심 인물을 그림 속에서 선명하게 찾아냅니다.
  • 마치 수사관이 사건 현장의 핵심 인물에게聚光灯 (조명) 를 비추는 것처럼, AI 는 해당 부분의 시각적 정보를 더 선명하게 만듭니다.

2 단계: 다각도의 질문 (다양한 관점의 질문 생성)

  • AI 는 원래 질문을 그대로 던지지 않고, 관계를 이루는 3 가지 요소 (주체, 대상, 관계) 를 나누어 5 가지 다른 질문을 스스로 만들어냅니다.
    • Q1: "남자는 어디에 있나요?" (위치 확인)
    • Q2: "보드는 어디에 있나요?" (위치 확인)
    • Q3: "남자는 무엇을 하고 있나요?" (행동 확인)
    • Q4: "무엇이 남자를 하고 있나요?" (피동 확인)
    • Q5: "남자와 보드의 관계는 무엇인가요?" (최종 결론)
  • 이는 마치 수사관이 "누가?", "어디서?", "무엇을?", "어떻게?"를 따로따로 확인하며 오해의 소지를 없애는 과정과 같습니다.

3 단계: 기억을 이어가는 추리 (교차된 텍스트 - 이미지 추론 체인)

  • 이것이 이 방법의 핵심입니다. AI 가 Q1 에 답할 때 얻은 텍스트 답변과 **시각적 기억 (어디를 봤는지)**을 Q2, Q3 로 이어갑니다.
  • 비유: 마치 연쇄적인 대화를 하는 것처럼요.
    • "남자는 바다에 있네 (Q1 답)" -> "그럼 보드도 바다에 있겠지 (Q2)" -> "남자가 보드 위에 타고 있네 (Q3)" -> "아, 서 있는 게 아니라 타고 있는 거구나!"
  • 이전 단계에서 얻은 정확한 정보가 다음 단계의 추리를 돕고, AI 가 엉뚱한 길로 빠지지 않도록 나침반 역할을 합니다.

3. 왜 이 방법이 좋은가요?

  • 훈련이 필요 없음: AI 를 처음부터 다시 가르칠 필요 없이, 기존 AI 가 가진 능력을 잘 활용하는 '지능적인 질문법'만 추가하면 됩니다.
  • 정확도 향상: 여러 실험 결과, 기존 AI 들이 관계 착각을 많이 하던 부분에서 정확도가 크게 향상되었습니다.
  • 유연성: 다양한 종류의 AI 모델에 모두 적용할 수 있습니다.

4. 요약: 한 줄로 정리하면?

"AI 가 그림을 볼 때, 한 번에 결론을 내리지 말고 '누가, 어디에, 어떻게'를 단계별로 확인하며 이전의 기억을 바탕으로 추론하게 하면, 엉뚱한 착각을 크게 줄일 수 있다."

이 기술은 AI 가 그림을 볼 때 인간의 논리적 사고 과정을 모방하게 만들어, 더 신뢰할 수 있는 답변을 하도록 돕는 혁신적인 방법입니다.