Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 Multimodal Large Language Models(멀티모달 대형 언어 모델, MLLM) 이 겪는 '환각 (Hallucination)' 문제를 해결하기 위한 새로운 방법, COAD를 소개합니다.

한마디로 요약하면: **"AI 가 그림을 볼 때, 자신이 상상한 것을 사실인 것처럼 말하지 않게 만드는 '현실 확인' 시스템을 도입한 방법"**입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "AI 의 망상증" (할루시네이션)

우리가 AI 에게 "이 사진에 뭐가 있나요?"라고 물으면, AI 는 보통 아주 잘 대답합니다. 하지만 가끔 사진에 없는 물건을 만들어내서 말하기도 합니다.

상황: 사진에는 '피자'와 '나이프'만 있습니다.
AI 의 반응: "피자 한 조각이 접시 위에 있고, 포크와 나이프가 옆에 있네요."
실제: 사진에는 포크가 없습니다.

이런 현상을 **'할루시네이션 (환각)'**이라고 합니다. 마치 사람이 과거의 경험이나 기대감 때문에, 눈앞에 없는 것을 있는 것처럼 착각하는 것과 비슷합니다. AI 는 이전에 "나이프"라고 말했더니, 그 다음에 자연스럽게 "포크"도 있어야 할 것 같다고 생각해서 (문맥에 의존해서) 없는 포크를 만들어냅니다.

2. 기존 방법의 한계: "약한 처방전"

기존 연구자들은 이 문제를 해결하기 위해 다음과 같은 방법들을 썼습니다.

더 많은 데이터 학습: AI 에게 더 많은 사진을 보여줘서 "포크가 없으면 말하지 마"라고 가르치기.
말하기 전에 멈추게 하기: AI 가 말을 너무 길게 하거나 엉뚱한 말을 하면 강제로 끊기.
외부 지식 검색: 인터넷에서 사실을 찾아보게 하기.

하지만 이 방법들은 완벽하지 않았습니다. 데이터가 아무리 많아도 AI 는 여전히 "나이프를 봤으니 포크도 있을 거야"라는 **착각 (편향)**을 버리지 못했습니다. 마치 "나이프를 본 사람은 포크를 좋아할 거야"라는 고정관념을 가진 사람처럼, AI 는 이미 말한 단어에 너무 의존하게 됩니다.

3. 해결책: COAD (인과적 객체 인식 해독)

이 논문은 "AI 가 그림을 볼 때, '내가 전에 말한 것'에 흔들리지 않고, 오직 '눈앞의 그림'에만 집중하게" 만드는 새로운 방식을 제안합니다. 이를 COAD라고 부릅니다.

🍕 비유: "현실 확인관 (Fact-Checker)"과 "작가 (AI)"

이 시스템을 두 명의 인물이 협력하는 방식으로 상상해 보세요.

작가 (기존 AI): 그림을 보고 이야기를 써내려갑니다. 하지만 이 작가는 때로 망상증에 걸려서, "나이프를 썼으니 포크도 써야지"라고 생각하며 없는 포크를 써버립니다.
현실 확인관 (객체 탐지기): 이 사람은 AI 와는 별개로, 순수하게 그림만 보고 "여기엔 피자, 사람, 오븐은 있지만 나이프와 포크는 없다"고 객관적으로 체크합니다.

COAD 의 핵심 아이디어:
기존에는 작가가 혼자서 "나이프 -> 포크"라고 연상하며 글을 썼다면, COAD 는 작가가 글을 쓸 때마다 '현실 확인관'의 보고서를 옆에 펼쳐놓고 쓰게 합니다.

작가: "음... 피자 위에 나이가 있네. 그럼 포크도 있겠지?"
현실 확인관: "잠깐! 내 보고서에는 포크가 없다고 적혀 있어. 그건 네가 상상한 거야."
작가 (COAD 적용 후): "아, 그래. 포크는 없구나. 그럼 그냥 '피자가 잘려 있네'라고만 쓰자."

이처럼 AI 가 스스로 만들어낸 말 (이전 텍스트) 에 의존하는 경로를 차단하고, 실제 그림에서 감지된 정보 (객체) 만을 믿고 다음 단어를 선택하도록 만드는 것이 COAD 의 핵심입니다.

4. 어떻게 작동할까요? (기술적 원리)

논문에서는 이를 **'인과 관계 (Causality)'**라는 수학적인 개념으로 설명합니다.

기존 방식: "이전 텍스트 (나이프)"가 "다음 텍스트 (포크)"를 직접 결정한다고 착각합니다. (실제로는 그림에 포크가 없는데도요.)
COAD 방식: "이전 텍스트"와 "다음 텍스트" 사이의 가짜 연결고리를 끊습니다. 대신 "그림 (실제 객체)"이 "다음 텍스트"를 결정하게 합니다.

이를 위해 AI 는 두 가지 모델을 동시에 사용합니다.

원래 AI: 일반적인 방식으로 답을 예측합니다.
수정된 AI: "현실 확인관"이 알려준 객체 정보 (포크 없음) 를 입력받고, 이에 맞춰 답을 예측합니다.

이 두 가지 예측을 수학적으로 섞어서 최종 답을 내는데, 이때 "현실 확인관"의 정보가 더 중요하게 반영되도록 설계했습니다.

5. 결과는 어떨까요?

실험 결과, COAD 를 적용한 AI 는 다음과 같은 성과를 보였습니다.

환각 감소: 없는 물건을 만들어내는 경우가 기존 AI 보다 훨씬 줄었습니다. (예: 없는 포크를 말하지 않음)
정확도 유지: 없는 물건을 말하지 않으면서도, 그림에 있는 것들은 여전히 정확하게 설명합니다.
신뢰도 상승: 의료나 법률처럼 실수가 치명적인 분야에서 AI 를 쓸 때 더 믿을 수 있게 되었습니다.

6. 결론: 왜 이 연구가 중요한가요?

이 연구는 AI 가 "자신의 상상력"이 아니라 "눈앞의 사실"에 기반하여 말하도록 만드는 길을 열었습니다.

마치 망상증 환자를 치료하는 약처럼, AI 가 과거의 말에 휘둘리지 않고 현재 상황을 객관적으로 바라보게 함으로써, 우리가 AI 를 더 신뢰하고 실생활에 활용할 수 있는 기반을 마련한 것입니다.

한 줄 요약:

**"AI 가 그림을 볼 때, '생각'보다 '눈'을 믿게 만들어서, 없는 물건을 만들어내는 망상 (환각) 을 막아주는 새로운 시스템"**입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

**멀티모달 대규모 언어 모델 (MLLM)**은 비전 - 언어 작업에서 뛰어난 성능을 보이지만, 시각적 할루시네이션 (Visual Hallucination), 특히 이미지에는 존재하지 않는 물체를 생성하는 **객체 할루시네이션 (Object Hallucination)**에 취약합니다. 이는 의료 영상 분석이나 법적 문서 생성과 같은 고위험 분야에서 모델의 신뢰성을 떨어뜨립니다.

기존의 할루시네이션 완화 기법들은 크게 두 가지로 나뉩니다:

외부 지식 활용: 추가 학습 데이터 수집이나 외부 지식 베이스 검색 (RAG) 등을 사용. (데이터 수집 비용과 외부 의존성 문제 존재)
내부 메커니즘 수정: 훈련 절차 개선이나 추론 시 주의 메커니즘 (Attention) 조정 (예: EOS, OPERA, DoLa 등).

그러나 기존 내부 메커니즘 기반 방법들은 시각 입력 (이미지) 에서 생성된 응답으로의 인과적 효과 (Causal Effect) 를 명시적으로 모델링하지 못합니다. 이로 인해 생성된 텍스트가 모델의 숨겨진 상태 (Hidden States) 에 편향을 일으켜, 기존에 생성된 할루시네이션 텍스트가 새로운 할루시네이션을 유발하는 악순환이 발생합니다.

2. 제안 방법: COAD (Causal Object-Aware Decoding)

저자들은 할루시네이션을 줄이기 위해 **인과 추론 (Causal Inference)**을 모델의 디코딩 과정에 통합한 COAD를 제안합니다. 핵심 아이디어는 생성된 텍스트가 객체 존재 여부에 대한 모델의 신념 (Hidden States) 에 미치는 허위 상관관계 (Spurious Correlation) 를 차단하는 것입니다.

2.1. 핵심 메커니즘

객체 탐지 및 구조화 (Object Detection & Structuring):
- 입력 이미지에 대해 객체 탐지기 (Object Detector, 예: RTMDet) 를 사용하여 이미지 내 존재하는 객체들의 확률 분포를 추출합니다.
- 이를 모델이 이해할 수 있는 **객체 신념 벡터 (Object Belief Vector, $z$ )**로 변환합니다.
이중 모델 파인튜닝 (Dual MLLM Finetuning):
- 사전 학습된 모델 ( $M_p$ ): 기존 MLLM (이미지 $S$ 와 이전 텍스트 $x$ 만 입력).
- 파인튜닝된 모델 ( $M_f$ ): $M_p$ 를 기반으로, 이미지 $S$ , 이전 텍스트 $x$ , 그리고 객체 벡터 $z$ 를 추가 입력으로 받아 토큰을 예측하도록 파인튜닝합니다.
인과적 추론 및 개입 (Causal Intervention):
- 표준 MLLM 은 이전 텍스트 $x$ 가 숨겨진 상태 $z$ (객체 신념) 를 통해 다음 토큰 $y$ 에 영향을 미치는 경로가 존재하여 할루시네이션이 발생합니다.
- COAD 는 개입 (Intervention, $do(x) $)**을 수행하여, 객체 신념$ z $가 이전 텍스트$ x $에 의존하지 않고 **이미지$ S$에만 의존하도록 강제합니다.
- 이를 통해 허위 경로를 차단하고, 이미지 기반의 진실된 객체 정보만을 바탕으로 다음 토큰을 예측합니다.
추론 과정 (Inference Objective):
- 이상적인 오라클 모델 ( $M^*$ ) 의 예측을 근사하기 위해, 파인튜닝된 모델 ( $M_f$ ) 의 출력과 사전 학습 모델 ( $M_p$ ) 의 출력을 **혼합 모델 (Mixture Model)**로 간주합니다.
- 수식적으로 다음과 같은 최종 추론 목표를 도출합니다:
  $P(y^*|S, do(x)) \approx (1+\alpha) \sum_z P(z|S)P(y_f|S, x, z) - \alpha P(y_p|S, x)$
- 여기서 $\alpha$ 는 하이퍼파라미터이며, $P(z|S)$ 는 객체 탐지기를 통해 계산됩니다. 실제 구현에서는 $z$ 에 대한 기대값을 몬테카를로 샘플링이나 확률 기반 근사로 효율적으로 계산합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: 신뢰할 수 있는 응답 생성을 '알 수 없는 오라클 예측의 추정' 문제로 공식화하고, 이를 해결하는 COAD 프레임워크를 도입했습니다.
표적 개입 전략: 생성된 텍스트와 이미지 이해 사이의 인과적 관계를 재구성하여, 모델이 이미지 구조를 더 충실하게 추론하도록 유도합니다.
성능 입증: 다양한 벤치마크에서 기존 최첨단 (SOTA) 방법들보다 객체 할루시네이션을 획기적으로 줄이면서도 전반적인 생성 품질을 유지하거나 향상시켰음을 실험적으로 증명했습니다.

4. 실험 결과 (Results)

저자들은 LLaVA-1.5-7B 를 베이스 모델로 사용하여 COAD 를 평가했습니다.

CHAIR (Caption Hallucination Assessment):
- CHAIRI (객체 단위 할루시네이션): 3.4 (기존 SOTA 대비 가장 낮음, HALC: 5.2, OPERA: 4.5)
- CHAIRS (문장 단위 할루시네이션): 5.3 (기존 SOTA 대비 가장 낮음, HALC: 11.1, OPERA: 7.4)
- 의미: 생성된 캡션에서 존재하지 않는 물체 언급이 크게 감소했습니다.
MMHal-Bench (다양한 할루시네이션 차원 평가):
- 평균 점수: 2.52 (2 위 HALC: 2.12), 할루시네이션 발생률: 0.52 (가장 낮음).
- 객체 속성, 비교, 공간 관계 등 모든 카테고리에서 우수한 성능을 보였습니다.
POPE (객체 탐지 평가):
- Adversarial(적대적) 설정에서 정확도 79.8, F1 점수 81.2를 기록하여 모든 베이스라인을 상회했습니다. 이는 할루시네이션을 유도하는 프롬프트에도 강건함을 의미합니다.
계산 오버헤드:
- COAD 는 객체 탐지를 한 번 수행하고, 디코딩 시 두 모델 ( $M_p, M_f$ ) 을 병렬로 실행할 수 있어 효율적입니다.
- 단일 GPU 기준 토큰 생성 속도는 약 10.49 tokens/s로, 베이스 모델 (24.37) 보다 느리지만, OPERA(4.52) 나 VCD(7.98) 등 다른 할루시네이션 완화 기법들과 비교했을 때 경쟁력 있는 속도를 유지합니다.

5. 의의 및 결론 (Significance)

이 논문은 MLLM 의 할루시네이션 문제를 해결하기 위해 외부 데이터 의존 없이 모델 내부의 인과적 구조를 재설계했다는 점에서 의의가 큽니다.

인과적 접근의 효과성: 단순히 텍스트 생성 확률을 조정하는 것이 아니라, "이미지 -> 객체 신념 -> 텍스트"라는 인과 경로를 명확히 하고, "텍스트 -> 객체 신념"이라는 허위 경로를 차단함으로써 근본적인 할루시네이션 원인을 해결합니다.
실용성: 추가적인 외부 지식 베이스 구축 없이도, 기존 모델 구조에 객체 탐지기와 파인튜닝된 디코딩 로직을 추가하는 방식으로 구현 가능하여 실제 응용에 적용하기 용이합니다.
향후 과제: 현재는 주로 '객체 존재'에 초점을 맞추고 있으나, 향후 속성 (Attribute) 이나 관계 (Relation) 할루시네이션으로 범위를 확장하고, 오픈-보카불러리 탐지기를 활용하여 더 풍부한 객체 공간을 다루는 방향으로 발전할 수 있습니다.

요약하자면, COAD는 MLLM 이 이미지를 볼 때 생성된 텍스트에 의해 왜곡되지 않고, 오직 시각적 증거에 기반하여 객체를 인식하고 설명하도록 만드는 강력한 인과적 디코딩 프레임워크입니다.