Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'CIPHER'**라는 새로운 기술을 소개합니다. 이 기술은 최신 AI(시각-언어 모델) 가 그림을 볼 때 생기는 **'환각 (Hallucination)'**을 치료하는 방법입니다.

여기서 말하는 '환각'이란, AI 가 실제로 그림에 없는 물건을 마치 있는 것처럼 말해버리는 현상을 뜻합니다. 예를 들어, 그림에 '사과'가 없는데 AI 가 "여기 사과가 있어요"라고 거짓말을 하는 거죠.

이 논문의 내용을 일반인도 쉽게 이해할 수 있도록 요리사와 사진 보정에 비유해서 설명해 드릴게요.

🍳 비유: 요리를 잘하지만 망치는 요리사 (AI)

우리가 생각하는 AI 는 아주 똑똑한 요리사입니다. 사진 (재료) 을 보고 메뉴 설명 (요리법) 을 만들어냅니다. 그런데 이 요리사는 가끔 망상에 빠집니다.

현실: 사진에는 '오이'와 '호박'만 있습니다.
요리사의 망상: "이 사진에는 포도, 바나나, 브로콜리도 있어요!"라고 거짓말을 합니다.

기존의 방법들은 이 요리사를 다시 훈련시키거나 (시간과 돈이 많이 듦), 요리사가 말을 다 한 뒤에 "아니, 그건 없잖아?"라고 수정해 주는 방식이었습니다.

💡 CIPHER 의 새로운 접근법: "거짓말을 가르쳐서 치료하기"

CIPHER 는 요리사를 다시 훈련시키지 않고, **요리하는 도중 (실시간)**에 속삭여주어 거짓말을 멈추게 합니다. 그 방법은 아주 독특합니다.

1 단계: "거짓말 연습장" 만들기 (오프라인 학습)

연구자들은 먼저 AI 에게 거짓말을 유도하는 연습을 시켰습니다.

원래 사진: 오이와 호박이 있는 사진.
거짓말 유도: AI 가 "포도가 있다"고 말하게 만들기 위해, 포도가 그려진 가짜 사진을 만들어 AI 에게 보여줍니다. (이때는 실제 사진의 구조는 그대로 두고, 내용만 살짝 바꿔서 포도를 추가한 것입니다. 마치 포토샵으로 포도를 합성한 것과 비슷합니다.)
결과: AI 는 이 가짜 사진을 볼 때, "포도가 있다"고 생각하며 뇌속의 특정 신호 (신경망 상태) 를 켭니다.

이 과정을 통해 연구자들은 **"AI 가 거짓말을 할 때 뇌속에서 어떤 신호가 켜지는지"**를 정확히 찾아냈습니다. 이를 **'거짓말의 방향 (Hallucination Direction)'**이라고 부릅니다.

2 단계: 실시간으로 '거짓말 신호' 차단하기 (테스트 시간)

이제 실제 사진을 보고 설명을 할 때, CIPHER 는 AI 의 뇌속을 살짝 훑어봅니다.

AI 가 설명을 하다가 거짓말의 신호가 켜지면, CIPHER 는 그 신호를 잡아서 0 으로 만들어버립니다.
마치 라디오에서 잡음 (노이즈) 만 필터링해서 깨끗한 소리만 들리게 하는 것과 같습니다.

핵심: AI 의 머릿속을 건드리지 않고, 설명을 만들어가는 순간순간 '거짓말 신호'만 지워버리는 것입니다. 그래서 AI 는 여전히 똑똑하지만, 거짓말은 안 하게 됩니다.

🌟 왜 이 방법이 특별한가요?

훈련 불필요 (Training-free): AI 를 처음부터 다시 가르칠 필요가 없습니다. 이미 만들어진 AI 에 붙여만 쓰면 됩니다.
빠르고 가볍습니다: 설명을 만드는 속도를 늦추지 않습니다. 다른 방법들은 AI 가 말을 다 한 뒤 다시 확인하거나 여러 번 생각하게 해서 느려졌는데, CIPHER 는 한 번에 해결합니다.
시각적 환각을 잡습니다: 기존 방법들은 주로 '말'에서 오는 실수를 잡았지만, CIPHER 는 **'눈 (사진)'**에서 오는 실수를 잡는 데 특화되어 있습니다.

📝 요약

이 논문은 **"AI 가 그림을 볼 때 생기는 망상을 치료하기 위해, 먼저 AI 에게 의도적으로 거짓말을 시켜서 '거짓말의 패턴'을 찾아낸 뒤, 실제 사용 시 그 패턴만 지워버리는 기술"**을 제안합니다.

마치 감기 바이러스를 연구하기 위해 먼저 약한 바이러스를 만들어 항체를 만든 뒤, 실제 감기에 걸렸을 때 그 항체로 치료하는 것과 같은 원리입니다. 덕분에 AI 는 여전히 똑똑하고 유창하게 말하지만, 이제부터는 그림에 없는 물건을 거짓말하지 않게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 시각 - 언어 모델 (LVLMs) 은 멀티모달 작업에서 뛰어난 성능을 보이지만, 입력된 이미지와 일치하지 않는 사실과 다른 내용 (할루시네이션) 을 생성하는 심각한 문제를 안고 있습니다. 기존 연구들은 주로 텍스트 생성 과정이나 언어 모델 (LLM) 의 편향에서 비롯된 할루시네이션에 초점을 맞추었으나, 시각적 입력 (Visual Modality) 에서 기인한 할루시네이션은 상대적으로 덜 탐구되었습니다. 또한, 기존 해결 방법들은 다음과 같은 한계가 있습니다:

학습 기반 방법: 추가적인 주석 데이터와 모델 재학습이 필요해 비용이 많이 듭니다.
사후 처리 (Post-processing): 외부 도구를 사용하거나 생성 후 수정하는 방식이어서 일반화나 배포가 어렵습니다.
기존 테스트 시간 (Test-time) 방법: 대부분 텍스트 기반 할루시네이션을 대상으로 하거나, 여러 번의 순전파 (forward passes) 를 요구하여 추론 비용이 증가합니다.

2. 제안 방법: CIPHER (Methodology)

저자들은 CIPHER(Counterfactual Image Perturbations for Hallucination Extraction and Removal) 라는 새로운 학습이 필요 없는 (training-free) 테스트 시간 할루시네이션 억제 방법을 제안합니다. 이 방법은 시각적 할루시네이션을 특징 수준 (feature-level) 에서 교정합니다.

핵심 단계:

오프라인 단계 (Offline Phase): OHC-25K 데이터셋 구축 및 할루시네이션 부분공간 추정
- 반사실 이미지 생성 (Counterfactual Image Generation): MSCOCO 데이터셋의 이미지 - 캡션 쌍을 기반으로, GPT 를 이용해 캡션을 일부 변형 (할루시네이션이 포함된 캡션 생성) 한 후, 이를 조건으로 Stable Diffusion 모델을 사용하여 원본 이미지의 구조는 유지하되 의미적으로 잘못된 요소 (예: 없는 물체 추가) 를 삽입한 '할루시네이션 이미지'를 생성합니다. 이를 통해 25,000 개의 반사실 데이터셋 (OHC-25K) 을 구축합니다.
- 할루시네이션 방향 추출: 원본 이미지 - 캡션 쌍과 생성된 반사실 이미지 - 원본 캡션 쌍을 LVLM 에 입력하여 은닉 상태 (hidden states) 를 추출합니다. 두 상태의 차이 벡터 ( $\delta = \tilde{h} - h$ ) 를 계산하고, 이를 행렬로 쌓은 후 특이값 분해 (SVD) 를 수행합니다.
- 부분공간 (Subspace) 정의: SVD 를 통해 추출된 상위 $r$ 개의 우특이 벡터 (right-singular vectors) 가 시각적 할루시네이션을 특징짓는 저차원 부분공간 (low-rank subspace) 을 형성합니다. 이를 '할루시네이션 기저 은행 (Hallucination Basis Bank)'으로 저장합니다.
추론 단계 (Inference Phase): 할루시네이션 억제
- 테스트 시, 모델이 텍스트를 생성하는 과정에서 선택된 레이어의 은닉 상태가 할루시네이션 부분공간과 직교하는 공간으로 투영 (Projection) 됩니다.
- 수학적으로, 은닉 상태 $h$ 에서 할루시네이션 기저 벡터 $v$ 에 대한 성분을 제거하여 정제된 상태 $h_{clean}$ 을 생성합니다 ( $h_{clean} = P h$ , 여기서 $P$ 는 투영 행렬).
- 이 과정은 모델 가중치를 변경하거나 추가 학습 없이 단일 순전파 (single forward pass) 로만 수행되어 추론 오버헤드가 거의 없습니다.

3. 주요 기여 (Key Contributions)

시각적 할루시네이션 특화 방법론: 기존 텍스트 기반 접근법과 달리, 이미지 변형 (Diffusion-guided perturbations) 을 통해 시각적 모달리티에서 발생하는 할루시네이션을 명시적으로 타겟팅합니다.
OHC-25K 데이터셋: 확산 모델 (Diffusion Model) 을 이용해 생성된 25,000 개의 반사실 이미지 - 캡션 쌍으로 구성된 데이터셋을 공개하여, 할루시네이션 방향을 정량적으로 추정할 수 있는 기반을 마련했습니다.
효율적인 테스트 시간 억제: 모델 재학습 없이, 중간 은닉 상태에 대한 경량 투영 (projection) 만으로 할루시네이션을 제거하며, 기존 방법들보다 추론 속도가 빠릅니다.
광범위한 실험 검증: 다양한 벤치마크 (CHAIR, OPOPE, MMHal, LLaVA-Bench) 에서 SOTA(최고 성능) 방법들을 능가하는 결과를 입증했습니다.

4. 실험 결과 (Results)

CHAIR 벤치마크: LLaVA-1.5, MiniGPT-4, mPLUG-Owl2 모델 모두에서 할루시네이션율 (CHAIRS, CHAIRI) 을 가장 크게 감소시켰습니다. 예를 들어, LLaVA-1.5 에서 CHAIRS 는 20.40% (Greedy) 에서 13.05% 로 감소했습니다.
유창성 유지: 할루시네이션을 줄임에도 불구하고 BLEU 점수나 GPT-4V 기반 평가 (정확도, 상세성) 에서 성능이 유지되거나 오히려 향상되었습니다.
추론 효율성: CIPHER 는 Greedy 디코딩과 동일한 처리량 (Throughput: 0.70 items/s) 을 유지하며, OPERA 나 HALC 같은 기존 방법들보다 훨씬 빠릅니다.
분석 (Ablation Study):
- 시각적 vs 텍스트적 변형: 텍스트만 변형한 경우보다 이미지를 Diffusion 으로 변형한 경우가 할루시네이션 방향을 더 명확하게 분리해 내는 것을 확인했습니다.
- 확산 시간 단계 (Diffusion Step): $0.5T$ (전체 단계의 절반) 에서 변형된 이미지가 구조는 유지하면서 의미적 오류를 가장 잘 포착하여 최적의 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LVLM 의 할루시네이션 문제를 해결하기 위해 반사실적 시각적 변형 (Counterfactual Visual Perturbations) 이 강력한 도구임을 증명했습니다. CIPHER 는 모델의 구조를 변경하거나 재학습하지 않고도, 시각적 할루시네이션의 본질적인 방향성을 특징 공간에서 찾아 제거함으로써, 사실성 (Faithfulness) 과 유창성 (Fluency) 을 동시에 개선하는 효율적인 솔루션을 제시합니다. 이는 향후 신뢰할 수 있는 멀티모달 AI 시스템 개발에 중요한 기여를 할 것으로 기대됩니다.

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

🍳 비유: 요리를 잘하지만 망치는 요리사 (AI)

💡 CIPHER 의 새로운 접근법: "거짓말을 가르쳐서 치료하기"

1 단계: "거짓말 연습장" 만들기 (오프라인 학습)

2 단계: 실시간으로 '거짓말 신호' 차단하기 (테스트 시간)

🌟 왜 이 방법이 특별한가요?

📝 요약

1. 문제 정의 (Problem)

2. 제안 방법: CIPHER (Methodology)

핵심 단계:

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes