AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: 인공지능의 "착각" (Object Hallucination)

인공지능이 그림을 보고 설명할 때, 가끔 없는 것을 있는 것처럼 말하거나 (예: 없는 배낭을 보고 "배낭이 있다"고 함), 사실과 다르게 말하는 경우가 있습니다. 이를 '환각'이라고 부릅니다.

왜 그럴까요? 인공지능은 그림을 잘 보지만, 자신이 이전에 배운 '말 (텍스트)'의 습관에 너무 의존하기 때문입니다.
- 비유: 눈앞에 흰색 헬멧을 쓴 사람이 있는데, 인공지능은 "스키장에 가면 보통 스키보드가 있지!"라는 과거의 습관 때문에, 헬멧 대신 스키보드를 보았다고 착각합니다.
- 또는 "장갑은 보통 한 쌍으로 나온다"는 습관 때문에, 실제로는 한 장만 있는데 "두 장"이라고 말하기도 합니다.

이것은 인공지능이 **눈 (시각)**보다 **입 (언어 습관)**을 더 믿기 때문에 발생합니다.

🛠️ 2. 해결책: AFTER (적응형 사실 기반 활성화 편집)

이 문제를 해결하기 위해 연구진들은 AFTER라는 기술을 개발했습니다. 이 기술은 인공지능의 뇌 (내부 작동) 를 살짝 수정해서, **사실 (Fact)**에 기반하게 만들어줍니다.

AFTER 는 두 가지 핵심 단계로 이루어져 있습니다.

① FAS (사실로 길잡이 만들기)

상황: 인공지능이 그림을 볼 때, "이건 배낭이 아니야, 사실은 스키보드야"라고 말해주는 **정확한 설명서 (사실 기반 텍스트)**를 먼저 만들어줍니다.
비유: 인공지능이 길을 잘못 들었을 때, "너는 지금 '스키보드'라고 착각하고 있는데, 사실은 '배낭'이야"라고 **정확한 나침반 (사실 텍스트)**을 쥐여주는 것과 같습니다.
효과: 인공지능이 그림을 볼 때, 자신의 습관 (언어 편향) 이 아니라 **사실 (텍스트)**을 더 신뢰하도록 뇌의 신호를 조정합니다.

② QAO (질문마다 맞춤형 수정)

상황: 모든 질문에 똑같은 나침반만 주는 것은 부족할 수 있습니다. 질문마다 중요한 부분이 다르기 때문입니다.
- 예: "사람이 몇 명인가요?"라는 질문에는 '사람' 수에 집중해야 하고, "색깔은 무엇인가요?"라는 질문에는 '색깔'에 집중해야 합니다.
비유: 모든 길에 똑같은 지도를 주는 게 아니라, 질문 (목적지) 에 따라 지도를 살짝 수정해서 더 정확한 길로 안내하는 것입니다.
효과: 어떤 물체에 대해 물어보느냐에 따라 인공지능이 집중해야 할 부분을 유연하게 (Adaptive) 바꿔줍니다.

🏆 3. 결과: 얼마나 잘 고쳐졌을까요?

이 기술을 적용한 결과, 인공지능의 실수가 크게 줄었습니다.

성능 향상: 기존 방법들보다 16.3% 까지 환각 (틀린 말) 을 줄였습니다.
빠른 속도: 인공지능을 다시 가르치는 (재학습) 방식이 아니라, 실시간으로 뇌를 살짝 수정하는 방식이라서 속도가 매우 빠르고 비용이 적게 듭니다.
일반적인 능력 유지: 환각만 고친 것이 아니라, 그림을 보는 일반적인 능력도 오히려 더 좋아졌습니다.

💡 요약: 한 줄로 정리하면?

**"AFTER 는 인공지능이 그림을 볼 때, 과거의 습관 (말) 에만 의존하지 않고, **사실 (텍스트)을 나침반 삼아 질문마다 맞춰서 정확한 답을 하도록 뇌를 살짝 수정해주는 기술입니다."

이 기술 덕분에 인공지능이 더 신뢰할 수 있고, 실수 없는 비서 역할을 할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 시각 - 언어 모델 (LVLMs) 은 다양한 크로스모달 작업에서 뛰어난 성과를 보이지만, **객체 환각 (Object Hallucination)**이라는 심각한 문제를 안고 있습니다. 이는 모델이 실제 이미지에 존재하지 않는 객체를 생성하거나, 객체의 속성 (색상, 개수 등) 및 관계 (위치, 상호작용 등) 를 잘못 기술하는 현상입니다.

근본 원인: 언어 편향 (Language Bias). 모델이 외부 시각 입력보다 사전 학습된 언어 지식 (텍스트 통계) 을 우선시하여, 이미지의 사실적 내용과 무관한 텍스트 기반 추론을 수행합니다.
환각의 유형:
1. 범주 환각 (Category): 언어적 선입견으로 인해 객체 범주를 잘못 식별 (예: 스키장 배경에서 '스노우보드'를 '백팩'으로 오인).
2. 속성 환각 (Attribute): 객체의 개수나 색상 등을 잘못 인식 (예: 장갑이 보통 한 쌍이므로 '한 장'을 '두 장'으로 잘못 세기).
3. 관계 환각 (Relation): 객체 간의 상호작용을 잘못 기술 (예: 헬멧을 '쓰고 있는' 남자를 '헬멧을 들고 있는' 남자로 기술).
기존 방법의 한계:
- 학습 기반 방법: 재학습에 따른 높은 비용과 자원 소모.
- 추론 기반 방법 (디코딩/반복 수정): 여러 번의 추론 단계로 인한 높은 비용.
- 기존 활성화 편집 (Activation Editing): 시각적 의미 (이미지 교란 등) 를 저하시켜 활성화 방향을 유도하는 방식은 사실적인 텍스트 의미 (Factual Textual Semantics) 가 제공하는 긍정적 지도 (Positive Guidance) 를 활용하지 못해, 언어 편향을 명시적으로 해결하는 데 한계가 있었습니다.

2. 제안 방법 (Methodology: AFTER)

저자들은 **적응형 사실 기반 시각 - 텍스트 편집 (Adaptive Factual-guided Visual-Textual Editing, AFTER)**을 제안합니다. 이는 모델의 내부 활성화 (Internal Activations) 를 편집하여 언어 편향을 완화하는 추론 시 (Inference-time) 기법으로, 두 가지 핵심 모듈로 구성됩니다.

A. 사실 증강 활성화 조향 (Factual-Augmented Activation Steering, FAS)

목적: 언어 편향을 완화하기 위해 '사실적인 텍스트 의미'를 활용한 긍정적 조향 벡터를 생성합니다.
과정:
1. 사실 추출 및 텍스트화: 이미지 (COCO 등) 의 그라운드 트루스 (Ground Truth) 주석을 활용하여 범주 (Category), 속성 (Attribute: 색상, 모양, 개수), 관계 (Relation) 사실 집합을 추출합니다. 이를 기존 LVLM 을 통해 일관된 사실 기반 텍스트 설명 ( $t^+$ ) 으로 변환합니다.
2. 신뢰/불신 쌍 구성: 원본 이미지 ( $x$ ) 와 질문 ( $q$ ) 을 입력한 경우 (불신, 환각 유발 가능성) 와, 사실 기반 텍스트 ( $t^+$ ) 와 질문 ( $q$ ) 을 입력한 경우 (신뢰, 사실적 의미) 를 대비시킵니다.
3. 일반 조향 벡터 생성: 두 입력에서 얻은 활성화 차이 ( $z^+ - z^-$ ) 를 평균화하여 **일반적인 시각 - 텍스트 조향 벡터 ( $\bar{d}$ )**를 생성합니다. 이 벡터는 모델이 텍스트 기반 편향에서 사실적 의미로 활성화 방향을 이동하도록 유도합니다.

B. 쿼리 적응 오프셋 최적화 (Query-Adaptive Offset Optimization, QAO)

목적: 모든 쿼리에 동일한 벡터를 적용하는 것의 한계를 극복하고, 쿼리별 특이점을 반영한 정밀 편집을 수행합니다.
과정:
1. 쿼리 중심 사실 추출: 특정 질문 ( $q_i$ ) 에서 언급된 객체들을 식별하고, 해당 객체에 대한 상세한 사실적 텍스트 ( $t^*_i$ ) 를 생성합니다.
2. 쿼리별 편차 추정: 쿼리별 최적 편집 벡터 ( $\tilde{d}_i$ ) 와 일반 벡터 ( $\bar{d}$ ) 사이의 차이인 **오프셋 ( $o_i$ )**을 계산합니다.
3. 오프셋 추정기 학습: 경량 MLP(단일 층) 기반의 오프셋 추정기 ( $G$ ) 를 학습시켜, 입력 활성화 ( $z_i$ ) 를 기반으로 쿼리별 필요한 오프셋을 예측하게 합니다.
4. 적응적 편집: 최종 편집 벡터는 일반 벡터에 추정된 쿼리별 오프셋을 더한 형태 ( $\bar{d} + G(z)$ ) 로 적용됩니다.

3. 주요 기여 (Key Contributions)

AFTER 프레임워크 제안: 언어 편향을 완화하기 위해 사실 증강 텍스트 의미로 적응적으로 시각 활성화를 조향하는 새로운 활성화 편집 방법론을 제시했습니다.
FAS 모듈: 그라운드 트루스 주석을 범주, 속성, 관계 사실로 변환하여 텍스트화함으로써, 모델에 긍정적이고 명시적인 사실적 가이드를 제공합니다.
QAO 모듈: 일반 조향 벡터에 쿼리별 적응적 오프셋을 추가하여, 다양한 쿼리 상황에 맞는 세밀하고 다양한 편집을 가능하게 합니다.
성능 및 효율성: 기존 방법들보다 뛰어난 성능을 보이면서도, 추가 학습이나 반복 추론 없이 최소한의 비용으로 구현 가능합니다.

4. 실험 결과 (Results)

세 가지 널리 사용되는 LVLM (LLaVA-v1.5, InstructBLIP, Shikra) 을 대상으로 POPE, MME, AMBER 벤치마크에서 실험을 수행했습니다.

환각 완화 성능:
- POPE (판별 작업): 평균 정확도 (Accuracy) 4.1% 향상, F1 점수 2.6% 향상. 기존 최첨단 편집 방법 (ICT) 보다도 우월한 성능을 기록했습니다.
- MME (인지 및 지각): 환각 관련 하위 지표에서 LLaVA-v1.5 기준 45.0 점, Shikra 기준 73.4 점 등의 큰 점수 향상을 보였습니다.
- AMBER (생성 작업): 생성된 텍스트의 환각을 측정하는 CHAIR 및 Hal 지표에서 기존 베이스라인 대비 최대 16.3% (Shikra 기준) 감소를 달성했습니다.
일반화 능력: COCO 데이터셋에서 학습된 조향 벡터를 GQA(이미지 분포 변경) 및 AMBER(질문 분포 변경) 와 같은 분포 외 (Out-of-Distribution) 데이터셋에 적용했을 때도 뛰어난 성능을 유지하여 강한 일반화 능력을 입증했습니다.
기초 능력 보존: 환각을 줄임과 동시에 모델의 일반적인 시각 - 언어 이해 능력 (Cover 지표 등) 을 유지하거나 오히려 향상시켰습니다.
효율성: 추론 속도는 약 29.7 토큰/초로 기존 방법들 중 가장 빠르며, 메모리 사용량도 적어 실제 배포에 유리합니다.

5. 의의 및 결론 (Significance)

이 논문은 LVLM 의 환각 문제를 해결하기 위해 단순한 시각적 교란이 아닌, '사실적인 텍스트 의미'를 적극 활용했다는 점에서 의의가 큽니다.

언어 편향의 명시적 해결: 모델이 텍스트 지식에 의존하는 경향을 사실적 텍스트 가이드를 통해 역으로 조향함으로써, 시각 - 텍스트 간 불일치를 효과적으로 해소합니다.
적응형 정밀 제어: 쿼리별 특성을 고려한 오프셋 최적화 (QAO) 를 통해, 모든 상황에 동일한 해결책을 적용하는 기존 방법의 한계를 극복하고 정밀한 편집을 가능하게 했습니다.
실용성: 추가적인 모델 학습 (Fine-tuning) 이나 복잡한 추론 과정을 거치지 않고, 추론 시 활성화만 편집하여 높은 효율성을 제공합니다.

한계점 및 향후 과제:

오픈소스 LLM 의 내부 활성화 접근이 가능해야 하므로 폐쇄형 (Closed-source) 모델에는 적용이 제한적입니다.
의료 보고서 분석과 같은 전문 도메인 작업의 경우, 해당 도메인 특화 데이터가 추가로 필요할 수 있습니다.

결론적으로 AFTER 는 비용 효율적이면서도 강력한 성능을 통해 신뢰할 수 있는 AI 응용을 위한 중요한 기술적 진보를 제시합니다.