Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

이 논문은 생성 단계에서 은닉 상태를 직접 조작하여 외부 교정 신호 없이 자기 수정을 가능하게 하는 '레이어 어텐션을 활용한 내부 자기 수정 (ICLA)' 메커니즘을 제안함으로써, 기존 완화 기법의 효과가 떨어지는 최신 대규모 비전 - 언어 모델의 환각 현상을 효과적으로 완화함을 보여줍니다.

April Fu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 시각-언어 모델 (LVLM) 이 눈을 감고 상상만 하며 엉뚱한 이야기를 하는 '환각 (Hallucination)' 문제를 해결하는 새로운 방법"**을 소개합니다.

기존의 방법들이 더 똑똑해진 최신 AI 에서는 먹히지 않게 되자, 연구자는 **"AI 가 스스로를 바로잡을 수 있는 내장된 '자기 교정' 기능을 만들어냈다"**고 말합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🎨 비유 1: 그림을 보고 이야기를 만드는 '화가'와 '감정평가사'

1. 문제: AI 가 왜 엉뚱한 말을 할까? (환각 현상)
과거의 AI 는 그림을 볼 때, 눈으로 본 것보다 자기가 알고 있는 '상식'이나 '기억'에 더 의존했습니다.

  • 상황: 그림에 '개'가 있는데, AI 는 "아마 이 개는 '고양이'겠지?"라고 추측합니다.
  • 이유: AI 가 그림을 자세히 보지 않고, "개는 보통 이런 모양이야"라는 **기존의 편견 (언어적 편향)**을 먼저 떠올렸기 때문입니다.
  • 심화: 더 깊은 층 (Layer) 으로 갈수록 AI 는 처음에 본 정확한 정보를 잊어버리고, "아, 내가 방금 고양이였다고 생각했지?"라며 **과도하게 생각 (Overthinking)**하다가 엉뚱한 결론을 내립니다.

2. 실패한 구세주들 (기존 방법들)
과거에는 AI 가 실수하는 패턴을 분석해서 "너는 상식만 믿지 말고 그림을 봐!"라고 가르치는 방법들이 있었습니다.

  • 하지만 최신 AI (Qwen2.5-VL 등) 는 너무 똑똑해져서, 이전처럼 "상식만 믿는" 단순한 실수를 잘 하지 않습니다.
  • 그래서 과거의 방법들을 최신 AI 에 적용하면, 오히려 AI 가 혼란스러워져서 성능이 떨어지는 일이 생깁니다. (마치 초고급 스포츠카에 자전거 브레이크를 달아서 오히려 차가 멈추는 것과 같습니다.)

🛠️ 해결책: ICLA (내부 자기 교정 시스템)

연구자가 제안한 ICLA는 AI 외부에서 "그림을 봐!"라고 외치는 것이 아니라, AI 내부의 '생각하는 과정'을 실시간으로 도와주는 시스템입니다.

비유: '현장 감시관'과 '기록부'

  • 기존 방식: AI 가 그림을 보고 1 단계, 2 단계, 3 단계... 순서대로 생각하다가 마지막에 답을 냅니다. 중간에 실수하면 끝입니다.
  • ICLA 방식: AI 가 생각할 때마다, 이전 단계에서 기록된 '기록부 (Hidden States)'를 다시 꺼내서 확인합니다.
    • "잠깐, 1 단계에서 이 개가 '개'라고 확신했잖아? 3 단계에서 왜 '고양이'라고 생각하지? 다시 1 단계 기록을 참고해서 고쳐보자!"
    • 이렇게 현재의 생각과 과거의 기록을 대조하며 스스로를 바로잡는 것입니다.

핵심 기술: '대각선 주의 (Diagonal Attention)'

  • 이 시스템은 AI 가 그림의 **특정 부분 (예: 개 머리)**을 볼 때, 그 부분의 과거 기록만 가져와서 비교합니다.
  • "개 머리"를 볼 때 "배경의 나무" 기록을 섞어서 보면 정보가 꼬이니까요. 정확한 위치의 과거 정보만 가져와서 현재 생각을 다듬는 것입니다.

🌟 왜 이 방법이 특별한가요?

  1. 패턴을 몰라도 됩니다:

    • 과거에는 "AI 가 실수하는 패턴 A 가 있으니 A 를 고치자"라고 했지만, 최신 AI 는 실수 패턴이 너무 복잡하거나 불규칙합니다.
    • ICLA 는 **"어떤 실수를 할지 모르니, 그냥 매번 과거 기록을 확인해서 스스로 고쳐라"**라고 가르칩니다. 어떤 모델이든, 어떤 상황에서도 작동하는 유연한 방법입니다.
  2. 매우 가볍습니다:

    • AI 전체를 다시 가르칠 필요 없이, 새로운 부품 (파라미터) 을 아주 조금만 (0.2M 개 정도, 전체의 0.003% 수준) 추가하면 됩니다.
    • 마치 거대한 비행기에 작은 나비 하나를 붙여주면, 비행기가 스스로 균형을 잡을 수 있게 되는 것과 같습니다.
  3. 성능이 압도적입니다:

    • 실험 결과, 최신 모델인 Qwen2.5-VL-7B 에서 기존 방법들은 오히려 성능이 떨어졌지만, ICLA 는 모든 테스트에서 가장 좋은 점수를 받았습니다.
    • 특히 "복잡한 추론"이나 "상세한 설명"이 필요한 부분에서 AI 가 훨씬 더 똑똑하고 정확하게 변했습니다.

💡 한 줄 요약

"더 이상 AI 가 어떤 실수를 할지 예측할 수 없다면, AI 에게 '스스로 과거 기록을 확인하며 실시간으로 수정하는 습관'을 심어주자."

이 연구는 AI 가 더 똑똑해질수록, 우리가 그걸 통제하는 방식도 단순한 규칙이 아니라, AI 내부의 '자기 성찰' 능력을 키워주는 방향으로 바뀌어야 함을 보여줍니다.