KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth 는 주시 엔트로피를 기반으로 키-값 캐시에 지수 이동 평균을 적용하는 훈련 없는 플러그인 방식을 통해 멀티모달 대규모 언어 모델의 환각 현상을 효과적으로 완화하고 전반적인 성능을 향상시킵니다.

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

KVSmooth: AI 의 '환각'을 막아주는 스마트한 안정장치

이 논문은 최근 화제가 되는 **'멀티모달 대형 언어 모델 (MLLM)'**의 치명적인 약점인 '환각 (Hallucination)' 문제를 해결하는 새로운 방법을 소개합니다.

쉽게 말해, **"AI 가 그림을 보면서도 엉뚱한 사실을 지어내는 현상"**을 막아주는 **'KVSmooth'**라는 기술을 개발했다는 내용입니다.


1. 문제: AI 가 왜 거짓말을 할까요? (환각의 원인)

AI 가 그림을 보고 설명을 할 때, 가끔 그림에 없는 물건을 말하거나 색상을 잘못 묘사하는 경우가 있습니다. 이를 '환각'이라고 합니다.

  • 비유: AI 가 그림을 보고 이야기를 지어낼 때, 마치 기억력이 나쁜 화가처럼 처음에는 그림을 잘 보다가, 이야기가 길어질수록 자신의 상상 (언어적 습관) 에만 의존하게 됩니다.
  • 원인: 그림의 정보가 시간이 지날수록 흐릿해지고 (시각적 의존성 약화), AI 가 만들어낸 작은 오류들이 쌓여서 (누적된 의미의 이탈), 결국 그림과 전혀 상관없는 엉뚱한 이야기를 만들어냅니다.

2. 해결책: KVSmooth (키 - 값 평활화)

저자들은 이 문제를 해결하기 위해 **'KVSmooth'**라는 방법을 제안했습니다. 이 기술은 AI 를 다시 가르치는 (재학습) 것이 아니라, AI 가 말을 할 때 실시간으로 도와주는 '안정장치' 역할을 합니다.

핵심 아이디어 1: '소음'을 줄이는 필터 (EMA)

AI 가 단어를 하나씩 뱉어낼 때, 그 과정에서 상태가 너무 급격하게 변하면 엉뚱한 방향으로 날아갈 수 있습니다.

  • 비유: AI 의 생각 (상태) 이 급하게 흔들리는 차라고 상상해 보세요. KVSmooth 는 이 차에 **스마트한 서스펜션 (현가장치)**을 달아줍니다.
  • 작동 원리: AI 가 새로운 단어를 생각할 때, 바로 전의 생각과 너무 동떨어지지 않도록 이전 생각을 부드럽게 섞어주어 (지수 이동 평균, EMA) 상태가 급격히 흔들리는 것을 막습니다.

핵심 아이디어 2: '혼란스러운 순간'을 감지하다 (엔트로피)

그런데 모든 순간에 부드럽게 해버리면 AI 가 너무 느려지거나, 중요한 세부 사항을 놓칠 수도 있습니다. 그래서 어느 순간에 강하게 개입할지를 똑똑하게 판단합니다.

  • 비유: AI 가 혼란스러워하며 (Attention Entropy) "어디로 가야 할지 몰라" 헤매는 순간을 감지합니다. 이때는 서스펜션을 더 단단하게 조절하여 AI 가 엉뚱한 길로 빠지지 않게 잡아줍니다.
  • 핵심: AI 가 가장 많이 집중하지만 정작 중요한 정보는 놓치는 '소음' 같은 단어들 (Sink Tokens) 을 찾아내어, 그 순간에만 특별히 보정을 해줍니다.

3. 왜 이 기술이 특별한가요?

기존의 방법들은 AI 를 다시 훈련시키거나 (시간과 비용이 많이 듦), 복잡한 계산 과정을 거치는 경우가 많았습니다. 하지만 KVSmooth 는 다음과 같은 장점이 있습니다.

  • 훈련 불필요 (Training-free): AI 를 다시 공부시킬 필요가 없습니다. 이미 만들어진 AI 에 바로 끼워 쓸 수 있습니다 (Plug-and-play).
  • 가볍고 빠름: 추가적인 무거운 계산 없이, AI 가 말을 하는 순간순간에만 가볍게 개입합니다.
  • 균형 잡힌 성능: 엉뚱한 말 (환각) 을 줄이면서도, 진짜 중요한 사실 (그림에 있는 물체) 을 놓치지 않는 정밀도와 재현율을 동시에 높였습니다.

4. 실제 효과

실험 결과, KVSmooth 를 적용한 AI 는:

  • 환각 발생률 (CHAIRS): 41.8% 에서 **18.2%**로 대폭 감소했습니다. (거의 절반 이상 줄어듦)
  • 전체 성능 (F1 점수): 77.5 에서 79.2로 오히려 향상되었습니다.

즉, "거짓말은 줄이고, 진짜 말은 더 잘하게" 된 것입니다.

5. 결론

KVSmooth 는 AI 가 그림을 볼 때, **자신의 상상력에만 의존하지 않고 그림의 사실에 더 단단히 발을 붙이도록 도와주는 '안전벨트'**와 같습니다. 이 기술을 통해 AI 가 더 신뢰할 수 있고 정확한 멀티모달 비서로 성장할 수 있는 발판을 마련했습니다.


한 줄 요약:

"AI 가 그림을 보며 헛소리를 하는 것을 막기 위해, AI 의 생각 흐름을 실시간으로 부드럽게 다듬어주는 똑똑한 안정장치를 개발했습니다."