Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

이 논문은 텍스트 쿼리에 의존하는 자기 증강 프롬핑 전략과 엔트로피 인식 적응적 임계값 알고리즘을 도입하여 기존 시각적 대비 디코딩 방법의 한계를 극복하고 대형 비전 - 언어 모델의 환각 현상을 줄이고 사실적 일관성을 향상시키는 훈련 없는 디코딩 전략 'Self-Aug'을 제안합니다.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: AI 의 '환각' (Hallucination)

AI 는 글을 잘 쓰지만, 그림을 볼 때는 가끔 상상해서 거짓말을 합니다.

  • 예시: AI 가 "이 사진에 강아지가 있네요"라고 말했는데, 사실은 고양이가 있는 사진일 수 있습니다.
  • 원인: AI 는 과거에 배운 통계적 패턴만 보고 "아마 강아지겠지?"라고 추측할 뿐, 실제로 눈으로 확인하지 않기 때문입니다.

2. 기존 해결책의 한계: "무작위 변형"

기존 연구자들은 AI 가 실수하지 않게 하기 위해, 그림을 임의로 변형해서 다시 보여주고 비교하는 방법을 썼습니다.

  • 비유: 요리사가 요리를 할 때, "혹시 내가 재료를 잘못 봤을까?"라고 생각하며 무작위로 소금과 설탕을 바꿔 넣거나, 그릇을 뒤집어 보는 것과 같습니다.
  • 문제: 질문이 "이 소금통은 빨간색인가요?"일 때, 소금통을 뒤집는 것보다 색을 바꾸는 것이 더 효과적입니다. 하지만 기존 방법은 질문의 내용 (빨간색) 을 고려하지 않고 무작위로 변형을 선택했기 때문에, 때로는 효과가 없었습니다.

3. 새로운 해결책: Self-Aug (스스로 변형하는 AI)

이 논문이 제안한 Self-Aug은 AI 가 스스로 질문을 분석하여, 가장 효과적인 변형을 선택합니다.

🌟 핵심 아이디어 1: "질문에 맞는 변형" (Query Adaptive)

AI 는 질문을 읽고, "어떤 변형을 주면 내가 가장 잘 틀릴까?"를 스스로 판단합니다.

  • 상황: 질문이 "이 옷은 빨간색인가요?"
  • 기존 방식: 옷을 뒤집거나 (좌우 반전), 잘라내는 (크롭) 등 무작위 변형.
  • Self-Aug 방식: AI 가 생각합니다. "아, 이 질문은 색상을 물어보고 있구나. 그럼 내가 색을 반전시켜서 (빨강을 파랑으로) 다시 보면, 내가 빨간색이라고 확신할 수 없을 거야!"
  • 결과: AI 는 색을 반전시킨 그림을 보고 "아, 색이 바뀌니까 내가 빨간색이라고 확신할 수 없네. 그럼 원래 그림에서도 '빨강'이라고 단정 짓기 전에 다시 한번 생각해보자"라고 깨닫게 됩니다.

🌟 핵심 아이디어 2: "신뢰도 조절" (Entropy Adaptive)

AI 가 답을 고를 때, 자신의 확신 정도에 따라 기준을 바꿉니다.

  • 상황: AI 가 "이건 개일 거야"라고 99% 확신할 때 vs "이게 뭐지?"라고 50% 만 확신할 때.
  • 기존 방식: 확신과 상관없이 같은 기준 (문턱) 을 적용합니다.
  • Self-Aug 방식:
    • 확신이 높을 때 (신뢰도 높음): 기준을 엄격하게 잡습니다. "내가 99% 확신하는데도 다른 그림에서는 틀렸다면, 이 답은 틀렸을 수도 있어"라고 의심하며 틀린 답을 걸러냅니다.
    • 확신이 낮을 때 (신뢰도 낮음): 기준을 유연하게 잡습니다. "내가 잘 모르니까, 너무 많은 답을 버리면 진짜 정답도 잃을 수 있겠다"라며 다양한 가능성을 열어둡니다.

🎨 한 줄 요약 비유

기존 AI: "그림을 보고 요리할 때, 무작위로 소금과 설탕을 바꿔보며 "아, 내가 소금인 줄 알았는데?"라고 헷갈려하다가 실수합니다."

Self-Aug: "질문이 "이 소금통은 빨간색인가?"일 때, AI 는 **"아! 색을 바꿔봐야지!"**라고 스스로 생각하며 색을 반전시킵니다. 그 결과 "색이 바뀌니까 내가 빨간색이라고 확신할 수 없네"라고 깨닫고, **진짜 정답 (소금통이 빨간색이 아님)**을 찾아냅니다."

💡 결론

이 기술은 AI 에게 추가적인 학습이나 복잡한 구조 변경 없이, 그림을 볼 때 스스로 "어떻게 의심해야 할지"를 생각하게 함으로써, 거짓말을 줄이고 더 정확한 답변을 하도록 만듭니다. 마치 스스로를 점검하는 성실한 학생처럼 말이죠!