Uncertainty-aware Language Guidance for Concept Bottleneck Models

이 논문은 대규모 언어 모델 (LLM) 이 생성한 개념 라벨의 불확실성을 통계적으로 엄밀하게 정량화하고 이를 개념 병목 모델 (CBM) 의 학습 과정에 통합하여 LLM 의 환각으로 인한 오류를 줄이고 모델의 신뢰성을 높이는 새로운 불확실성 인식 방법을 제안합니다.

Yangyi Li, Mengdi Huai

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 인간의 언어로 설명할 수 있는 개념을 배우는 방법"**을 개선한 새로운 기술을 소개합니다.

기존의 AI 는 "왜 이런 결론을 내렸는지"를 설명하지 못하는 '블랙박스'였습니다. 이를 해결하기 위해 **개념 병목 모델 (CBM)**이라는 기술이 나왔는데, 이는 AI 가 먼저 "이 새는 '검은 부리'를 가졌다", "날개가 '흰 끝'을 가졌다" 같은 사람이 이해할 수 있는 개념을 먼저 파악한 뒤, 최종 답을 내는 방식입니다.

하지만 문제는 이 '개념'을 사람이 일일이 손으로 적어주려면 너무 비싸고 시간이 많이 걸린다는 점입니다. 그래서 최근에는 **거대 언어 모델 (LLM, 예: 챗 GPT 같은 AI)**에게 개념을 대신 적게 하려고 합니다.

그런데 여기서 두 가지 큰 문제가 생깁니다.

  1. LLM 은 때로 헛소리를 합니다 (할루시네이션): "이 새는 노란 눈을 가졌다"라고 거짓말을 할 수도 있습니다.
  2. 불확실성을 무시합니다: LLM 이 "아마도 노란 눈일 거야"라고 의심스러워할 때, 기존 방법은 그 '의심'을 무시하고 그냥 '노란 눈'이라고 확정해버립니다.

이 논문은 **"LLM 이 쓴 개념 중, 얼마나 믿을 수 있는지 '불확실성'을 수치로 재고, 그 정보를 AI 학습에 활용하자"**는 새로운 방법 (ULCBM) 을 제안합니다.


🌟 쉬운 비유로 설명하는 이 기술

이 기술을 이해하기 위해 **'수석 요리사 (AI) 가 신비로운 레시피 (개념) 를 배우는 상황'**으로 비유해 보겠습니다.

1. 문제 상황: 믿을 수 없는 요리 비서 (LLM)

우리는 수석 요리사에게 "이 요리의 핵심 재료는 무엇인가?"를 가르쳐야 합니다. 하지만 직접 가르칠 시간이 없으니, **요리 비서 (LLM)**에게 대신 적게 합니다.

  • 비서는 "이 요리는 소금후추가 핵심이야"라고 적어줍니다. (정답)
  • 하지만 비서는 때로 **"이 요리는 파란색이 핵심이야"**라고 엉뚱한 말을 하기도 합니다. (할루시네이션)
  • 더 큰 문제는 비서가 **"아마 설탕일지도 몰라"**라고 망설일 때, 우리는 그 망설임을 무시하고 그냥 '설탕'이라고 확정해버린다는 것입니다.

기존 방법들은 비서가 쓴 메모를 100% 진실인 것처럼 믿고 요리사에게 가르쳤기 때문에, 요리사는 엉뚱한 재료 (파란색) 를 중요하게 여기거나, 망설이던 재료 (설탕) 를 제대로 배우지 못해 실패했습니다.

2. 이 논문의 해결책: "신뢰도 점수"를 매기는 시스템

이 논문은 두 가지 단계로 문제를 해결합니다.

첫 번째 단계: "이 메모, 얼마나 믿을 수 있을까?" (불확실성 측정)
비서가 쓴 메모를 그대로 믿지 않고, 3 가지 기준으로 점수를 매겨 '믿을 만한 메모'만 선별합니다.

  • 구별력 (Discriminability): "소금"은 이 요리에만 특이한가? (아니면 다른 요리에도 다 있는 거라면 제외)
  • 포괄성 (Coverage): "소금, 후추, 허브" 등 요리의 전체 맛을 다 설명하는가? (일부만 설명하면 안 됨)
  • 다양성 (Diversity): "검은색 깃털"과 "어두운 깃털"처럼 같은 말을 반복하지 않는가? (중복 제거)

이때, **수학적 이론 (Conformal Prediction)**을 이용해 "이 기준을 통과한 메모는 90% 이상 틀릴 확률이 낮다"라고 과학적으로 보장해 줍니다. 마치 "이 비서의 메모는 100 개 중 90 개는 맞다"라고 공인된 스탬프를 찍어주는 것과 같습니다.

두 번째 단계: "드문 재료"를 특별히 가르치기 (데이터 증강)
선별된 메모 중, "이 요리에 별미가 들어간다"는 메모는 비서가 자주 쓰지 않아 (데이터가 부족해) 요리사가 배우기 어렵습니다.

  • 해결책: 요리사가 배우기 힘든 '드문 재료'가 들어간 사진을 찾아서, 그 재료가 들어간 부분을 잘라내어 다른 요리 사진에 **붙여넣기 (데이터 증강)**를 합니다.
  • 이때 중요한 건, 이미 믿을 만한 다른 재료 (예: 소금) 가 있는 자리와 겹치지 않게 조심스럽게 붙여넣는다는 점입니다.
  • 이렇게 하면 요리사는 드문 재료도 충분히 연습할 수 있게 됩니다.

💡 요약: 왜 이 기술이 중요한가요?

  1. 거짓말을 걸러냅니다: AI 가 헛소리를 할 때, "이건 믿을 수 없다"라고 수학적으로 증명해서 걸러냅니다.
  2. 의심스러운 부분을 활용합니다: "아마도 맞을지도 몰라"라는 부분도 무시하지 않고, 그 '의심'을 고려해서 더 정확하게 학습시킵니다.
  3. 드문 지식도 배웁니다: 잘 나오지 않는 중요한 개념도 인위적으로 만들어서 가르쳐주므로, AI 가 더 똑똑해집니다.

결론적으로, 이 논문은 AI 가 인간의 언어로 설명할 때, "무조건 믿지 말고, 의심하고, 검증하고, 부족한 부분은 채워서" 더 신뢰할 수 있고 정확한 AI 를 만드는 방법을 제시했습니다. 마치 신뢰할 수 있는 비서에게 메모를 받아, 그중에서 가장 확실한 것만 골라 요리사에게 가르치는 똑똑한 시스템이라고 생각하시면 됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →