Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

이 논문은 사전 훈련된 대규모 언어 모델의 환각 현상을 완화하기 위해 모델의 내부 계층 간 불일치를 감지하여 추론 시 사실성을 높이는 새로운 훈련 없는 디코딩 알고리즘인 'CoCoA'를 제안하고 다양한 작업에서 그 유효성을 입증합니다.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거짓말을 잘하는 AI(대형 언어 모델) 가 어떻게 하면 더 진실된 말을 할 수 있을까?"**에 대한 해결책을 제시합니다.

AI 가 유창하게 말하지만 사실과 다른 내용 (할루시네이션, 즉 환각) 을 만들어내는 문제는 매우 골치 아픈 일입니다. 이 논문은 AI 를 다시 가르치는 (재학습) 번거로운 방법 대신, AI 가 말을 할 때의 '내부 상태'를 귀 기울여 듣는 (Listen to the Layers) 새로운 방식을 제안합니다.

이해하기 쉽게 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 핵심 아이디어: "혼란스러운 뇌의 신호를 듣는다"

AI 는 여러 개의 층 (Layer) 으로 이루어진 거대한 신경망입니다. 보통 AI 는 마지막 층에서 최종 답을 내놓습니다. 하지만 연구자들은 **"사실적인 지식은 AI 의 중간 층 (Middle Layers) 에서 가장 잘 처리된다"**는 사실을 발견했습니다.

  • 비유: AI 를 한 팀의 회의에 비유해 봅시다.
    • 진실한 답변: 팀원들 (중간 층) 이 서로 의견을 주고받으며 "네, 맞아요. 그건 사실이에요"라고 일치된 목소리로 합의하는 상태입니다.
    • 거짓말 (할루시네이션): 팀원들이 서로 다른 말을 하거나, "아니, 그게 아닐 수도 있어", "잠깐, 뭐였지?"라며 혼란스럽고 불일치하는 상태입니다.

이 논문은 AI 가 말을 만들어낼 때, 중간 층들 사이의 **불일치 (Disagreement)**를 감지하면 "아, 이 팀은 지금 혼란스러우니까 거짓말을 하고 있겠구나"라고 판단합니다.

2. 해결책: "코코아 (CoCoA) 디코더"

저자들은 이 혼란 신호를 이용해 AI 의 답변을 수정하는 새로운 방법인 CoCoA를 만들었습니다.

  • 작동 원리:

    1. AI 가 답을 고를 때, 여러 후보 (예: "캘리포니아", "조지아", "사우스캐롤라이나") 를 나열합니다.
    2. 각 후보에 대해 AI 의 **중간 층들이 얼마나 서로 다른지 (불일치 점수)**를 계산합니다.
    3. **혼란이 심한 후보 (불일치 점수가 높은 것)**는 AI 가 선택할 확률을 낮춥니다. (마치 "너는 지금 너무 혼란스러우니까 답이 될 수 없어"라고 경고하는 것)
    4. 안정적이고 일관된 후보를 선택하게 유도합니다.
  • 창의적인 변형 (CoCoA-SIG):

    • 모든 답변에 똑같이 적용하는 게 아니라, AI 가 "어? 이거 내가 잘 모르는 내용이네?"라고 놀라 (Self-Information) 고개를 갸웃거릴 때만 더 강력하게 개입합니다.
    • 비유: 평소에는 가볍게 조언하지만, AI 가 "이건 내가 모를 수도 있어"라고 당황할 때는 "잠깐, 그건 사실인지 다시 한번 확인해 봐!"라고 강하게 경고하는 스마트한 감시관 같은 역할입니다.

3. 왜 이 방법이 특별한가?

기존의 방법들은 대부분 AI 를 처음부터 다시 가르치거나 (재학습), 외부 데이터를 찾아보게 (RAG) 하는 데 많은 비용과 시간이 걸렸습니다.

  • CoCoA 의 장점:
    • 학습 불필요 (Training-free): AI 를 다시 훈련시킬 필요가 없습니다. 이미 만들어진 AI 에 바로 적용할 수 있습니다.
    • 빠르고 효율적: AI 가 말을 만들어내는 과정 (추론) 중에만 작동하므로, AI 의 본질적인 능력을 해치지 않으면서 사실성을 높입니다.
    • 광범위한 적용: 질문 답변, 요약, 수학 문제, 코드 작성 등 다양한 분야에서 효과를 입증했습니다.

4. 실제 결과: "거짓말이 줄고, 진실이 늘다"

실험 결과, 이 방법을 적용한 AI 는 다음과 같은 변화를 보였습니다.

  • 사실성 향상: "미국에서 복숭아를 가장 많이 생산하는 주는 어디야?"라는 질문에, AI 가 흔히 하는 실수인 '캘리포니아' 대신 정답인 '조지아'를 말하게 되었습니다.
  • 유창함 유지: 사실만 말하라고 해서 답변이 어색해지거나 길어지지 않았습니다. 여전히 자연스러운 문장을 유지합니다.
  • 거짓말 감지: AI 가 답을 모를 때, 억지로 지어내는 대신 "모르겠다"라고 정직하게 말하는 비율도 늘어났습니다.

요약

이 논문은 **"AI 가 거짓말을 할 때, 그 내부의 혼란스러운 신호를 포착해서 진실을 찾아내라"**는 아이디어를 담고 있습니다.

마치 AI 의 뇌속에서 일어나는 작은 회의를 지켜보다가, "여기서 의견이 갈라지면 그건 거짓말일 확률이 높다"고 판단하여, AI 가 스스로 더 진실된 답을 선택하도록 돕는 스마트한 나침반을 개발한 것입니다. 이는 AI 를 더 신뢰할 수 있는 친구로 만들어주는 중요한 기술적 도약입니다.