Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

이 논문은 언어 모델의 평가 방식을 이진 문법성 판단에서 다양한 도메인의 서열 척도 분류 및 점수 부여 작업으로 확장하여, 모델이 각 척도 단계에 부여하는 확률 기반의 '서프라이설 곡선'과 엔트로피를 분석함으로써 모델의 선호 응답과 불확실성을 동시에 파악할 수 있는 새로운 프레임워크를 제안합니다.

Andrew Katz

게시일 2026-03-17
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 실제로 무엇을 알고 있는지, 그리고 얼마나 확신하는지"**를 측정하는 새로운 방법을 제안합니다.

기존의 방법은 AI 에게 질문을 던지고 답변을 받아보거나 (예: "이 문장이 맞나요?") "네/아니오"로만 답하게 하는 방식이었습니다. 하지만 이 논문은 **"AI 가 질문을 듣고 머릿속에서 얼마나 놀라는지 (Surprisal)"**를 측정하는 더 정교한 방식을 소개합니다.

이 복잡한 개념을 이해하기 쉽게 세 가지 비유로 설명해 드리겠습니다.


1. 기존 방식 vs. 새로운 방식: "시험지"와 "심장 소리"의 차이

  • 기존 방식 (질문과 답변):
    마치 학생에게 "이 문장이 문법적으로 맞나요?"라고 물어보고 "네"라고 답하게 하는 것과 같습니다. 학생이 "네"라고 말했지만, 그건 진짜로 알고 있어서인지, 아니면 그냥 맞춰서 말한 건지 알 수 없습니다. 게다가 학생이 긴 설명을 덧붙이면, 그 설명이 진짜 이유인지 나중에 지어낸 변명인지 (Post-hoc rationalization) 구별하기 어렵습니다.

  • 이 논문의 방식 (놀라움 측정):
    대신, 학생이 **문장을 읽는 순간의 심박수 (놀라움)**를 재는 것입니다.

    • "파리는 프랑스의 수도다"라고 하면 심박수는 변하지 않습니다 (예상대로니까).
    • "파리는 프랑스의 수도가 아니다"라고 하면 심박수가 뛸 것입니다 (놀라니까).

    이 논문은 AI 가 문장을 완성할 때, 어떤 단어를 선택할지 **확률 (Probability)**을 계산하는 그 순간의 '놀라움'을 수치화합니다. AI 가 직접 말하게 하지 않고, AI 의 머릿속 반응 속도를 측정하는 것입니다.

2. 새로운 아이디어: "단순한 O/X"에서 "1~9 점 척도"로

기존의 '최소 쌍 (Minimal Pairs)' 실험은 문장이 맞는지 틀린지 (O/X) 만 구분했습니다. 하지만 이 논문은 이를 1 점부터 9 점까지의 척도로 확장했습니다.

비유: "맛있는 음식"을 평가할 때

  • 기존: "이 음식 맛있나요? (네/아니오)"
  • 새로운 방식: "이 음식이 얼마나 맛있나요? (1 점: 맛없음 ~ 9 점: 매우 맛있음)"

연구자들은 AI 에게 "이 문장이 인과관계 (원인과 결과) 를 나타내나요?"라고 묻고, AI 가 1 점부터 9 점까지의 어떤 숫자를 '가장 자연스럽게' 생각할지 그 **놀라움 곡선 (Surprisal Curve)**을 그렸습니다.

  • 곡선이 뾰족하게 내려가면: AI 가 "아, 이건 확실히 9 점이야!"라고 강하게 확신하고 있다는 뜻입니다.
  • 곡선이 평평하게 퍼져있으면: AI 가 "음... 5 점일 수도 있고 6 점일 수도 있겠네..."라고 혼란스럽거나 애매모호하게 느끼고 있다는 뜻입니다.

3. 실험 결과: AI 가 속으로 생각하는 것들을 찾아내다

이 방법으로 네 가지 분야에서 실험을 해보았습니다.

  1. 복잡한 시스템 분류 (SETS):

    • 상황: "봄 (Spring)"이라는 단어가 '계절'을 뜻하는지 '스프링 (기계 부품)'을 뜻하는지 구분하기.
    • 결과: 문맥을 주면 AI 는 놀라움 곡선을 바꿔서 정확한 의미를 파악했습니다. 하지만 작은 AI 모델은 문맥을 무시하고 항상 같은 반응을 보였습니다.
  2. 인과관계 찾기:

    • 상황: "비가 와서 길이 미끄럽다" (인과) vs "비가 오고 길이 미끄러웠다" (동시 발생).
    • 결과: 명확한 문장은 AI 가 확실히 알아냈지만, 애매한 문장 (예: "공부를 많이 하면 성적이 좋아지는 경향이 있다") 에서는 AI 의 놀라움 곡선이 평평해졌습니다. 즉, AI 가 "이건 애매하구나"라고 스스로 인지하고 있다는 신호였습니다.
  3. 비유적 언어 감지:

    • 상황: "말이 공중에 걸렸다" (비유) vs "배너가 공중에 걸렸다" (직관).
    • 결과: AI 는 문장이 비유적인지 실제적인지 단어의 표면적 의미보다 의미를 더 잘 파악했습니다.
  4. 질적 데이터 코딩:

    • 상황: 설문조사 답변에 적절한 '태그'를 붙이는 작업.
    • 결과: AI 가 태그를 붙일 때 얼마나 확신하는지 (곡선의 뾰족함) 를 보면, 인간이 다시 한번 확인해야 할 애매한 부분을 찾아낼 수 있었습니다.

4. 왜 이 방법이 중요할까요? (핵심 요약)

  1. 속도: AI 가 긴 글을 쓰게 하지 않아도 되므로 훨씬 빠르고 저렴합니다.
  2. 진짜 생각: AI 가 말로 꾸며낸 변명 (Post-hoc rationalization) 이 아니라, 순간적인 머릿속 반응을 측정하므로 더 진실에 가깝습니다.
  3. 불확실성 측정: AI 가 "모르겠다"라고 말할 때, 단순히 "모르겠다"라고 말하는 게 아니라, **어느 정도 혼란스러운지 (엔트로피)**를 수치로 보여줍니다. 이는 고위험 업무 (의료, 법률 등) 에서 AI 가 실수할 가능성을 미리 경고하는 신호등 역할을 합니다.

결론

이 논문은 **"AI 에게 답을 요구하는 것보다, AI 가 답을 생각할 때의 '놀라움'을 측정하는 것이 더 똑똑한 평가 방법"**임을 보여줍니다. 마치 학생의 시험 점수만 보는 게 아니라, 시험지를 풀 때의 집중도와 고민의 깊이를 관찰하는 것과 같습니다. 이를 통해 우리는 AI 가 무엇을 알고, 무엇을 헷갈려하는지 더 정밀하게 파악할 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →