Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 실제로 무엇을 알고 있는지, 그리고 얼마나 확신하는지"**를 측정하는 새로운 방법을 제안합니다.

기존의 방법은 AI 에게 질문을 던지고 답변을 받아보거나 (예: "이 문장이 맞나요?") "네/아니오"로만 답하게 하는 방식이었습니다. 하지만 이 논문은 **"AI 가 질문을 듣고 머릿속에서 얼마나 놀라는지 (Surprisal)"**를 측정하는 더 정교한 방식을 소개합니다.

이 복잡한 개념을 이해하기 쉽게 세 가지 비유로 설명해 드리겠습니다.

1. 기존 방식 vs. 새로운 방식: "시험지"와 "심장 소리"의 차이

기존 방식 (질문과 답변):
마치 학생에게 "이 문장이 문법적으로 맞나요?"라고 물어보고 "네"라고 답하게 하는 것과 같습니다. 학생이 "네"라고 말했지만, 그건 진짜로 알고 있어서인지, 아니면 그냥 맞춰서 말한 건지 알 수 없습니다. 게다가 학생이 긴 설명을 덧붙이면, 그 설명이 진짜 이유인지 나중에 지어낸 변명인지 (Post-hoc rationalization) 구별하기 어렵습니다.
이 논문의 방식 (놀라움 측정):
대신, 학생이 **문장을 읽는 순간의 심박수 (놀라움)**를 재는 것입니다.
- "파리는 프랑스의 수도다"라고 하면 심박수는 변하지 않습니다 (예상대로니까).
- "파리는 프랑스의 수도가 아니다"라고 하면 심박수가 뛸 것입니다 (놀라니까).
이 논문은 AI 가 문장을 완성할 때, 어떤 단어를 선택할지 **확률 (Probability)**을 계산하는 그 순간의 '놀라움'을 수치화합니다. AI 가 직접 말하게 하지 않고, AI 의 머릿속 반응 속도를 측정하는 것입니다.

2. 새로운 아이디어: "단순한 O/X"에서 "1~9 점 척도"로

기존의 '최소 쌍 (Minimal Pairs)' 실험은 문장이 맞는지 틀린지 (O/X) 만 구분했습니다. 하지만 이 논문은 이를 1 점부터 9 점까지의 척도로 확장했습니다.

비유: "맛있는 음식"을 평가할 때

기존: "이 음식 맛있나요? (네/아니오)"
새로운 방식: "이 음식이 얼마나 맛있나요? (1 점: 맛없음 ~ 9 점: 매우 맛있음)"

연구자들은 AI 에게 "이 문장이 인과관계 (원인과 결과) 를 나타내나요?"라고 묻고, AI 가 1 점부터 9 점까지의 어떤 숫자를 '가장 자연스럽게' 생각할지 그 **놀라움 곡선 (Surprisal Curve)**을 그렸습니다.

곡선이 뾰족하게 내려가면: AI 가 "아, 이건 확실히 9 점이야!"라고 강하게 확신하고 있다는 뜻입니다.
곡선이 평평하게 퍼져있으면: AI 가 "음... 5 점일 수도 있고 6 점일 수도 있겠네..."라고 혼란스럽거나 애매모호하게 느끼고 있다는 뜻입니다.

3. 실험 결과: AI 가 속으로 생각하는 것들을 찾아내다

이 방법으로 네 가지 분야에서 실험을 해보았습니다.

복잡한 시스템 분류 (SETS):
- 상황: "봄 (Spring)"이라는 단어가 '계절'을 뜻하는지 '스프링 (기계 부품)'을 뜻하는지 구분하기.
- 결과: 문맥을 주면 AI 는 놀라움 곡선을 바꿔서 정확한 의미를 파악했습니다. 하지만 작은 AI 모델은 문맥을 무시하고 항상 같은 반응을 보였습니다.
인과관계 찾기:
- 상황: "비가 와서 길이 미끄럽다" (인과) vs "비가 오고 길이 미끄러웠다" (동시 발생).
- 결과: 명확한 문장은 AI 가 확실히 알아냈지만, 애매한 문장 (예: "공부를 많이 하면 성적이 좋아지는 경향이 있다") 에서는 AI 의 놀라움 곡선이 평평해졌습니다. 즉, AI 가 "이건 애매하구나"라고 스스로 인지하고 있다는 신호였습니다.
비유적 언어 감지:
- 상황: "말이 공중에 걸렸다" (비유) vs "배너가 공중에 걸렸다" (직관).
- 결과: AI 는 문장이 비유적인지 실제적인지 단어의 표면적 의미보다 의미를 더 잘 파악했습니다.
질적 데이터 코딩:
- 상황: 설문조사 답변에 적절한 '태그'를 붙이는 작업.
- 결과: AI 가 태그를 붙일 때 얼마나 확신하는지 (곡선의 뾰족함) 를 보면, 인간이 다시 한번 확인해야 할 애매한 부분을 찾아낼 수 있었습니다.

4. 왜 이 방법이 중요할까요? (핵심 요약)

속도: AI 가 긴 글을 쓰게 하지 않아도 되므로 훨씬 빠르고 저렴합니다.
진짜 생각: AI 가 말로 꾸며낸 변명 (Post-hoc rationalization) 이 아니라, 순간적인 머릿속 반응을 측정하므로 더 진실에 가깝습니다.
불확실성 측정: AI 가 "모르겠다"라고 말할 때, 단순히 "모르겠다"라고 말하는 게 아니라, **어느 정도 혼란스러운지 (엔트로피)**를 수치로 보여줍니다. 이는 고위험 업무 (의료, 법률 등) 에서 AI 가 실수할 가능성을 미리 경고하는 신호등 역할을 합니다.

결론

이 논문은 **"AI 에게 답을 요구하는 것보다, AI 가 답을 생각할 때의 '놀라움'을 측정하는 것이 더 똑똑한 평가 방법"**임을 보여줍니다. 마치 학생의 시험 점수만 보는 게 아니라, 시험지를 풀 때의 집중도와 고민의 깊이를 관찰하는 것과 같습니다. 이를 통해 우리는 AI 가 무엇을 알고, 무엇을 헷갈려하는지 더 정밀하게 파악할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 적용 도메인 전반에 걸친 순서형 놀람 (Ordinal Surprisal) 곡선과 엔트로피를 통한 최소 쌍 (Minimal Pairs) 의 확장

1. 문제 제기 (Problem Statement)

대규모 언어 모델 (LLM) 의 평가는 주로 프롬프트 기반의 텍스트 생성과 정답 비교에 의존해 왔으나, 이는 다음과 같은 한계를 지닙니다.

비용과 비효율성: 텍스트 생성은 계산 비용이 많이 들며, 평가 규모를 확장하기 어렵습니다.
사후 합리화 (Post-hoc Rationalization): 모델이 생성한 추론 과정이 실제 의사결정 과정을 반영하지 않고, 단순히 그럴듯한 변명을 생성할 수 있습니다.
불확실성 정보의 부재: 단순한 이진 (Binary) 분류나 정답 유무만으로는 모델이 해당 답변에 대해 얼마나 확신하는지, 혹은 모호한지에 대한 정량적 정보가 손실됩니다.
범위의 제한: 기존 '최소 쌍 (Minimal Pairs)' 평가 패러다임은 주로 문법적 옳고 그름 (이진 판단) 에 국한되어 있어, 다양한 응용 분야 (분류, 점수 매기기 등) 로 확장되지 못했습니다.

2. 방법론 (Methodology)

저자는 LLM 의 내부 표현을 직접적으로 접근하기 위해 **정보 이론적 '놀람 (Surprisal)'**을 기반으로 한 새로운 평가 프레임워크를 제안합니다.

핵심 개념 (Surprisal):
- 놀람은 $S(x) = -\log P(x)$ 로 정의되며, 특정 토큰이 발생할 확률이 낮을수록 (예상치 못할수록) 놀람 값은 커집니다.
- 모델이 생성하지 않고, 주어진 문맥에서 특정 토큰 (예: 1~5 점 척도의 숫자) 에 할당된 확률 (Logits) 을 직접 측정하여 놀람 값을 계산합니다.
이진 분류에서 순서형 척도로의 확장:
- 기존 최소 쌍 (문법적 옳음/틀림) 을 넘어, 1~~5 점 또는 1~~9 점과 같은 **순서형 척도 (Ordinal Scale)**를 사용합니다.
- 모델이 각 척도 위치 (예: "1", "2", "3"... "5") 에 대해 할당된 놀람 값을 측정하여 **놀람 곡선 (Surprisal Curve)**을 생성합니다.
- 최소 놀람 위치: 곡선에서 놀람 값이 가장 낮은 지점이 모델이 가장 선호하는 답변 (Expected Response) 입니다.
불확실성 정량화 (Entropy):
- 척도 전체에 대한 확률 분포를 재규격화 (Renormalization) 한 후 **엔트로피 ( $H$ )**를 계산합니다.
- 낮은 엔트로피: 모델이 특정 답변에 대해 높은 확신을 가짐 (곡선이 뾰족함).
- 높은 엔트로피: 모델이 여러 답변 사이에서 혼란을 겪거나 과제가 본질적으로 모호함 (곡선이 평평함).
실험 설계:
- 문맥 (Context) 의 양 (없음, 간략한 정의, 상세한 배경) 과 프롬프트 포맷을 변형하여 모델의 반응이 어떻게 변화하는지 분석합니다.

3. 주요 기여 (Key Contributions)

평가 패러다임의 확장: 이진 문법성 판단에서 **순서형 척도 (Ordinal Scales)**를 활용한 분류 및 점수 매기기로 패러다임을 확장했습니다.
다양한 도메인 적용: 언어학적 현상을 넘어 사회 - 생태 - 기술 시스템 (SETS) 분류, 인과적 진술 식별, 비유적 언어 탐지, 연역적 코딩 등 4 가지 실제 응용 도메인에서 프레임워크의 유효성을 입증했습니다.
불확실성 측정 도구: 생성된 텍스트가 아닌 확률 분포를 기반으로 한 엔트로피 기반 불확실성 측정을 제안하여, 모델의 모호한 판단과 확신 있는 오답을 구분할 수 있는 새로운 지표를 제공했습니다.
효율성: 텍스트 생성 없이 단일 프론트 패스 (Single Forward Pass) 로 Logits 만 읽는 방식으로 평가 비용을 대폭 절감했습니다.

4. 실험 결과 (Results)

네 가지 도메인에서 Qwen2.5 모델 계열 (3B, 7B, 14B) 을 사용하여 실험한 결과는 다음과 같습니다.

SETS 분류 (사회 - 생태 - 기술 시스템):
- 동음이의어 (예: 'spring', 'bug', 'virus') 를 문맥에 따라 올바르게 구분하는 능력을 평가했습니다.
- 결과: 14B 모델은 문맥에 따라 놀람 곡선의 최소점이 명확하게 이동하여 (예: 'virus'가 생물학적 의미에서 기술적 의미로 이동) 문맥 의존적 분별력을 보였습니다. 반면 3B 모델은 문맥 변화에 무감각했습니다.
인과적 진술 식별 (Causal Statement Identification):
- 이진 (True/False) 과 순서형 (1~~5, 1~~9) 평가를 비교했습니다.
- 결과: 명확한 인과 관계에서는 놀람 곡선이 단조 감소하는 경향을 보였으나, 상관관계나 모호한 사례 (예: "공부를 더 하면 성적이 좋아지는 경향이 있다") 에서는 곡선이 평평해지며 엔트로피가 증가했습니다. 이는 모델이 본질적인 모호성을 감지했음을 시사합니다.
비유적 언어 탐지 (Figurative Language Detection):
- 비유적 표현과 문자적 표현을 구분하는 실험에서, 14B 베이스 모델이 지시 튜닝 (Instruction-tuned) 된 모델보다 더 높은 판별력을 보였습니다. 이는 지시 튜닝이 때로는 원시 놀람 분포를 왜곡할 수 있음을 시사합니다.
연역적 코딩 (Deductive Coding):
- 설문 응답 텍스트에 코드를 적용하는 작업에서, 놀람 기반 접근법이 인간 코딩 결정과 유사한 패턴을 보였으며, 엔트로피가 높은 사례는 인간 검토가 필요한 모호한 케이스로 식별되었습니다.
일반적 경향:
- 모델 크기가 커질수록 정확도가 일반적으로 향상되었으나, 지시 튜닝 여부에 따라 결과가 달라지기도 했습니다.
- 엔트로피와 정확도의 관계: 낮은 엔트로피는 확신을 의미하지만 항상 정답을 의미하지는 않음 (작은 모델의 확신 있는 오답). 반면 높은 엔트로피는 과제의 모호성을 잘 반영함.

5. 의의 및 결론 (Significance & Conclusion)

내부 표현 접근: 생성된 텍스트 (System 2-like, 의식적 추론) 가 아닌 모델의 즉각적인 확률 할당 (System 1-like, 직관적 반응) 을 직접 측정하여 모델의 내부 지식과 표현을 더 투명하게 파악할 수 있습니다.
실용적 가치:
- 비용 효율성: 텍스트 생성 없이 Logits 만으로 평가 가능하여 대규모 벤치마킹에 적합합니다.
- 불확실성 관리: 엔트로피를 통해 모델이 "모르는 것"이나 "모호한 것"을 식별할 수 있어, 인간 - 모델 협업 (Human-in-the-loop) 시스템에서 인간 검토가 필요한 사례를 선별하는 데 유용합니다.
- 편향 및 공정성 분석: 토큰 수준의 확률 분포를 분석함으로써 생성된 텍스트에서는 드러나지 않는 잠재적 편향 (예: 성별 - 직업 고정관념) 을 정량화할 수 있습니다.
한계 및 향후 과제:
- 토큰화 (Tokenization) 민감성 (예: 공백 유무, 숫자 토큰화) 에 대한 주의가 필요합니다.
- 엔트로피와 정확도 간의 보정 (Calibration) 관계는 도메인과 모델에 따라 다르며, 추가 검증이 필요합니다.
- 폐쇄형 (Proprietary) API 모델의 경우 Logits 접근이 제한적일 수 있습니다.

이 논문은 LLM 평가에 있어 생성 기반 평가의 대안으로서, 확률 기반 놀람 측정과 엔트로피 분석을 통한 정량적이고 효율적인 평가 프레임워크의 가능성을 제시했습니다.

Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

1. 기존 방식 vs. 새로운 방식: "시험지"와 "심장 소리"의 차이

2. 새로운 아이디어: "단순한 O/X"에서 "1~9 점 척도"로

3. 실험 결과: AI 가 속으로 생각하는 것들을 찾아내다

4. 왜 이 방법이 중요할까요? (핵심 요약)

결론

논문 요약: 적용 도메인 전반에 걸친 순서형 놀람 (Ordinal Surprisal) 곡선과 엔트로피를 통한 최소 쌍 (Minimal Pairs) 의 확장

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration