Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Each language version is independently generated for its own context, not a direct translation.

🎭 핵심 비유: "무대 위의 배우 vs. 무대 뒤의 뇌"

이 연구는 언어 모델을 두 가지 다른 렌즈로 바라봤습니다.

기능적 평가 (Functional): 무대 위에서 배우가 대사를 얼마나 잘 연기하는지 보는 것 (실제 성능).
표상적 평가 (Representational): 무대 뒤에서 배우의 뇌가 대사를 어떻게 처리하고 있는지 분석하는 것 (내부 상태).

연구자들은 이 두 가지가 완전히 다르게 움직인다는 놀라운 사실을 발견했습니다.

🧩 연구의 배경: "조립"의 능력

우리는 "빨간 사과"라고 할 때, '빨간'과 '사과'를 따로 알고 있으면 그 조합의 의미를 자연스럽게 이해합니다. 이를 **조립성 (Compositionality)**이라고 합니다.

질문: 최신 AI 모델들은 이 능력을 진짜로 가지고 있을까요?
기존 생각: 모델이 더 커지고 (스케일링), 더 잘 가르치면 (지시 튜닝), 당연히 이 능력도 좋아질 거라고 믿었습니다.

🔍 실험 내용: 세 가지 미션

연구진은 AI 에게 세 가지 언어 미션을 주었습니다.

대체성 (Substitutivity): "달리는 선수가 기록을 세웠다" → "달리는 선수가 새로운 기록을 세웠다"로 바꿔도 뜻이 통하는가? (단순한 단어 교체)
체계성 (Systematicity): "빨간 차"는 "차"이고, "차"는 "탈것"입니다. 그렇다면 "빨간 차"는 "빨간 탈것"일까요? (알고 있는 규칙을 새로운 상황에 적용)
과도한 일반화 방지 (Overgeneralization): "코트"는 옷입니다. "트렌치코트"는 코트 종류지만, "턴코트 (배신자)"는 옷이 아닙니다. 표면만 보고 "턴코트도 코트야!"라고 착각하지 않는가?

📉 놀라운 결과: "뇌는 알고 있지만, 입은 말을 못 한다"

연구 결과는 마치 완벽한 이론을 가진 천재 학생이 시험에서 당황하는 모습과 같았습니다.

1. 무대 위의 배우 (실제 성능) 🎭

모델을 더 크게 만들거나, 지시 사항을 더 잘 따르도록 훈련시켰을 때, 실제 시험 점수는 오히려 떨어지거나 변하지 않았습니다.
특히 "과도한 일반화 방지" 같은 어려운 문제에서는 더 큰 모델일수록 엉뚱한 답을 내놓기도 했습니다.
비유: "머리는 더 좋아졌는데, 시험을 볼 때 왜 자꾸 실수를 할까?"

2. 무대 뒤의 뇌 (내부 상태) 🧠

하지만 모델의 내부 (레이어) 를 살펴보니, 의미 조합에 대한 정보는 이미 완벽하게 저장되어 있었습니다.
모델의 뇌 속에는 "빨간 차는 빨간 탈것이다"라는 논리가 명확하게 존재했습니다.
비유: "뇌 속에는 정답이 꽉 차 있는데, 왜 입 밖으로 내뱉지 못하지?"

💡 결론: 왜 이런 일이 일어날까?

이 논문은 **"모델이 능력을 가지고 있는지 (뇌) 와, 그 능력을 발휘하는지 (행동) 는 별개의 문제"**라고 말합니다.

기존의 문제: 우리는 모델이 "정답을 맞히면" 능력이 있다고 판단했습니다. 하지만 이 연구는 모델이 내부적으로는 이미 능력이 있는데, 출력 단계에서 실패할 수도 있다고 보여줍니다.
비유: 요리사가 레시피 (내부 지식) 는 완벽하게 알고 있는데, 요리를 해낼 때 (실제 출력) 실수만 반복한다면, 우리는 그 요리사를 "요리 실력이 없다"고 단정 짓기엔 너무 성급한 것일 수 있습니다.

🚀 이 연구가 우리에게 주는 교훈

한 가지 방법만 믿지 마세요: 모델의 성능을 볼 때, 단순히 "시험 점수"만 보면 안 됩니다. 모델의 "뇌 속"을 들여다보는 분석도 함께 해야 합니다.
대조적 평가 (Contrastive Evaluation) 의 중요성: 모델이 무엇을 알고 있는지 (내부) 와 무엇을 할 수 있는지 (외부) 를 비교하며 평가해야 진짜 능력을 파악할 수 있습니다.
안전한 AI 를 위해: 모델이 내부적으로는 논리 정연한데, 외부적으로는 엉뚱한 말을 한다면, 이는 AI 를 실제 사회에 적용할 때 큰 위험이 될 수 있습니다.

📝 한 줄 요약

"거대 언어 모델은 이미 '조립'하는 법을 뇌 속에 완벽하게 기억하고 있지만, 막상 시험을 치르면 그 능력을 제대로 발휘하지 못해 당황스러운 모습을 보입니다. 따라서 우리는 모델의 '뇌'와 '입'을 모두 살펴봐야 진짜 능력을 알 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 개요: 형용사 - 명사 구성성 평가: 기능적 vs 표현적 관점

이 논문은 대규모 언어 모델 (LLM) 이 언어의 핵심 능력으로 간주되는 **구성성 (Compositionality)**을 얼마나 잘 갖추고 있는지 평가하기 위해 수행된 연구입니다. 저자들은 LLM 의 구성성 능력을 평가할 때 기능적 (Functional) 접근 (과제 수행 성능) 과 표현적 (Representational) 접근 (모델 내부 상태 분석) 이 서로 다른 결론을 도출할 수 있음을 발견하고, 두 관점을 대조적으로 분석한 최초의 연구 중 하나입니다.

1. 연구 배경 및 문제 제기

구성성의 중요성: 구성성은 단순한 부분에서 복잡한 의미를 생성하는 능력으로, 인간 언어 처리의 핵심 요소로 간주됩니다.
LLM 의 구성성 평가: 기존 연구는 SCAN, COGS 등 제어된 합성 데이터셋을 사용했으나, 이는 사전 훈련된 현대 LLM 에 적합하지 않습니다. 최근에는 기능적 과제 기반 평가와 내부 표현 분석이 병행되고 있으나, 동일한 모델과 과제에서 두 접근법을 동시에 비교한 연구는 부족합니다.
핵심 질문: LLM 의 외부 과제 수행 능력 (기능적) 과 내부 표현 구조 (표현적) 는 구성성 측면에서 일치하는가, 아니면 불일치하는가?

2. 연구 방법론 (Methodology)

저자들은 형용사 - 명사 (Adjective-Noun, AN) 구문 영역을 중심으로 세 가지 구성성 측면을 평가하기 위해 기능적 평가와 표현적 평가 두 가지 설계를 병행했습니다.

A. 평가 과제 (Tasks)

대체성 (Substitutivity): 의미적으로 호환되는 형용사를 대체했을 때 함의 (Entailment) 관계가 유지되는지 평가. (데이터셋: AddOne)
- 예: "The runner set a new record" $\implies$ "The runner set a record" (성립)
체계성 (Systematicity): 알려진 의미 관계를 재조합하여 새로운 추론을 수행하는지 평가. (데이터셋: PLANE)
- 예: "red car $\implies$ car" 및 "car $\implies$ vehicle"가 주어졌을 때, "red car $\implies$ red vehicle"가 성립하는지 확인.
과일반화 (Overgeneralization): 표면적 형태가 유사하더라도 구성성이 없는 외심적 (Exocentric) 복합어를 구분하는지 평가. (데이터셋: COMPCOMB, 본 논문에서 새로 제안)
- 예: "trenchcoat" (코트의 일종, 구성성 있음) vs "turncoat" (배신자, 구성성 없음).

B. 평가 대상 모델

모델 패밀리: LLaMA-2, CodeLlama, Qwen2.5-Coder, Gemma2.
변수: 각 패밀리별로 Base 모델, Instruction Tuned (IT) 모델, 확장된 (Scaled) 모델을 비교 분석했습니다.

C. 평가 방식

기능적 평가 (Functional Evaluation):
- 프롬프트 기반의 태스크 수행 능력을 측정.
- AddOne 과 PLANE 에서는 생성 기반 MCQ 와 로그 확률 기반 비교 방식을 모두 사용.
- COMPCOMB 에서는 세 가지 프롬프트 변형을 사용하여 견고성을 테스트.
표현적 평가 (Representational Evaluation):
- 모델의 **내부 은닉 상태 (Hidden States)**를 분석.
- Transformer 레이어별 (5 레이어 간격) 은닉 벡터를 추출.
- AddOne/PLANE: 레이어별 선형 분류기 (Linear Classifier) 를 학습하여 함의 라벨 예측 정확도 측정.
- COMPCOMB: 토큰 임베딩 간의 코사인 유사도를 계산하여 의미적 관계 구분 능력 측정.

3. 주요 결과 (Key Results)

연구 결과는 기능적 성능과 내부 표현 사이에 **놀라운 불일치 (Striking Divergence)**가 있음을 보여줍니다.

기능적 성능의 불일치:
- 모델의 크기 확장 (Scaling) 과 지시 미세 조정 (Instruction Tuning) 이 전반적인 능력 향상과 연관되어 있음에도 불구하고, 구성성 태스크 성능은 일관되게 향상되지 않았습니다.
- 특히 AddOne 과 COMPCOMB 과제에서는 오히려 지시 미세 조정 (IT) 이나 모델 크기 증가 시 성능이 감소하는 경향이 관찰되었습니다.
- PLANE 과 같은 일부 태스크는 변형에 따라 비교적 안정적이었으나, 전반적인 추세는 "더 큰 모델 = 더 나은 구성성"이라는 가설을 지지하지 않았습니다.
표현적 신호의 안정성:
- 반면, 내부 표현 분석에서는 모든 모델 패밀리와 변형에서 구성성 정보가 일관되게 인코딩되어 있었습니다.
- 구성성 신호는 중간 레이어 (Intermediate layers) 에서 가장 강하게 나타났으며, Base, IT, Large 모델 간에 유사한 추세를 보였습니다.
- 즉, 모델 내부에는 구성적 지식이 명확히 존재하지만, 이것이 외부 태스크 수행으로 일관되게 발현되지 않는 것으로 나타났습니다.
종합적 결론:
- LLM 은 구성적 표현을 reliably 개발하지만, 이를 기능적 태스크 성공으로 변환하는 데 실패하거나 일관성이 부족합니다.
- 기능적 평가만으로는 모델의 실제 구성 능력을 과소평가할 수 있으며, 표현적 분석만으로는 실제 행동 능력을 과대평가할 수 있습니다.

4. 기여 및 의의 (Contributions & Significance)

이중 관점 평가의 필요성 강조:
- 기존 연구가 기능적 성능 또는 표현적 분석 중 하나에만 의존했던 것과 달리, 본 연구는 두 관점을 대조하여 모델 능력에 대한 더 포괄적인 이해를 제공했습니다.
- "LLM 은 구성적인가?"라는 질문에 대해 "내부적으로는 구성적이지만, 행동적으로는 그렇지 않을 수 있다"는 뉘앙스를 제시했습니다.
대조적 평가 프레임워크 (Contrastive Evaluation) 제안:
- 모델의 내부 구조와 외부 출력 간의 불일치를 이해하는 것이 모델의 **견고성 (Robustness)**과 **안전성 (Safety)**을 평가하는 데 필수적임을 강조했습니다.
- 단순한 태스크 점수만으로는 모델의 진정한 능력을 파악하기 어렵다는 점을 지적했습니다.
새로운 데이터셋 및 방법론:
- 과일반화를 평가하기 위한 새로운 데이터셋 COMPCOMB를 제안하고 공개했습니다.
- 다양한 모델 패밀리와 스케일링, 미세 조정 전략을 아우르는 체계적인 비교 분석을 수행했습니다.

5. 한계점 및 향후 과제

범위 제한: 평가가 형용사 - 명사 구성성에 국한되어 있어, 어휘 수준이나 문장 수준의 다른 구성성 영역으로의 일반화 필요.
인과관계 부재: 내부 표현과 태스크 수행 간의 인과관계를 입증하지는 못함 (단순 상관관계 확인). 향후 활성화 패칭 (Activation Patching) 등의 개입 기법을 통한 연구 필요.
평가 패러다임: 현재는 프롬프트 기반 기능 평가와 선형 탐지 (Linear Probing) 두 가지 방식만 비교됨. 더 다양한 분석 렌즈가 필요함.

결론

이 논문은 LLM 이 구성적 지식을 내부적으로 보유하고 있음에도 불구하고, 지시 미세 조정이나 모델 확장 과정에서 그 지식이 태스크 수행으로 효과적으로 전환되지 않을 수 있음을 실증했습니다. 이는 LLM 의 능력을 평가할 때 기능적 성능과 내부 표현 분석을 통합한 다각적인 접근이 필수적임을 시사하며, 향후 모델 개발 및 평가 기준 설정에 중요한 통찰을 제공합니다.