Each language version is independently generated for its own context, not a direct translation.
🎭 핵심 비유: "무대 위의 배우 vs. 무대 뒤의 뇌"
이 연구는 언어 모델을 두 가지 다른 렌즈로 바라봤습니다.
- 기능적 평가 (Functional): 무대 위에서 배우가 대사를 얼마나 잘 연기하는지 보는 것 (실제 성능).
- 표상적 평가 (Representational): 무대 뒤에서 배우의 뇌가 대사를 어떻게 처리하고 있는지 분석하는 것 (내부 상태).
연구자들은 이 두 가지가 완전히 다르게 움직인다는 놀라운 사실을 발견했습니다.
🧩 연구의 배경: "조립"의 능력
우리는 "빨간 사과"라고 할 때, '빨간'과 '사과'를 따로 알고 있으면 그 조합의 의미를 자연스럽게 이해합니다. 이를 **조립성 (Compositionality)**이라고 합니다.
- 질문: 최신 AI 모델들은 이 능력을 진짜로 가지고 있을까요?
- 기존 생각: 모델이 더 커지고 (스케일링), 더 잘 가르치면 (지시 튜닝), 당연히 이 능력도 좋아질 거라고 믿었습니다.
🔍 실험 내용: 세 가지 미션
연구진은 AI 에게 세 가지 언어 미션을 주었습니다.
- 대체성 (Substitutivity): "달리는 선수가 기록을 세웠다" → "달리는 선수가 새로운 기록을 세웠다"로 바꿔도 뜻이 통하는가? (단순한 단어 교체)
- 체계성 (Systematicity): "빨간 차"는 "차"이고, "차"는 "탈것"입니다. 그렇다면 "빨간 차"는 "빨간 탈것"일까요? (알고 있는 규칙을 새로운 상황에 적용)
- 과도한 일반화 방지 (Overgeneralization): "코트"는 옷입니다. "트렌치코트"는 코트 종류지만, "턴코트 (배신자)"는 옷이 아닙니다. 표면만 보고 "턴코트도 코트야!"라고 착각하지 않는가?
📉 놀라운 결과: "뇌는 알고 있지만, 입은 말을 못 한다"
연구 결과는 마치 완벽한 이론을 가진 천재 학생이 시험에서 당황하는 모습과 같았습니다.
1. 무대 위의 배우 (실제 성능) 🎭
- 모델을 더 크게 만들거나, 지시 사항을 더 잘 따르도록 훈련시켰을 때, 실제 시험 점수는 오히려 떨어지거나 변하지 않았습니다.
- 특히 "과도한 일반화 방지" 같은 어려운 문제에서는 더 큰 모델일수록 엉뚱한 답을 내놓기도 했습니다.
- 비유: "머리는 더 좋아졌는데, 시험을 볼 때 왜 자꾸 실수를 할까?"
2. 무대 뒤의 뇌 (내부 상태) 🧠
- 하지만 모델의 내부 (레이어) 를 살펴보니, 의미 조합에 대한 정보는 이미 완벽하게 저장되어 있었습니다.
- 모델의 뇌 속에는 "빨간 차는 빨간 탈것이다"라는 논리가 명확하게 존재했습니다.
- 비유: "뇌 속에는 정답이 꽉 차 있는데, 왜 입 밖으로 내뱉지 못하지?"
💡 결론: 왜 이런 일이 일어날까?
이 논문은 **"모델이 능력을 가지고 있는지 (뇌) 와, 그 능력을 발휘하는지 (행동) 는 별개의 문제"**라고 말합니다.
- 기존의 문제: 우리는 모델이 "정답을 맞히면" 능력이 있다고 판단했습니다. 하지만 이 연구는 모델이 내부적으로는 이미 능력이 있는데, 출력 단계에서 실패할 수도 있다고 보여줍니다.
- 비유: 요리사가 레시피 (내부 지식) 는 완벽하게 알고 있는데, 요리를 해낼 때 (실제 출력) 실수만 반복한다면, 우리는 그 요리사를 "요리 실력이 없다"고 단정 짓기엔 너무 성급한 것일 수 있습니다.
🚀 이 연구가 우리에게 주는 교훈
- 한 가지 방법만 믿지 마세요: 모델의 성능을 볼 때, 단순히 "시험 점수"만 보면 안 됩니다. 모델의 "뇌 속"을 들여다보는 분석도 함께 해야 합니다.
- 대조적 평가 (Contrastive Evaluation) 의 중요성: 모델이 무엇을 알고 있는지 (내부) 와 무엇을 할 수 있는지 (외부) 를 비교하며 평가해야 진짜 능력을 파악할 수 있습니다.
- 안전한 AI 를 위해: 모델이 내부적으로는 논리 정연한데, 외부적으로는 엉뚱한 말을 한다면, 이는 AI 를 실제 사회에 적용할 때 큰 위험이 될 수 있습니다.
📝 한 줄 요약
"거대 언어 모델은 이미 '조립'하는 법을 뇌 속에 완벽하게 기억하고 있지만, 막상 시험을 치르면 그 능력을 제대로 발휘하지 못해 당황스러운 모습을 보입니다. 따라서 우리는 모델의 '뇌'와 '입'을 모두 살펴봐야 진짜 능력을 알 수 있습니다."