Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"지식은 많지만 지혜는 부족한 AI"**에 대한 이야기입니다.

마치 수학 문제를 아주 잘 푸는 천재 학생이 있지만, 정작 실제 교실에서 아이들을 가르치는 방법은 전혀 모르고 있는 상황과 비슷합니다. 이 연구는 최신 대형 언어 모델 (LLM) 들이 교육 현장에서 얼마나 쓸모있는지, 혹은 얼마나 위험할 수 있는지 실험을 통해 밝혀냈습니다.

핵심 내용을 쉬운 비유로 설명해 드릴게요.

1. 핵심 문제: "지식"과 "지혜"의 차이

논문 제목인 **"Knowledge without Wisdom (지식 없는 지혜)"**를 이해하려면 다음을 상상해 보세요.

지식 (Knowledge): AI 는 인터넷에 있는 모든 책을 다 읽었습니다. "좋은 수업이란 무엇인가?"에 대한 정의, 교육학 이론, 훌륭한 선생님의 말투를 아주 유창하게 말할 수 있습니다. 마치 교육학 시험에서 만점을 받는 학생 같습니다.
지혜 (Wisdom): 하지만 실제 교실이라는 복잡한 현실에서, "어떤 수업이 아이들의 성적을 실제로 올려줄까?"를 판단하는 능력은 없습니다.

비유:
AI 는 요리 책 (데이터) 을 통째로 외운 셰프입니다. 책에 나온 대로 "이 요리는 소금을 1g 덜 넣어야 맛있다"고 말은 잘하지만, 정작 실제 손님 (학생) 의 입맛을 보고 소금기를 조절하는 능력은 전혀 없습니다. AI 는 "맛있어 보이는 요리"는 잘 만들지만, "실제로 배부르게 해주는 요리"는 못 만드는 것입니다.

2. 실험 내용: AI vs. 실제 선생님 vs. 학생 성적

연구진은 미국의 초등학교 수학 수업 녹음 파일 (전사본) 을 16 개의 최신 AI 모델에게 주었습니다. 그리고 AI 에게 "이 수업의 질을 1 점부터 3 점까지 매겨봐"라고 시켰습니다.

그 결과를 세 가지 기준으로 비교했습니다.

전문가 평가: 실제 교육 전문가들이 본 수업 평가.
학생 성적 (가장 중요): 그 수업을 들은 아이들이 실제로 성적이 올랐는지 (Value-Added Measures).
AI 평가: AI 가 매긴 점수.

3. 충격적인 발견 3 가지

① AI 들은 서로 너무 비슷하게 틀립니다 (집단 광기)

AI 모델들은 서로 다른 회사에서 만들었지만, 서로 매우 비슷하게 수업의 질을 평가했습니다.

비유: 서로 다른 16 명의 가짜 요리 평론가가 모여서, "이 요리는 소금기가 부족해"라고 모두 똑같이 말하는데, 정작 그 요리를 먹어본 **손님 (학생)**들은 "아, 이거 진짜 맛있는데?"라고 느끼는 상황입니다.
AI 들은 인터넷에 있는 '교육에 대한 글'을 바탕으로 "좋은 수업"이 어떻게 생겼는지 공통된 편견을 가지고 있습니다. 하지만 그 편견은 실제 아이들의 학습과는 맞지 않습니다.

② "전문가 점수"와 "실제 성적"은 다릅니다 (가짜 신호)

AI 가 "이 수업은 전문가들이 좋아할 만한 수업이야"라고 점수를 높게 줄수록, 실제 아이들의 성적은 오히려 떨어지는 경향이 있었습니다.

비유: AI 는 "화려한 장식과 예쁜 접시"를 보고 "이 요리는 최고야!"라고 점수를 줍니다. 하지만 그 요리는 소화불량을 일으키는 음식이었습니다.
AI 는 수업이 "교육학적으로听起来 (들려서) 훌륭해 보이는지"는 잘 파악하지만, "아이들이 실제로 무엇을 배우고 성장이 되는지"는 전혀 모릅니다.

③ 여러 AI 를 합쳐도 해결되지 않습니다 (악순환)

일반적으로 "여러 전문가의 의견을 모으면 더 정확해진다"고 생각합니다. 그래서 연구진은 여러 AI 의 의견을 합치거나, 교육 지식이 많다고 알려진 AI 에게 더 많은 가중치를 주었습니다.

결과: 오히려 더 나빠졌습니다.
비유: 16 명의 가짜 평론가들이 모두 "이 요리는 소금기가 부족해"라고 말하면, 그들을 합쳐서 만든 최고의 요리 평론가 팀은 "소금기가 정말 부족해!"라고 더 확신 있게 말하게 됩니다. 하지만 정작 그 요리는 이미 소금기가 너무 많아서 먹을 수 없는 상태일 수 있습니다. 서로가 서로의 잘못된 편견을 증폭시킨 것입니다.

4. 왜 이런 일이 일어날까요? (원인)

연구진은 이 문제가 AI 하나하나의 실수가 아니라, 모든 AI 가 공유하는 근본적인 문제라고 말합니다.

원인: 모든 AI 는 인터넷에 있는 텍스트로 학습했습니다. 하지만 실제 아이들의 교실 대화는 인터넷에 거의 없습니다. (아이들의 프라이버시 보호 때문에요.)
결과: AI 는 "교실"이라는 낯선 환경에 들어와서, 인터넷에서 배운 "교육에 대한 이론"을 무리하게 적용합니다. 마치 사막에서 배운 수영 이론으로 바다에 뛰어드는 것과 같습니다. 이론은 완벽할지 몰라도, 실제 물살을 이겨내지는 못합니다.

5. 결론: 우리가 무엇을 배워야 할까?

이 논문은 우리에게 중요한 메시지를 줍니다.

AI 는 아직 교실의 "지혜"를 갖지 못했습니다. AI 가 교육 관련 말을 잘한다고 해서, 실제 학생의 학습을 돕는 도구가 될 수 있다는 보장은 없습니다.
단순한 지시만으로는 해결되지 않습니다. "더 잘해봐", "이렇게 생각해보라"고 AI 에게 말한다고 (프롬프트 엔지니어링) 해서 이 문제가 해결되지 않습니다. AI 의 학습 데이터 자체에 근본적인 한계가 있기 때문입니다.
위험한 상황: 만약 우리가 AI 가 매긴 점수만 믿고 "이 선생님이 훌륭하구나"라고 판단하거나, AI 가 만든 수업 자료를 쓴다면, 실제로는 아이들의 학습을 방해할 수 있습니다.

한 줄 요약:

"AI 는 교육학 교과서는 다 외웠지만, 실제 아이들의 마음을 읽고 성적을 올려주는 '진짜 지혜'는 아직 배우지 못했습니다. 우리가 AI 를 교육에 쓸 때는 그 '지식'과 '현실' 사이의 괴리를 항상 경계해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"지식 없는 지혜: LLM 과 의도된 영향 간의 불일치 측정 (Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact)"**이라는 제목으로, 대규모 언어 모델 (LLM) 이 교육 benchmarks(벤치마크) 에서 우수한 성능을 보임에도 불구하고, 실제 교실 환경에서의 학습 결과 (학습 성취도 향상) 와는 정반대되거나 무관한 평가를 내릴 수 있음을 실증적으로 규명한 연구입니다.

저자 (Michael Hardy, Yunsung Kim, Stanford University) 는 LLM 이 교육적 맥락에서 '지식 (Knowledge)'은 가지고 있을지라도, 실제 학습을 촉진하는 '지혜 (Wisdom)'를 결여하고 있음을 주장합니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 연구 배경 및 문제 정의 (Problem)

벤치마크와 실제 영향의 괴리: LLM 은 지식 기반 벤치마크 (QA, 용어 생성 등) 에서 뛰어난 성능을 보이지만, 이는 실제 교육 현장에서의 '의도된 영향 (Intended Impact)', 즉 학생의 학습 성취도 향상과 직접적인 연관이 없습니다.
대리 평가 (Proxy Evaluation) 의 한계: 기존 연구들은 전문가의 선호도나 벤치마크 점수를 교육의 질을 평가하는 대리 지표로 사용했으나, 이는 실제 학습 결과를 보장하지 못합니다.
OOD(Out-of-Distribution) 과제의 어려움: 초등학생의 수학 수업 대화록은 LLM 의 사전 학습 데이터 (인터넷 텍스트) 에 거의 포함되지 않아, 모델들이 이 영역에서 어떻게 일반화하는지, 그리고 어떤 편향을 공유하는지 연구할 필요가 있습니다.
핵심 질문: LLM 이 교실 수업의 질을 평가할 때, 전문가의 평가와 일치할 뿐만 아니라 실제 학생의 학습 성취도 (Learning Gains) 와도 일치하는가?

2. 방법론 (Methodology)

이 연구는 16 개의 주요 기초 모델 (Foundation Models, FMs) 을 대상으로 다음과 같은 실험 설계를 수행했습니다.

A. 데이터셋

NCTE (National Center for Teacher Effectiveness) 메인 연구 데이터: 미국 4~5 학년 수학 수업 311 개 교실, 479 개의 수업 대화록 (Transcripts) 사용.
평가 기준 (Ground Truth):
1. 전문가 인간 평가 (Downstream Task): MQI (수학 수업의 질) 와 CLASS (일반 교실 질) 도구를 사용하여 인간 전문가가 매긴 점수.
2. 의도된 영향 (Intended Impact): 학생의 학습 성취도 향상을 측정한 가치 추가 측정치 (Value-Added Measures, VAMs). 이는 교사의 수업이 학생의 학습에 미치는 인과적 효과를 통계적으로 추정한 '골드 스탠다드'입니다.

B. 실험 설계

OOD 태스크: 16 개의 LLM 에게 7 가지 다른 수업 평가 항목 (예: 학생 오류 교정, 수업 대화, 언어의 정확성 등) 에 대해 0-shot 프롬프트를 사용하여 순서형 점수 (Ordinal Ratings) 를 부여하도록 요청.
정렬 (Alignment) 측정:
- LLM 점수와 인간 전문가 점수 간의 일치도.
- LLM 점수와 VAM(학생 학습 성취도) 간의 일치도.
- 통계적 지표: 절대 점수 비교 대신 **Kendall's $\tau$ (순위 상관관계)**를 사용하여 두 평가가 상대적 순서 (A 가 B 보다 낫다) 에 대해 얼마나 일치하는지 측정. 이는 노이즈에 강건한 방법입니다.
- 의존성 측정: **Bias-Corrected Squared Distance Correlation ( $dCor^2_n$ )**을 사용하여 모델 간 행동의 유사성과 비선형 의존성을 분석.

C. 오차 원인 분석 (Variance Decomposition)

일반화 이론 (Generalizability Theory) 프레임워크를 사용하여 예측 오차의 분산을 분해.
오차의 원인을 모델 선택 (M), 프롬프트 선택 (P), 과제 (I), 대화록 (C) 및 그 상호작용으로 나누어, 어느 정도가 개발자가 통제 가능한 요소 (모델/프롬프트) 이고 어느 정도가 시스템적 편향인지 정량화.

3. 주요 결과 (Key Results)

A. 모델 간의 강한 수렴 편향 (Convergent Bias)

서로 다른 LLM 들 간의 평가 결과 상관관계가 전문가 인간 평가와의 상관관계보다 훨씬 높음.
즉, 다양한 LLM 은 인간 전문가가 구분하는 교육적 construct 와는 다르게, 서로 공유하는 잠재적 휴리스틱 (latent heuristic) 을 기반으로 유사한 평가를 내림.
이는 공통된 사전 학습 데이터 (Internet text) 와 아utoregressive 학습 구조에서 기인한 시스템적 편향임을 시사.

B. 대리 지표와 실제 영향의 불일치 (Misalignment)

핵심 발견: LLM 이 인간 전문가의 평가와 높은 일치도 ( $\tau_{SfX}$ ) 를 보일 때, 오히려 학생 학습 성취도 (VAM) 와는 낮은 상관관계 또는 부정적 상관관계를 보임.
모델이 "교육적으로 올바른 말"을 하거나 전문가의 rubric 을 잘 따르는 것처럼 보일지라도, 실제로는 학습에 도움이 되지 않는 교실 환경을 '좋은 수업'으로 평가하는 경향이 있음.
**Chain-of-Thought (CoT)**나 추가적인 추론 프롬프트를 사용해도 이 불일치를 해결하지 못함.

C. 앙상블 (Ensembling) 의 역효과

전문가 가중치 앙상블: 벤치마크 성능이 좋은 모델에 가중치를 두어 투표.
만장일치 투표: 모든 모델이 동의하는 경우만 선택.
결과: 두 방법 모두 학생 학습 성취도와의 정렬을 개선하지 못했고, 오히려 불일치를 악화시킴. 모델들이 공유하는 잘못된 휴리스틱이 증폭되는 효과가 발생.

D. 오차의 분산 분석 (Variance Decomposition)

전체 불일치 오차의 50% 가 모델 간에 공유됨.
**모델 선택 (4.8%)**과 **프롬프트 선택 (1.0%)**이 설명하는 분산은 매우 작음.
이는 불일치가 특정 모델의 결함이 아니라, 현재 LLM 의 사전 학습 (Pretraining) 구조와 데이터 분포에서 비롯된 시스템적, 구조적 문제임을 의미함.

4. 주요 기여 (Contributions)

교육적 맥락에서의 결과 기반 평가: LLM 을 인간 선호도가 아닌, 실제 학생 학습 성취도 (VAM) 라는 '의도된 영향' 기준으로 평가한 최초의 연구 중 하나.
불일치의 정량화: LLM 의 실행 (Downstream Task) 과 의도된 영향 (Intended Impact) 사이의 새로운 간극을 직접 측정하고 정량화함.
시스템적 편향의 규명: 모델 선택이나 프롬프트 엔지니어링으로 해결되지 않는, 사전 학습 데이터에 기인한 구조적 편향이 존재함을 증명.
방법론적 혁신: 고노이즈 (High-noise) 환경에서 복잡한 교육 과제의 정렬을 측정하기 위한 강건한 방법론 (Kendall's $\tau$ , 분산 분해, 거리 상관관계) 을 제시.

5. 의의 및 시사점 (Significance)

교육 AI 의 위험성: LLM 이 교실 수업 평가나 피드백 도구로 사용될 경우, 표면적으로는 그럴듯해 보이지만 실제로는 학생의 학습을 저해할 수 있는 위험이 있음.
벤치마크의 한계: 기존 벤치마크 점수가 높은 모델이 실제 교육 현장에서는 실패할 수 있음을 경고.
기술적 한계: 단순히 모델을 더 크게 하거나 (Scaling), 더 많은 데이터로 학습시키는 것만으로는 해결되지 않는 '지식과 지혜의 괴리'가 존재함.
윤리적 고려사항: 교육 기술 (EdTech) 개발자들은 모델의 '지식'이 아닌 '실제 학습 영향'을 검증해야 하며, 현재와 같은 접근 방식은 교육 불평등을 심화시킬 수 있음 (Matthew Effect).

결론

이 논문은 LLM 이 교육 분야에서 "지식 (Knowledge)"은 풍부하지만, 실제 학습을 이끄는 "지혜 (Wisdom)"는 결여되어 있음을 보여줍니다. 모델들이 공유하는 사전 학습 편향은 교육적 목표와 정렬되지 않을 뿐만 아니라, 때로는 학습 결과와 부정적으로 연관될 수 있습니다. 따라서 교육용 AI 를 개발할 때는 단순한 벤치마크 성능이 아닌, 실제 학습 결과에 대한 엄격한 정렬 검증이 필수적임을 강조합니다.