Learning to Answer from Correct Demonstrations

이 논문은 정답이 여러 개인 질문 응답 문제를 컨텍스트 밴딧의 모방 학습으로 공식화하고, 보상 모델의 복잡성만 제한하는 더 약한 가정 하에서 기존 최대우도법보다 효율적인 단일 패스 온라인 접근법을 제안하여 시연자 수준의 성능을 달성함을 보여줍니다.

Nirmit Joshi, Gene Li, Siddharth Bhandari, Shiva Prasad Kasiviswanathan, Cong Ma, Nathan Srebro

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 정답이 하나만 있는 게 아닙니다

상상해 보세요. 수학 문제를 풀 때, A 라는 학생은 식을 세 번 풀어서 정답을 냈고, B 라는 학생은 다른 방법으로 두 번 풀어서 같은 정답을 냈습니다. 둘 다 완벽한 정답입니다.

기존의 AI 학습 (지도 미세 조정, SFT) 은 마치 **"A 학생이 쓴 글씨체와 풀이 순서를 그대로 베껴라"**라고 가르칩니다.

  • 기존 방식 (최대 우도 추정, MLE): "A 학생이 쓴 답을 100% 똑같이 따라 하라."
    • 단점: 만약 AI 가 A 학생의 글씨체만 배우고, B 학생의 답을 보지 못하면, B 학생처럼 풀 수 있는 정답은 AI 가 못 찾게 됩니다. 게다가 정답의 종류가 수백만 가지라면, 그중 하나를 골라내려고 모든 경우의 수를 다 외우려고 하면 AI 는 미쳐버립니다.

2. 이 논문의 핵심 아이디어: "정답의 기준"을 배우자

이 논문은 **"글씨체나 풀이 순서를 베끼는 게 아니라, '무엇이 정답인지'를 판단하는 기준 (보상 모델) 을 배우자"**고 말합니다.

  • 새로운 방식 (상징적 학습): "A 학생이든 B 학생이든 상관없어. 정답이 맞는지 판단하는 '검열관'의 눈을 배우는 게 중요해."
    • 여기서 '검열관'은 어떤 답이든 맞으면 1 점, 틀리면 0 점을 주는 규칙입니다.
    • AI 는 이 규칙을 배우고, 그 규칙에 맞는 답을 하나만 골라내면 됩니다.

3. 왜 기존 방식은 실패할까요? (비유: 요리 레시피)

  • 기존 방식 (MLE): "명장 요리사 A 의 레시피를 100% 똑같이 따라 하라."

    • 만약 명장 A 가 "소금 1 티스푼"을 넣었다면, AI 는 그걸 외웁니다. 하지만 명장 B 는 "소금 1 티스푼 대신 간장 1 방울"로 같은 맛을 냈을 수도 있습니다. AI 가 A 의 레시피만 외우면 B 의 맛은 절대 낼 수 없습니다.
    • 더 큰 문제는, 정답이 너무 많을 때 (예: 수백만 가지의 맛있는 요리) AI 가 모든 레시피를 다 외우려다 **기억력 부족 (데이터 부족)**으로 실패한다는 것입니다.
  • 이 논문의 방식: "맛있는 요리의 기준 (신선한 재료, 적절한 간) 을 배우고, 그 기준에 맞는 요리를 하나 만들어라."

    • AI 는 A 의 레시피를 그대로 복사하지 않아도 됩니다. 대신 "이 재료가 신선한지, 간이 적절한지"를 판단하는 **기준 (Reward Class)**을 배우면 됩니다.
    • 이 기준은 레시피보다 훨씬 단순하고 적기 때문에, AI 가 훨씬 적은 데이터로도 정답을 찾아낼 수 있는 능력을 익힐 수 있습니다.

4. 이 논문이 제안한 '스마트한 학습법'

이 논문은 단순히 정답을 외우는 게 아니라, "어떤 답이 맞는지 판단하는 규칙들 (Reward Class)" 중에서 가장 적합한 규칙을 찾아내는 알고리즘을 개발했습니다.

  • 비유: 추리 게임
    • AI 는 여러 가지 '정답 규칙' (가설) 을 가지고 시작합니다.
    • 명장 (교사) 이 정답을 보여줄 때마다, AI 는 "내 가설 중 이 정답과 맞지 않는 규칙들은 버리고, 맞는 규칙들의 점수를 올려라"라고 합니다.
    • 이 과정을 반복하면, AI 는 정답을 찾아내는 능력은 유지하면서, 불필요한 '레시피 복사'는 하지 않게 됩니다.

5. 왜 이것이 중요한가요?

  • 효율성: 정답이 수백만 가지인 복잡한 문제 (코드 작성, 에세이 쓰기, 수학 문제) 에서, AI 가 모든 정답을 외울 필요 없이 정답을 찾아내는 능력만 익히면 됩니다. 데이터 양이 적어도 훨씬 잘 학습합니다.
  • 유연성: A 학생의 방식만 배우지 않고, B, C, D 학생의 방식도 모두 받아들일 수 있는 유연한 AI 가 됩니다.
  • 실용성: 현대의 대형 언어 모델 (LLM) 은 사용자의 질문에 "가장 좋은 답" 하나를 주는 게 목표입니다. 사용자의 답을 그대로 복사하는 게 아니라, 사용자가 만족할 만한 답을 찾아내는 능력을 키우는 것이 더 중요합니다.

요약

이 논문은 **"정답을 베끼는 것 (Distribution Matching) 이 아니라, 정답을 판단하는 기준 (Reward Maximization) 을 배우는 것이 더 쉽고 효과적이다"**라고 주장합니다.

기존 방식이 **"명장의 손짓을 따라 하는 것"**이라면, 이 논문이 제안하는 방식은 **"명장의 '맛'을 아는 미각을 기르는 것"**입니다. 미각만 있다면, 어떤 재료를 써서 요리하든 맛있는 요리를 만들어낼 수 있기 때문입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →