Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

이 논문은 인간의 학습 과정에 영감을 받아, 오답 시 탐색을 확장하고 정답 시 불필요한 반복을 줄이는 동적 보상 체계 'T2T(Thickening-to-Thinning)'를 제안하여 LLM 의 추론 능력을 획기적으로 향상시켰다고 요약할 수 있습니다.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 핵심 비유: "책을 두껍게 읽고, 얇게 정리하기"

중국 수학자 화로증 (Hua Luogeng) 은 "책을 읽을 때는 처음엔 두껍게 (Thick) 읽고, 나중에 얇게 (Thin) 정리하라"고 했습니다. 이 논문의 T2T 는 이 원리를 인공지능 학습에 적용했습니다.

1. 첫 번째 단계: "두꺼워지기" (Thickening) - 탐험의 시간

  • 상황: 인공지능이 문제를 풀지 못했거나, 매우 어려운 문제에 부딪혔을 때.
  • 인간의 행동: 우리는 모르는 문제가 나오면 바로 답을 내지 않습니다. 여러 가지 방법을 시도해보고, 실수도 하고, 길게 설명하며 다양한 가능성을 탐색합니다.
  • T2T 의 역할: 인공지능이 틀렸을 때는 "더 길고, 더 많은 말을 하라"고 보상합니다.
    • 마치 미로에서 길을 잃었을 때일수록 더 넓은 범위를 뒤져보는 것과 같습니다.
    • "아직 답을 찾지 못했으니, 더 많이 생각하고 더 길게 설명하며 새로운 길을 찾아봐!"라고 장려합니다.

2. 두 번째 단계: "얇아지기" (Thinning) - 정리의 시간

  • 상황: 인공지능이 문제를 성공적으로 풀었을 때.
  • 인간의 행동: 답을 찾으면 불필요한 수다를 줄이고, 핵심만 간결하게 정리해서 기억합니다.
  • T2T 의 역할: 인공지능이 맞았을 때는 "짧고 간결하게 말하라"고 보상합니다.
    • 마치 여행에서 좋은 사진을 찍고 나면 불필요한 짐을 버리고 핵심만 챙기는 것과 같습니다.
    • "이미 답을 찾았으니, 불필요한 말은 빼고 핵심만 간결하게 정리해서 기억해!"라고 가르칩니다.

🤖 기존 방식 vs T2T 방식

  • 기존 방식 (GRPO 등):

    • "정답이면 무조건 점수 100 점, 오답이면 0 점."
    • 문제는 정답을 찾았더라도 길게 말하든 짧게 말하든 똑같이 점수를 줍니다.
    • 결과: 인공지능이 정답을 찾아도 불필요하게 길게 떠들거나 (지루함), 어려운 문제를 풀 때 너무 빨리 포기하는 (탐색 부족) 문제가 생깁니다.
  • T2T 방식 (이 논문):

    • "어려운 문제 (틀렸을 때)" → 길게 말하면 점수 UP (탐색 장려)
    • "쉬운 문제 (맞았을 때)" → 짧게 말하면 점수 UP (효율성 장려)
    • 결과: 인공지능은 어려운 문제일수록 더 깊게 생각하게 되고, 이미 아는 문제일수록 더 빠르게 답을 내게 됩니다.

🧪 실험 결과: 무엇이 달라졌나요?

연구진은 수학 경시대회 문제 (MATH, AIME 등) 로 이 방법을 테스트했습니다.

  1. 더 똑똑해짐: 기존 방식보다 훨씬 더 어려운 수학 문제를 맞혔습니다.
  2. 더 효율적임: 정답을 낼 때 불필요한 말을 줄여, 계산 속도가 빨라졌습니다.
  3. 모델 크기에 따라 적응:
    • 작은 모델 (초보생) 은 "두꺼워지기" 단계에서 더 많이 생각하도록 도와주어 실력을 키웠습니다.
    • 큰 모델 (고수) 은 "얇아지기" 단계를 통해 이미 아는 내용을 더 깔끔하게 정리하게 되었습니다.

💡 결론: 왜 이 방법이 중요한가요?

이 방법은 인공지능에게 "무조건 짧게 말하라"거나 "무조건 길게 생각하라"는 고정된 규칙을 강요하지 않습니다. 대신, 상황에 따라 유연하게 생각하게 합니다.

  • 모를 때는: "더 많이, 더 길게, 더 깊게 생각해보자!" (두꺼워지기)
  • 알 때는: "핵심만 간결하게 정리하자!" (얇아지기)

이처럼 인간의 학습 과정을 모방한 이 방식은 인공지능이 복잡한 문제를 해결할 때, 불필요한 에너지를 낭비하지 않으면서도 필요한 곳에는 충분히 집중하게 만들어줍니다. 마치 우리가 공부할 때, 모르는 부분은 꼼꼼히 파고들고, 아는 부분은 빠르게 훑어보는 것과 똑같은 원리입니다.